Aller au contenu principal

Bibliométrie et impact de la recherche - Sources de données

Quelles données utilise-t-on en bibliométrie?

Le plus souvent, l'analyse bibliométrique se fonde sur les métadonnées d'un ensemble de publications scientifiques, extraites au préalable d'une ou de plusieurs bases de données bibliographiques.

Ces métadonnées peuvent comprendre, pour chaque publication :

  • le nom des auteurs et autrices, ainsi que leur affiliation;
  • l'année de publication;
  • le résumés et les mots-clés;
  • les sources citées;
  • les citations reçues;
  • etc.

Les mesures alternative de l'impact (altmetrics) emploient quant à elles un large éventail de données obtenues généralement hors des bases de données bibliographiques.

Limites des sources de données bibliométriques

Attention! Les bases de données utilisées en bibliométrie ne couvrent pas l'intégralité de la littérature scientifique. Beaucoup de publications n'y sont pas incluses.

Ces lacunes tendent à désavantager :

  • certaines langues de publication (le français, l'espagnol, l'allemand, le mandarin... autrement dit, tout ce qui n’est pas l’anglais);
  • certains domaines de recherche (notamment les sciences humaines et sociales); et
  • certains types de publications (livres, rapports, thèses... bref, tout ce qui n’est pas un article savant).

Dans certains domaines, il arrive que les données disponibles soient si incomplètes qu'une analyse bibliométrique classique en devient impossible.

Quelques bases de données importantes

Pour des données bibliométriques classiques (par opposition aux données alternatives), nous vous recommandons tout particulièrement :

OUTIL ACCÈS DESCRIPTION
OpenAlex Gratuit

OpenAlex est un moteur de recherche de publications scientifiques de plus en plus couramment utilisé en bibliométrie.

OpenAlex couvre mieux certains domaines de recherche et certaines langues de publication que Scopus et Web of Science.

Les métadonnées d'OpenAlex tendent cependant à être moins exactes ou complètes que celles de Scopus ou de Web of Science, ce qui peut limiter son utilité pour les analyses à petite échelle.

Scopus Licence UQAR

Scopus est une base de données bibliographique multidisciplinaire couramment utilisée en bibliométrie.

Sa couverture est très vaste, quoiqu'elle ait des limites bien documentées, notamment dans sa couverture des sciences humaines et sociales.

Dans l'ensemble, ses données sont réputées d'excellente qualité.

Scopus est une source reconnue pour les données d'impact des revues scientifiques (surtout dans les disciplines qui y sont les mieux couvertes).

La base de données Scopus est directement connectée à l'outil d'analyse bibliométrique SciVal, auquel la communauté de l'UQAR a également accès.

Web of Science Licence UQAR

Web of Science est une autre base de données multidisciplinaire majeure en bibliométrie.

Comme Scopus, Web of Science couvre une grande partie de la littérature scientifique, mais sa couverture présente des biais défavorisant certaines langues, disciplines et types de publication.

Des études ont démontré que, dans l'ensemble, la couverture de Web of Science est un peu plus limitée que celle de Scopus, bien qu'elle y demeure comparable.

Les boutons « Analyse Results » et « Citation Report », qui apparaissent au-dessus des résultats de recherche, permettent d'effectuer un début d'analyse bibliométrique directement dans la base de données.

Dimensions

Gratuit
(+ version payante)

Dimensions est une base de données rassemblant des publications scientifiques de toutes les disciplines. Sa couverture est plus vaste dans l'ensemble que celle de Scopus et de Web of Science, mais les métadonnées des publications y sont parfois lacunaires (par exemple, beaucoup des publications n'y sont associées à aucun pays ni aucune institution).

Directement dans Dimensions, il est possible de consulter des mesures d'impact alternatives compilées par Altmetric et de visualiser des réseaux créés par VOSviewer Online. 

Dimensions a aussi la particularité de contenir des ensembles de données de recherche et différents types de littérature grise (brevets, rapports, essais cliniques, etc.). Certains types de publications ne sont toutefois pas accessibles dans la version gratuite de Dimensions.

Pourquoi ces bases de données conviennent-elles si bien à la bibliométrie? Parce qu’elles… 

  • couvrent une grande partie de la littérature scientifique (la qualité de cette couverture varie toutefois substantiellement d'un domaine à l'autre);
  • permettent une grande précision dans la recherche avancée;
  • contiennent des données généralement fiables;
  • fournissent des données complètes, y compris sur les citations (X cite Y, est cité par Z);
  • offrent la possibilité d’exporter facilement leurs données.

Note : pour contrer les biais des bases de données nommées plus haut, on peut notamment faire appel à des bases de données nationales ou disciplinaires comme Érudit, JSTOR et Cairn, ou encore à des bases de données spécialisées dans certains types de publications, comme The Lens pour les brevets.

Cependant, dans certaines de ces bases de données, les possibilités d’exportation de données sont très limitées. (Un conseil : utilisez l'extension navigateur de Zotero ou d'EndNote pour exporter les données de plusieurs publications à la fois dans votre logiciel de gestion bibliographique.) De plus, certaines de ces bases de données ne compilent pas d’information sur les citations : elles aident donc à mesurer la production, mais pas l’impact scientifique.

« Et Google Scholar? »

Pour les premières étapes d'une recherche documentaire, c’est un excellent outil. Pour la bibliométrie, toutefois, Google Scholar n'est souvent pas la meilleure ressource disponible :

  • L’exportation de données bibliométriques est laborieuse.
  • L’algorithme de recherche n’est pas transparent et produit des résultats qui varient significativement d’une fois à l’autre.
  • Les fonctions de recherche avancée sont très limitées.
  • La qualité des données laisse souvent à désirer.

En général, il vaut mieux recueillir des données bibliométriques dans Scopus, Web of Science ou OpenAlex plutôt que Google Scholar, sauf peut-être lors d'analyses bibliométriques à grande échelle. Bien entendu, il est possible de vérifier et de nettoyer les données de Google Scholar après leur exportation, mais la tâche peut s'avérer fastidieuse, voire insurmontable lorsqu'il s'agit d'un grand volume de données.

En ce qui concerne la qualité des données, l’exemple suivant (particulièrement aberrant, il est vrai) illustre bien les lacunes de Google Scholar :


Menu interprété par Google Scholar comme un article scientifique


Notez que ce menu de restaurant, que l’algorithme de Google Scholar a pris pour un article scientifique, aurait été cité deux fois! On se permet d’en douter.

On trouve aussi dans Google Scholar des dates de publication erronées : l'article suivant, par exemple, aurait été publié en 2032. (L'erreur vient bien de Google Scholar, et non de l'éditeur.)
 

Article daté de 2032
 

Voilà ce qu'on appelle des recherches d'avant-garde!

chat loading...