L’image d’un chercheur travaillant seul, à l’écart du reste du monde et de la communauté scientifique, est classique mais erronée. En réalité, la recherche repose sur un échange permanent au sein de la communauté scientifique : vous comprenez d’abord le travail des autres, puis vous partagez vos découvertes.
La lecture et la rédaction d’articles publiés dans des revues spécialisées et présentés lors de conférences sont une partie essentielle du travail d’un chercheur. Lorsqu’un chercheur rédige un article scientifique, il doit citer le travail de ses pairs pour fournir un contexte, détailler les sources d’inspiration et expliquer les différences d’approches et de résultats. Une citation positive par d’autres chercheurs est une mesure clé de la visibilité du travail d’un chercheur.
Mais que se passe-t-il lorsque ce système de citation est manipulé ? article récent du Journal de l’Association pour les sciences de l’information et la technologieUne étude menée par notre équipe de détectives universitaires – qui comprend des scientifiques de l’information, un informaticien et un mathématicien – a révélé une méthode insidieuse pour gonfler artificiellement le nombre de citations par le biais de manipulations de métadonnées : les références furtives.
Manipulation cachée
Les gens sont de plus en plus conscients des publications scientifiques et de leur fonctionnement, y compris de leurs défauts potentiels. L’année dernière seulement, plus de 10 000 articles scientifiques ont été rétractésLes problèmes liés au jeu de citations et les dommages qu’il cause à la communauté scientifique, y compris l’atteinte à sa crédibilité, sont bien documentés.
Les citations d’ouvrages scientifiques respectent un système de référencement standardisé : chaque référence mentionne explicitement au moins le titre, le nom des auteurs, l’année de publication, le nom de la revue ou de la conférence et les numéros de page de la publication citée. Ces informations sont stockées sous forme de métadonnées, non visibles directement dans le texte de l’article, mais attribuées à un identifiant d’objet numérique, ou DOI, un identifiant unique pour chaque publication scientifique.
Les références dans une publication scientifique permettent aux auteurs de justifier des choix méthodologiques ou de présenter les résultats d’études passées, soulignant ainsi le caractère itératif et collaboratif de la science.
Or, nous avons découvert par hasard que certains acteurs peu scrupuleux ont ajouté des références supplémentaires, invisibles dans le texte mais présentes dans les métadonnées des articles, lors de la soumission de ces derniers à des bases de données scientifiques. Résultat ? Le nombre de citations de certains chercheurs ou revues a explosé, alors que ces références n’étaient pas citées par les auteurs dans leurs articles.
Découverte fortuite
L’enquête a commencé lorsque Guillaume Cabanac, professeur à l’Université de Toulouse, a écrit un article sur PubPeerun site Internet dédié à l’évaluation par les pairs après publication, dans lequel les scientifiques discutent et analysent les publications. Dans son message, il explique comment il a remarqué une incohérence : un article de la revue Hindawi qu’il soupçonnait d’être frauduleux parce qu’il contenait des phrases maladroites avait beaucoup plus de citations que de téléchargements, ce qui est très inhabituel.
Le message a attiré l’attention de plusieurs détectives qui sont maintenant les auteurs de la Article de JASIST. Nous avons utilisé un moteur de recherche scientifique pour rechercher des articles citant l’article initial. Google Scholar n’en a trouvé aucun, mais Crossref et Dimensions ont trouvé des références. La différence ? Google Scholar se basera probablement principalement sur le texte principal de l’article pour extraire les références apparaissant dans la section bibliographie, alors que Crossref et Dimensions utilisent les métadonnées fournies par les éditeurs.
Un nouveau type de fraude
Pour comprendre l’ampleur de la manipulation, nous avons examiné trois revues scientifiques publiées par la Technoscience Academy, l’éditeur responsable des articles contenant des citations douteuses.
Notre enquête s’est déroulée en trois étapes :
-
Nous avons répertorié les références explicitement présentes dans les versions HTML ou PDF d’un article.
-
Nous avons comparé ces listes avec les métadonnées enregistrées par Crossref, découvrant des références supplémentaires ajoutées dans les métadonnées mais n’apparaissant pas dans les articles.
-
Nous avons vérifié Dimensions, une plateforme bibliométrique qui utilise Crossref comme source de métadonnées, et avons trouvé d’autres incohérences.
Dans les revues publiées par Technoscience Academy, au moins 9 % des références enregistrées étaient des « références cachées ». Ces références supplémentaires n’étaient présentes que dans les métadonnées, ce qui a faussé le nombre de citations et a conféré à certains auteurs un avantage injuste. Certaines références légitimes ont également été perdues, c’est-à-dire qu’elles n’étaient pas présentes dans les métadonnées.
De plus, en analysant les références sournoises, nous avons constaté qu’elles bénéficiaient grandement à certains chercheurs. Par exemple, un seul chercheur associé à Technoscience Academy a bénéficié de plus de 3 000 citations illégitimes supplémentaires. Certaines revues du même éditeur ont bénéficié de quelques centaines de citations sournoises supplémentaires.
Nous voulions que nos résultats soient validés en externe, nous avons donc publié notre étude en tant que pré-impressiona informé Crossref et Dimensions de nos conclusions et leur a fourni un lien vers l’enquête préimprimée. Dimensions a reconnu les citations illégitimes et a confirmé que sa base de données reflète les données de Crossref. également confirmé les références supplémentaires dans Surveillance de la rétraction et a souligné que c’était la première fois qu’un tel problème lui était signalé dans sa base de données. L’éditeur, sur la base de l’enquête de Crossref, a pris des mesures pour résoudre le problème.
Conséquences et solutions potentielles
Pourquoi cette découverte est-elle importante ? Le nombre de citations influence grandement le financement de la recherche, les promotions universitaires et les classements institutionnels. La manipulation des citations peut conduire à des décisions injustes fondées sur de fausses données. Plus inquiétant encore, cette découverte soulève des questions sur l’intégrité des systèmes de mesure de l’impact scientifique, une préoccupation mise en évidence par les chercheurs depuis des années. Ces systèmes peuvent être manipulés pour favoriser une concurrence malsaine entre les chercheurs, les incitant à prendre des raccourcis pour publier plus rapidement ou obtenir plus de citations.
Pour lutter contre cette pratique, nous proposons plusieurs mesures :
-
Vérification rigoureuse des métadonnées par des éditeurs et des agences comme Crossref.
-
Audits indépendants pour garantir la fiabilité des données.
-
Transparence accrue dans la gestion des références et des citations.
Cette étude est la première, à notre connaissance, à signaler une manipulation des métadonnées. Elle aborde également l’impact que cela peut avoir sur l’évaluation des chercheurs. L’étude souligne, une fois de plus, que le recours excessif aux mesures pour évaluer les chercheurs, leur travail et leur impact peut être intrinsèquement erroné et erroné.
Une telle confiance excessive est susceptible de favoriser des pratiques de recherche douteuses, notamment l’élaboration d’hypothèses après la connaissance des résultats, ou Écouter; la division d’un seul ensemble de données en plusieurs documents, connue sous le nom de découpage en salami ; la manipulation des données ; et le plagiat. Cela entrave également la transparence qui est essentielle pour une meilleure robuste et efficace recherche. Bien que les métadonnées de citation problématiques et les références sournoises aient maintenant été apparemment corrigées, les corrections peuvent avoir, comme c’est le cas c’est souvent le cas avec les corrections scientifiquesc’est arrivé trop tard.
Lonni Besançon est professeur adjoint en visualisation de données à l’université de Linköping. Guillaume Cabanac est Professeur des universités à l’Institut de Recherche en Informatique de Toulouse. Thierry Viéville est le Directeur de Recherche Inria en charge de la médiation scientifique, Inria. Cet article est republié à partir de La conversation sous un Licence Creative Commons. Lis le article original.