Le langage de la science change continuellement. Au cours des dix dernières années, un large éventail de mots et d’expressions sont sortis de l’obscurité pour devenir d’usage courant en science. Ceux-ci incluent Zika, Ebola, ChatGPT et ainsi de suite, des mots qui reflètent le flux et le reflux de la recherche scientifique et des événements et modes plus larges au sein de la science et de la société.
Ces changements apparaissent dans les articles, revues et articles que les scientifiques produisent constamment. En effet, divers chercheurs ont tenté de cartographier l’évolution de la science à travers les changements de langage qu’elle produit.
Et cela soulève une question intéressante sur l’impact de l’intelligence artificielle sur la science. Depuis le lancement public de ChatGPT en novembre 2022, les scientifiques peuvent utiliser les grands modèles linguistiques pour réviser, éditer et parfois rédiger à partir de zéro tous les articles scientifiques qu’ils produisent. Mais on ne sait pas dans quelle mesure ils utilisent réellement ce type d’assistance IA.
Changement historique
Entrez Dmitry Kobak du Hertie Institute for AI in Brain Health à Tübingen, en Allemagne, et ses collègues, qui ont trouvé un moyen de mesurer l’impact des systèmes d’IA sur la littérature scientifique depuis 2022 et de le comparer à l’impact d’autres épisodes scientifiques majeurs. Ils affirment que les grands modèles linguistiques modifient le discours scientifique à une échelle sans précédent dans l’histoire.
Kobak et ses collègues ont commencé par télécharger les résumés de plus de 14 millions d’articles scientifiques publiés dans la base de données biomédicale PubMed depuis 2010. Ils ont ensuite nettoyé la base de données des mots et expressions courants sans rapport avec l’écriture des auteurs, tels que « copyright » ou « Comment citer cet article ». Ils ont ensuite calculé la fréquence d’apparition de chaque mot de plus de trois lettres chaque année. Enfin, ils ont examiné les 800 mots les plus populaires et l’évolution de leur fréquence chaque année.
Les résultats ont immédiatement révélé certaines tendances scientifiques évidentes. Par exemple, la fréquence du mot Ebola a atteint un sommet en 2015 et virus zika en 2017. L’un des changements les plus importants s’est produit en 2020 avec une énorme augmentation de l’utilisation de mots comme confinement, pandémie, respiratoire et Remdesivir lors de l’épidémie de covid, un événement largement reconnu pour avoir eu l’un des impacts les plus importants de l’histoire sur l’édition scientifique.
Mais à la surprise des chercheurs, un changement encore plus important s’est produit en 2024 avec une augmentation de mots comme fouille, crucial, important et potentielCurieusement, ces mots ne sont pas liés au contenu scientifique d’un article mais au style d’écriture.
En effet, les chercheurs suggèrent que ce sont exactement le type de mots privilégiés par les modèles de langage à grande échelle. « L’augmentation sans précédent des mots de style excédentaires en 2024 nous permet de les utiliser comme marqueurs de l’utilisation de ChatGPT », affirment Kobak et ses collègues.
Et le changement a été profond. « Des centaines de mots ont brusquement augmenté leur fréquence après que ChatGPT soit devenu disponible », disent-ils.
Aide anglaise
Kobak et ses collègues ont fixé une limite inférieure au nombre d’articles qui ont été influencés par les modèles de langage larges. Les données suggèrent qu’au moins 10 % des articles publiés sur PubMed en 2024 ont été influencés de cette manière. « Avec environ 1,5 million d’articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à rédiger au moins 150 000 articles par an », concluent les chercheurs.
L’équipe a observé que l’assistance de l’IA était plus courante dans les articles provenant de pays où l’anglais n’était pas la langue maternelle. Cela pourrait suggérer que les non-anglophones utilisent l’assistance de l’IA pour égaliser les chances en matière de rédaction scientifique. Ou cela pourrait signifier que les anglophones utilisent tout autant l’assistance de l’IA, mais sont plus aptes à éliminer son influence de leurs articles avant publication. Quoi qu’il en soit, l’utilisation des LLM semble répandue.
Il s’agit d’un travail intéressant qui met en lumière la façon dont l’IA change non seulement la façon dont les scientifiques écrivent, mais aussi la façon dont la science est menée. « L’effet de l’utilisation du LLM sur la rédaction scientifique est véritablement sans précédent et surpasse même les changements drastiques de vocabulaire induits par la pandémie de Covid-19 », déclarent Kobak et co.
Ce qu’il faut, bien sûr, c’est une compréhension et une reconnaissance plus claires de ces tendances afin que la communauté scientifique puisse mettre en place des garde-fous sur l’utilisation des LLM dans le meilleur intérêt des scientifiques, des éditeurs scientifiques et de la société au sens large, à laquelle la science vise à bénéficier.
Ces travaux semblent constituer une étape importante dans cette direction. Néanmoins, le rythme de changement dans l’utilisation des LLM suggère que les scientifiques et les éditeurs devront agir rapidement pour avoir une chance de suivre le rythme. Et si l’on en croit l’édition scientifique, d’autres domaines de l’édition sont probablement confrontés eux aussi à des défis similaires.
Réf : Plonger dans l’utilisation de ChatGPT dans la rédaction académique grâce à un vocabulaire excessif : arxiv.org/abs/2406.07016