La version originale de cette histoire apparaît dans Magazine Quanta.
Il y a deux ans, dans le cadre d’un projet appelé Au-delà du benchmark Imitation Gameou BIG-bench, 450 chercheurs ont dressé une liste de 204 tâches conçues pour tester les capacités de grands modèles de langage, qui alimente les chatbots comme ChatGPT. Sur la plupart des tâches, les performances se sont améliorées de manière prévisible et fluide à mesure que les modèles augmentaient : plus le modèle était grand, plus il s’améliorait. Mais pour d’autres tâches, l’augmentation des capacités n’a pas été fluide. La performance est restée proche de zéro pendant un certain temps, puis elle a bondi. D’autres études ont révélé des progrès similaires en termes de capacités.
Les auteurs ont décrit cela comme un comportement « révolutionnaire » ; d’autres chercheurs l’ont comparé à une transition de phase en physique, comme lorsque l’eau liquide gèle et se transforme en glace. Dans un document publié en août 2022, les chercheurs ont noté que ces comportements sont non seulement surprenants mais imprévisibles, et qu’ils devraient éclairer l’évolution des conversations autour de l’IA. sécurité, le potentiel et le risque. Ils appelaient les capacités «émergent», un mot qui décrit des comportements collectifs qui n’apparaissent qu’une fois qu’un système atteint un haut niveau de complexité.
Mais les choses ne sont peut-être pas si simples. Un nouveau papier par un trio de chercheurs de l’Université de Stanford postule que l’apparition soudaine de ces capacités n’est qu’une conséquence de la manière dont les chercheurs mesurent les performances du LLM. Selon eux, ces capacités ne sont ni imprévisibles ni soudaines. « La transition est beaucoup plus prévisible que ce que l’on croit », a déclaré Sanmi Koyejo, informaticien à Stanford et auteur principal de l’article. « Les fortes revendications d’émergence ont autant à voir avec la manière dont nous choisissons de mesurer qu’avec ce que font les modèles. »
Nous constatons et étudions seulement maintenant ce comportement en raison de la taille de ces modèles. Les grands modèles de langage s’entraînent en analysant d’énormes ensembles de données de texte— des mots provenant de sources en ligne, notamment des livres, des recherches sur le Web et Wikipédia — et la recherche de liens entre des mots qui apparaissent souvent ensemble. La taille est mesurée en termes de paramètres, à peu près analogues à toutes les façons dont les mots peuvent être connectés. Plus il y a de paramètres, plus un LLM peut trouver de connexions. GPT-2 comptait 1,5 milliard de paramètres, tandis que GPT-3.5, le LLM qui alimente ChatGPT, en utilise 350 milliards. GPT-4, qui a fait ses débuts en mars 2023 et sous-tend désormais Copilote Microsoften utiliserait 1,75 billion.
Cette croissance rapide a entraîné une augmentation étonnante des performances et de l’efficacité, et personne ne conteste le fait que des LLM suffisamment grands peuvent accomplir des tâches que des modèles plus petits ne peuvent pas accomplir, y compris celles pour lesquelles ils n’ont pas été formés. Le trio de Stanford qui qualifie l’émergence de « mirage » reconnaît que les LLM deviennent plus efficaces à mesure qu’ils se développent ; En fait, la complexité supplémentaire des modèles plus grands devraient permettre de s’améliorer sur des problèmes plus difficiles et plus diversifiés. Mais ils soutiennent que le fait que cette amélioration semble douce et prévisible ou irrégulière et nette résulte du choix de la métrique – ou même du manque d’exemples de test – plutôt que du fonctionnement interne du modèle.