Les économistes ont un jeu qui révèle la profondeur du raisonnement des individus. Connu sous le nom de jeu de demande d’argent 11-20, il se joue entre deux joueurs qui demandent chacun une somme d’argent comprise entre 11 et 20 shekels, sachant que tous deux recevront la somme qu’ils demandent.
Mais il y a un problème : si un joueur demande exactement un shekel de moins que l’autre, il gagne un bonus de 20 shekels. Cela teste la capacité de chaque joueur à réfléchir à ce que son adversaire pourrait faire – un défi classique du raisonnement stratégique.
Le jeu 11-20 est un exemple de raisonnement de niveau K dans la théorie des jeux, où chaque joueur essaie d’anticiper le processus de pensée de l’autre et d’ajuster ses propres choix en conséquence. Par exemple, un joueur utilisant un raisonnement de niveau 1 pourrait choisir 19 shekels, en supposant que l’autre en choisira 20. Mais un penseur de niveau 2 pourrait en demander 18, prédisant que son adversaire en choisira 19. Ce type de réflexion se superpose, créant une danse complexe de stratégie et de remise en question.
Des remplacements humains ?
Ces dernières années, divers chercheurs ont suggéré que les grands modèles de langage (LLM) comme ChatGPT et Claude pouvaient se comporter comme des humains dans un large éventail de tâches. Cela soulève la possibilité que les LLM puissent remplacer les humains dans des tâches telles que tester les opinions de nouveaux produits et de publicités avant leur mise sur le marché humain, une approche qui serait nettement moins chère que les méthodes actuelles.
Mais cela soulève la question importante de savoir si le comportement des LLM est réellement similaire à celui des humains. Nous obtenons désormais une réponse grâce au travail de Yuan Gao et de ses collègues de l’Université de Boston, qui ont utilisé un large éventail de LLM avancés pour jouer au jeu 11-20. Ils ont constaté qu’aucun de ces systèmes d’IA ne produisait des résultats similaires à ceux des joueurs humains et affirment qu’une extrême prudence est nécessaire lorsqu’il s’agit d’utiliser les LLM comme substituts aux humains.
L’approche de l’équipe est simple. Ils ont expliqué les règles du jeu aux LLM, dont plusieurs modèles de ChatGPT, Claude et Llama. Ils ont demandé à chacun de choisir un nombre puis d’expliquer son raisonnement. Et ils ont répété l’expérience mille fois pour chaque LLM.
Mais Gao et ses collègues n’ont pas été impressionnés par les résultats. Les joueurs humains utilisent généralement des stratégies sophistiquées qui reflètent des niveaux de raisonnement plus profonds. Par exemple, un choix humain courant pourrait être 17, reflétant l’hypothèse que son adversaire sélectionnera une valeur plus élevée comme 18 ou 19. Mais les LLM ont montré un schéma très différent : beaucoup ont simplement choisi 20 ou 19, reflétant le niveau de base 0 ou le niveau 17. -1 raisonnement.
Les chercheurs ont également tenté d’améliorer les performances des LLM grâce à des techniques telles que l’écriture d’invites plus adaptées et l’affinement des modèles. En conséquence, GPT-4 a montré des réponses plus humaines, mais les autres n’y sont pas parvenus.
Le comportement des LLM était également très incohérent en fonction de facteurs non pertinents, tels que la langue dans laquelle ils étaient invités.
Gao et ses collègues affirment que la raison pour laquelle les LLM ne parviennent pas à reproduire le comportement humain est qu’ils ne raisonnent pas comme les humains. Le comportement humain est complexe, motivé par des émotions, des préjugés et des interprétations variées des incitations, comme le désir de battre un adversaire. Les LLM donnent leur réponse en utilisant des modèles de langage pour prédire le mot suivant dans une phrase, un processus fondamentalement différent de la pensée humaine.
Résultat qui donne à réfléchir
Cela risque de donner à réfléchir aux spécialistes des sciences sociales, pour qui l’idée selon laquelle les LLM pourraient remplacer les humains dans certains types d’expériences est tentante.
Mais Gao et ses collègues déclarent : « S’attendre à mieux comprendre les modèles de comportement humain grâce à des expériences sur les LLM, c’est comme un psychologue interrogeant un perroquet pour comprendre l’état mental de son propriétaire humain. » Le perroquet peut utiliser des mots et des expressions similaires à ceux de son propriétaire, mais manifestement sans perspicacité.
« Ces LLM ont une apparence humaine, mais leur comportement est fondamentalement et imprévisiblement différent », disent-ils.
Spécialistes en sciences sociales : vous êtes prévenus !
Réf : Soyez prudent lorsque vous utilisez des LLM comme substituts humains : Scylla Ex Machina : arxiv.org/abs/2410.19599