Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n’importe qui peut rompre à tout moment. La diplomatie est si complexe qu’un groupe de Meta s’est réjoui lorsqu’en 2022, son Programme d’IA Cicéron développé un « jeu au niveau humain » au cours de 40 matchs. Même s’il n’a pas vaincu le champion du monde, Cicéron s’en est assez bien sorti pour se classer parmi les 10 pour cent supérieurs face aux participants humains.
Au cours du projet, Jacob, membre de l’équipe Meta, a été frappé par le fait que Cicéron s’appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il sentait un potentiel inexploité. L’objectif de l’équipe, a-t-il déclaré, « était de créer le meilleur modèle de langage possible pour jouer à ce jeu ». Mais et s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?
Interactions consensuelles
En 2023, Jacob a commencé à approfondir cette question au MIT, en collaboration avec Yikang Shen, Gabriele Farinaet son conseiller, Jacob Andréas, sur ce qui allait devenir le jeu du consensus. L’idée centrale est venue d’imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès survient lorsqu’un auditeur comprend ce que l’orateur essaie de transmettre. En particulier, le jeu du consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminantes.
Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d’abord, le générateur reçoit une question. Cela peut provenir d’un humain ou d’une liste préexistante. Par exemple, « Où est né Barack Obama ? » Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d’un humain, d’une liste ou d’une recherche effectuée par le modèle de langage lui-même.
Mais avant de répondre, il est également indiqué au générateur s’il doit répondre correctement ou incorrectement à la question, en fonction des résultats d’un tirage au sort équitable.
Si c’est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d’incitation.
Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’inciter à l’accord. «C’est comme apprendre un tour à un chien», a expliqué Jacob. « Vous leur donnez une friandise lorsqu’ils font la bonne chose. »
Le générateur et le discriminateur commencent également chacun par quelques « croyances » initiales. Celles-ci prennent la forme d’une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu’il a glanées sur Internet, qu’il y a 80 % de chances qu’Obama soit né à Honolulu, 10 % de chances qu’il soit né à Chicago, 5 % de chances qu’il soit né à Nairobi et qu’un 5 pour cent de chance d’être ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux « acteurs » sont toujours récompensés pour être parvenus à un accord, ils se voient également retirer des points s’ils s’écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d’Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans quelque chose comme ça, ils pourraient s’entendre sur une réponse totalement fausse comme Delhi, mais accumuler quand même des points.