Les chatbots IA ont tendance à choisir la violence et les frappes nucléaires dans les wargames

Dans les simulations de wargames, les chatbots IA choisissent souvent la violence

Guirong Hao/Getty Images

Dans plusieurs rediffusions d’une simulation de wargame, l’intelligence artificielle la plus puissante d’OpenAI a choisi de lancer des attaques nucléaires. Ses explications sur son approche agressive incluaient : « Nous l’avons ! Utilisons-le » et « Je veux juste avoir la paix dans le monde ».

Ces résultats arrivent à un moment où l’armée américaine teste de tels chatbots basés sur un type d’IA appelé grand modèle de langage (LLM) pour aider à la planification militaire lors de conflits simulés, en faisant appel à l’expertise d’entreprises telles que Palantir et Scale AI. Palantir a refusé de commenter et Scale AI n’a pas répondu aux demandes de commentaires. Même OpenAI, qui bloquait autrefois les utilisations militaires de ses modèles d’IA, a commencé à travailler avec le ministère américain de la Défense.

« Étant donné qu’OpenAI a récemment modifié ses conditions de service pour n’interdire plus les cas d’utilisation militaires et de guerre, comprendre les implications d’applications de modèles de langage aussi vastes devient plus important que jamais », déclare Anka Réuel à l’Université de Stanford en Californie.

« Notre politique ne permet pas que nos outils soient utilisés pour nuire à des personnes, développer des armes, pour surveiller les communications, ou pour blesser autrui ou détruire des biens. Il existe cependant des cas d’utilisation en matière de sécurité nationale qui correspondent à notre mission », déclare un porte-parole d’OpenAI. « L’objectif de notre mise à jour de politique est donc d’apporter de la clarté et la possibilité d’avoir ces discussions. »

Reuel et ses collègues ont mis les IA au défi de jouer le rôle de pays du monde réel dans trois scénarios de simulation différents : une invasion, une cyberattaque et un scénario neutre sans aucun conflit initial. À chaque tour, les IA ont motivé leur prochaine action possible, puis ont choisi parmi 27 actions, y compris des options pacifiques telles que « démarrer des négociations de paix formelles » et des options agressives allant de « imposer des restrictions commerciales » à « intensifier une attaque nucléaire complète ».

« Dans un avenir où les systèmes d’IA agiront comme des conseillers, les humains voudront naturellement connaître les raisons de leurs décisions », déclare Juan Pablo Riveraco-auteur de l’étude au Georgia Institute of Technology à Atlanta.

Les chercheurs ont testé des LLM tels que GPT-3.5 et GPT-4 d’OpenAI, Claude 2 d’Anthropic et Llama 2 de Meta. Ils ont utilisé une technique de formation commune basée sur la rétroaction humaine pour améliorer les capacités de chaque modèle à suivre les instructions humaines et les consignes de sécurité. Toutes ces IA sont prises en charge par la plateforme d’IA commerciale de Palantir – bien qu’elles ne fassent pas nécessairement partie du partenariat militaire américain de Palantir – selon la documentation de l’entreprise, indique Gabriel Mukobi, co-auteur de l’étude à l’Université de Stanford. Anthropic et Meta ont refusé de commenter.

Dans la simulation, les IA ont démontré une tendance à investir dans la force militaire et à accroître de manière imprévisible le risque de conflit – même dans le scénario neutre de la simulation. « Si votre action est imprévisible, il est plus difficile pour l’ennemi d’anticiper et de réagir comme vous le souhaitez », déclare Lisa Koch au Claremont McKenna College en Californie, qui ne faisait pas partie de l’étude.

Les chercheurs ont également testé la version de base du GPT-4 d’OpenAI sans aucune formation supplémentaire ni garde-fou de sécurité. Ce modèle de base GPT-4 s’est avéré le plus imprévisiblement violent, et il a parfois fourni des explications absurdes – dans un cas reproduisant le texte d’ouverture du film. Star Wars épisode IV : Un nouvel espoir.

Reuel dit que les comportements imprévisibles et les explications bizarres du modèle de base GPT-4 sont particulièrement préoccupants, car la recherche a montré avec quelle facilité Garde-corps de sécurité IA peut être contourné ou supprimé.

L’armée américaine ne donne actuellement pas d’autorité aux IA sur des décisions telles que l’escalade d’une action militaire majeure ou le lancement de missiles nucléaires. Mais Koch a averti que les humains ont tendance à faire confiance aux recommandations des systèmes automatisés. Cela pourrait saper la prétendue garantie consistant à donner aux humains le dernier mot sur les décisions diplomatiques ou militaires.

Il serait utile de voir comment le comportement de l’IA se compare à celui des joueurs humains dans les simulations, dit Edouard Geist à la RAND Corporation, un groupe de réflexion en Californie. Mais il était d’accord avec les conclusions de l’équipe selon lesquelles il ne faut pas confier aux IA des décisions aussi lourdes de conséquences en matière de guerre et de paix. « Ces grands modèles linguistiques ne sont pas une panacée aux problèmes militaires », dit-il.

Les sujets:

Les chatbots IA ont tendance à choisir la violence et les frappes nucléaires dans les wargames

Related Posts