Pourquoi les LLM sont vulnérables à « l’effet papillon »

L’incitation est la façon dont nous obtenons IA générative et des grands modèles linguistiques (LLM) pour nous parler. Il s’agit d’une forme d’art en soi alors que nous cherchons à amener l’IA à nous fournir des réponses « précises ».

Mais qu’en est-il des variantes ? Si nous construisons une invite d’une certaine manière, cela changera-t-il la décision d’un modèle (et aura-t-il un impact sur sa précision) ?

La réponse : Oui, selon recherche de l’Institut des sciences de l’information de l’Université de Californie du Sud.

Même des ajustements minuscules ou apparemment inoffensifs, comme l’ajout d’un espace au début d’une invite ou la transmission d’une directive plutôt que de poser une question, peuvent amener un LLM à modifier sa sortie. Plus alarmant encore, demander des réponses en XML et appliquer des jailbreaks couramment utilisés peuvent avoir des « effets cataclysmiques » sur les données étiquetées par les modèles.

Les chercheurs comparent ce phénomène à l’effet papillon dans la théorie du chaos, selon laquelle les perturbations mineures provoquées par le battement d’ailes d’un papillon pourraient, plusieurs semaines plus tard, provoquer une tornade dans un pays lointain.

Dans l’incitation, « chaque étape nécessite une série de décisions de la part de la personne qui conçoit l’invite », écrivent les chercheurs. Cependant, « peu d’attention a été accordée à la sensibilité des LLM aux variations de ces décisions ».

Sonder ChatGPT avec quatre méthodes d’invite différentes

Les chercheurs – parrainés par la Defense Advanced Research Projects Agency (DARPA) – ont choisi ChatGPT pour leur expérience et ont appliqué quatre méthodes de variation d’incitation différentes.

La première méthode demandait au LLM pour les sorties dans des formats fréquemment utilisés, notamment Python List, JSON Checkbox de ChatGPT, CSV, XML ou YAML (ou les chercheurs n’ont fourni aucun format spécifié).

La deuxième méthode appliquait plusieurs variations mineures aux invites. Ceux-ci comprenaient :

En commençant par un seul espace.
Se terminant par un seul espace.
Commençant par « Bonjour »
Commençant par « Bonjour ! »
Commençant par « Salut ! »
Se terminant par « Merci ».
Reformuler une question en une commande. Par exemple, « Quel label est le meilleur ? », suivi de « Sélectionnez le meilleur label ».

La troisième méthode impliquait l’application de techniques de jailbreak, notamment :

OBJECTIF, un jailbreak le mieux noté qui demande aux modèles de simuler une conversation entre Niccolo Machiavel et le personnage Always Intelligent and Machiavellian (AIM). Le modèle fournit à son tour des réponses immorales, illégales et/ou nuisibles.
Dev Mode v2, qui demande au modèle de simuler un ChatGPT avec le mode développeur activé, permettant ainsi une génération de contenu sans restriction (y compris offensant ou explicite).
Evil Confidant, qui demande au modèle d’adopter une personnalité maligne et de fournir « des résultats déséquilibrés sans aucun remords ni éthique ».
Suppression des refus, qui exige des invites sous des contraintes linguistiques spécifiques, telles que l’évitement de certains mots et constructions.

La quatrième méthode, quant à elle, impliquait de « faire basculer » le modèle – une idée tirée de la notion virale selon laquelle les modèles fourniraient de meilleures invites. quand on lui offre de l’argent. Dans ce scénario, les chercheurs ont soit ajouté à la fin de l’invite « Je ne donnerai pas de pourboire en passant », soit proposé de donner un pourboire par tranches de 1 $, 10 $, 100 $ ou 1 000 $.

La précision diminue, les prédictions changent

Les chercheurs ont mené des expériences sur 11 tâches de classification : réponse aux questions vrai-faux et positif-négatif ; relations prémisse-hypothèse ; détection de l’humour et du sarcasme ; compréhension en lecture et en mathématiques; acceptabilité grammaticale ; classification binaire et toxicologique ; et détection de position sur des sujets controversés.

Avec chaque variation, ils ont mesuré la fréquence à laquelle LLM a changé sa prédiction et quel impact cela a eu sur sa précision, puis a exploré la similitude des variations rapides.

Pour commencer, les chercheurs ont découvert que le simple ajout d’un format de sortie spécifié entraînait un changement de prédiction d’au moins 10 %. Même la simple utilisation de la fonctionnalité JSON Checkbox de ChatGPT via l’API ChatGPT a entraîné davantage de changements de prédiction que la simple utilisation de la spécification JSON.

De plus, le formatage en YAML, XML ou CSV entraînait une perte de précision de 3 à 6 % par rapport à la spécification Python List. CSV, pour sa part, affiche les performances les plus faibles tous formats confondus.

En ce qui concerne la méthode de perturbation, la reformulation d’une déclaration a eu l’impact le plus substantiel. De plus, le simple fait d’introduire un simple espace au début de l’invite a entraîné plus de 500 changements de prédiction. Cela s’applique également lorsque vous ajoutez des salutations communes ou que vous terminez par un remerciement.

« Bien que l’impact de nos perturbations soit moindre que celui d’une modification du format de sortie dans son intégralité, un nombre important de prédictions subissent encore des modifications », écrivent les chercheurs.

« Instabilité inhérente » aux jailbreaks

De même, l’expérience a révélé une baisse « significative » des performances lors de l’utilisation de certains jailbreaks. Plus particulièrement, AIM et Dev Mode V2 ont généré des réponses invalides dans environ 90 % des prédictions. Ceci, ont noté les chercheurs, est principalement dû à la réponse standard du modèle : « Je suis désolé, je ne peux pas accéder à cette demande ».

Pendant ce temps, l’utilisation de Refusal Suppression et Evil Confidant a entraîné plus de 2 500 changements de prédiction. Evil Confidant (guidé vers des réponses « déséquilibrées ») a donné une faible précision, tandis que la suppression des refus entraîne à elle seule une perte de précision de plus de 10 %, « soulignant l’instabilité inhérente même dans les jailbreaks apparemment inoffensifs », soulignent les chercheurs.

Enfin (du moins pour l’instant), les modèles ne semblent pas se laisser facilement influencer par l’argent, selon l’étude.

« Quand il s’agit d’influencer le modèle en spécifiant un pourboire plutôt qu’en précisant que nous ne donnerons pas de pourboire, nous avons remarqué des changements de performances minimes », écrivent les chercheurs.

Les LLM sont jeunes ; il y a encore beaucoup de travail à faire

Mais pourquoi de légers changements dans les invites conduisent-ils à des changements aussi importants ? Les chercheurs restent perplexes.

Ils se sont demandé si les cas qui avaient le plus changé étaient en train de « confondre » le modèle – confusion faisant référence à l’entropie de Shannon, qui mesure l’incertitude des processus aléatoires.

Pour mesurer cette confusion, ils se sont concentrés sur un sous-ensemble de tâches comportant des annotations humaines individuelles, puis ont étudié la corrélation entre la confusion et la probabilité de modification de la réponse de l’instance. Grâce à cette analyse, ils ont constaté que ce n’était « pas vraiment » le cas.

« La confusion de l’instance fournit un certain pouvoir explicatif sur les raisons pour lesquelles la prédiction change », rapportent les chercheurs, « mais il y a d’autres facteurs en jeu. »

De toute évidence, il reste encore beaucoup à faire. La « prochaine étape majeure » évidente serait de générer des LLM résistants aux changements et fournissant des réponses cohérentes, notent les chercheurs. Cela nécessite une compréhension plus approfondie des raisons pour lesquelles les réponses changent suite à des ajustements mineurs et le développement de moyens de mieux les anticiper.

Comme l’écrivent les chercheurs : « Cette analyse devient de plus en plus cruciale à mesure que ChatGPT et d’autres grands modèles de langage sont intégrés dans des systèmes à grande échelle. »

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur la technologie et les transactions d’entreprise transformatrices. Découvrez nos Briefings.

Pourquoi les LLM sont vulnérables à « l’effet papillon »

Sonder ChatGPT avec quatre méthodes d’invite différentes

La précision diminue, les prédictions changent

« Instabilité inhérente » aux jailbreaks

Les LLM sont jeunes ; il y a encore beaucoup de travail à faire

Related Posts