Fermez la porte dérobée : Comprendre l’injection rapide et minimiser les risques

Rejoignez-nous pour revenir à New York le 5 juin pour collaborer avec des dirigeants afin d’explorer des méthodes complètes d’audit des modèles d’IA concernant les préjugés, les performances et la conformité éthique dans diverses organisations. Découvrez comment vous pouvez assistez ici.

Les nouvelles technologies sont synonymes de nouvelles opportunités… mais aussi nouvelles menaces. Et quand la technologie est aussi complexe et peu familière que IA générativeil peut être difficile de comprendre lequel est lequel.

Prenez la discussion autour des hallucinations. Au début de la ruée vers l’IA, de nombreuses personnes étaient convaincues que les hallucinations étaient toujours un comportement indésirable et potentiellement dangereux, quelque chose qui devait être complètement éradiqué. Ensuite, la conversation a changé pour englober l’idée que les hallucinations peuvent être précieuses.

Isa Fulford d’OpenAI l’exprime bien. « Nous ne voulons probablement pas de modèles qui n’hallucinent jamais, car on peut considérer cela comme un modèle créatif », souligne-t-elle. « Nous voulons juste des modèles qui hallucinent dans le bon contexte. Dans certains contextes, il est acceptable d’avoir des hallucinations (par exemple, si vous demandez de l’aide pour l’écriture créative ou de nouvelles façons créatives de résoudre un problème), alors que dans d’autres cas, ce n’est pas le cas.

Ce point de vue est désormais dominant sur l’hallucination. Et maintenant, il existe un nouveau concept qui prend de l’importance et suscite beaucoup de peur : « l’injection rapide ». Ceci est généralement défini comme lorsque les utilisateurs abusent ou exploitent délibérément une solution d’IA pour créer un résultat indésirable. Et contrairement à la plupart des conversations sur les possibles mauvais résultats de l’IAqui ont tendance à se concentrer sur d’éventuels résultats négatifs pour les utilisateurs, cela concerne les risques pour les fournisseurs d’IA.

Événement VB

L’AI Impact Tour : L’audit de l’IA

Rejoignez-nous à notre retour à New York le 5 juin pour dialoguer avec les plus hauts dirigeants et approfondir les stratégies d’audit des modèles d’IA afin de garantir l’équité, les performances optimales et la conformité éthique dans diverses organisations. Assurez votre participation à cet événement exclusif sur invitation uniquement.

Demandez une invitation

Je vais expliquer pourquoi je pense qu’une grande partie du battage médiatique et des craintes autour de l’injection rapide sont exagérées, mais cela ne veut pas dire qu’il n’y a pas de risque réel. Une injection rapide devrait rappeler que lorsqu’il s’agit d’IA, le risque va dans les deux sens. Si vous souhaitez créer des LLM qui assurent la sécurité de vos utilisateurs, de votre entreprise et de votre réputation, vous devez comprendre de quoi il s’agit et comment l’atténuer.

Comment fonctionne l’injection rapide

Vous pouvez considérer cela comme l’inconvénient de l’incroyable ouverture et flexibilité de la génération IA. Lorsque les agents IA sont bien conçus et exécutés, on a vraiment l’impression qu’ils peuvent tout faire. Cela peut sembler magique : Je lui dis juste ce que je veux, et il le fait !

Le problème, bien sûr, est que les entreprises responsables ne veulent pas diffuser dans le monde une IA qui « fait vraiment n’importe quoi ». Et contrairement aux solutions logicielles traditionnelles, qui ont tendance à avoir des interfaces utilisateur rigides, grands modèles de langage (LLM) offrent aux utilisateurs opportunistes et mal intentionnés de nombreuses opportunités pour tester ses limites.

Vous n’avez pas besoin d’être un hacker expert pour tenter d’utiliser à mauvais escient un agent IA ; vous pouvez simplement essayer différentes invites et voir comment le système répond. Certaines des formes les plus simples d’injection rapide surviennent lorsque les utilisateurs tentent de convaincre l’IA de contourner les restrictions de contenu ou d’ignorer les contrôles. C’est ce qu’on appelle le « jailbreak ». L’un des exemples les plus célèbres remonte à 2016, lorsque Microsoft a publié un prototype de robot Twitter qui a rapidement « appris » à émettre des commentaires racistes et sexistes. Plus récemment, Microsoft Bing (maintenant « Microsoft Co-Pilot) a été manipulé avec succès à divulguer des données confidentielles sur sa construction.

D’autres menaces incluent l’extraction de données, où les utilisateurs cherchent à tromper l’IA pour qu’elle révèle des informations confidentielles. Imaginez un agent de support bancaire IA convaincu de fournir des informations financières sensibles aux clients, ou un robot RH qui partage les données salariales des employés.

Et maintenant qu’on demande à l’IA de jouer un rôle de plus en plus important dans les fonctions de service client et de vente, un autre défi apparaît. Les utilisateurs pourront peut-être persuader l’IA d’accorder des remises massives ou des remboursements inappropriés. Récemment, un robot de concession « vendu » un Chevrolet Tahoe 2024 pour 1 $ à un utilisateur créatif et persistant.

Comment protéger votre organisation

Aujourd’hui, il existe des forums entiers où les gens partagent des astuces pour contourner les garde-fous entourant l’IA. C’est une sorte de course aux armements ; des exploits émergent, sont partagés en ligne, puis sont généralement rapidement arrêtés par les LLM publics. Le défi du rattrapage est beaucoup plus difficile pour les autres propriétaires et opérateurs de robots.

Il n’existe aucun moyen d’éviter tous les risques liés à une mauvaise utilisation de l’IA. Considérez l’injection rapide comme une porte dérobée intégrée à tout système d’IA qui autorise les invites des utilisateurs. Vous ne pouvez pas sécuriser complètement la porte, mais vous pouvez rendre son ouverture beaucoup plus difficile. Voici les choses que vous devriez faire dès maintenant pour minimiser les risques d’un mauvais résultat.

Définissez les bonnes conditions d’utilisation pour vous protéger

Les termes juridiques ne suffiront évidemment pas à assurer votre sécurité, mais leur mise en place reste vitale. Vos conditions d’utilisation doivent être claires, complètes et adaptées à la nature spécifique de votre solution. Ne sautez pas ça ! Assurez-vous de forcer l’acceptation de l’utilisateur.

Limiter les données et les actions disponibles pour l’utilisateur

La solution la plus sûre pour minimiser les risques est de restreindre ce qui est accessible uniquement à ce qui est nécessaire. Si l’agent a accès aux données ou aux outils, il est au moins possible que l’utilisateur trouve un moyen de tromper le système pour qu’il les rende disponibles. C’est le principe du moindre privilège: Cela a toujours été un bon principe de conception, mais cela devient absolument vital avec l’IA.

Utiliser des cadres d’évaluation

Il existe des cadres et des solutions qui vous permettent de tester la manière dont votre système LLM répond aux différentes entrées. Il est important de le faire avant de mettre votre agent à disposition, mais également de continuer à suivre cela de manière continue.

Ceux-ci vous permettent de tester certaines vulnérabilités. Ils simulent essentiellement un comportement d’injection rapide, vous permettant de comprendre et de corriger toutes les vulnérabilités. Le but est de bloquer la menace… ou du moins de la surveiller.

Menaces familières dans un nouveau contexte

Ces suggestions sur la façon de vous protéger peuvent vous sembler familières : pour beaucoup d’entre vous ayant une formation en technologie, le danger présenté par une injection rapide rappelle celui de l’exécution d’applications dans un navigateur. Bien que le contexte et certaines spécificités soient propres à l’IA, les défis consistant à éviter les exploits et à bloquer l’extraction du code et des données sont similaires.

Oui, les LLM sont nouveaux et quelque peu inconnus, mais nous disposons des techniques et des pratiques pour nous prémunir contre ce type de menace. Il suffit de les appliquer correctement dans un nouveau contexte.

N’oubliez pas : il ne s’agit pas seulement de bloquer les pirates informatiques majeurs. Parfois, il s’agit simplement d’arrêter des défis évidents (de nombreux « exploits » sont simplement des utilisateurs qui demandent toujours la même chose !).

Il est également important d’éviter le piège consistant à blâmer l’injection rapide pour tout comportement LLM inattendu et indésirable. Ce n’est pas toujours la faute des utilisateurs. N’oubliez pas : les LLM montrent la capacité de raisonner et de résoudre des problèmes, et de faire preuve de créativité. Ainsi, lorsque les utilisateurs demandent au LLM d’accomplir quelque chose, la solution examine tout ce dont elle dispose (données et outils) pour répondre à la demande. Les résultats peuvent sembler surprenants, voire problématiques, mais il est possible qu’ils proviennent de votre propre système.

L’essentiel en matière d’injection rapide est le suivant : prenez-la au sérieux et minimisez le risque, mais ne vous laissez pas freiner.

Cai GoGwilt est le co-fondateur et architecte en chef de Cuirassé.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur des idées de pointe et des informations à jour, sur les meilleures pratiques et sur l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager contribuer à un article ton propre!

En savoir plus sur DataDecisionMakers