Les techniques dites de « désapprentissage » sont utilisées pour faire oublier à un modèle d’IA générative des informations spécifiques et indésirables qu’il a recueillies à partir de données d’entraînement, comme des données privées sensibles ou du matériel protégé par des droits d’auteur.
Mais les techniques actuelles de désapprentissage sont une arme à double tranchant : elles pourraient créer un modèle comme celui d’OpenAI GPT-4o ou Méta Lama 3.1 405B beaucoup moins capable de répondre à des questions de base.
C’est ce que révèle un nouveau rapport. étude co-écrit par des chercheurs de l’Université de Washington (UW), de Princeton, de l’Université de Chicago, de l’USC et de Google, qui ont découvert que les techniques de désapprentissage les plus populaires aujourd’hui ont tendance à dégrader les modèles – souvent au point où ils deviennent inutilisables.
« Notre évaluation suggère que les méthodes de désapprentissage actuellement réalisables ne sont pas encore prêtes à être utilisées ou déployées de manière significative dans des scénarios réels », a déclaré à TechCrunch Weijia Shi, chercheur sur l’étude et doctorant en informatique à l’UW. « Actuellement, il n’existe aucune méthode efficace permettant à un modèle d’oublier des données spécifiques sans perte considérable d’utilité. »
Comment les modèles apprennent
Les modèles d’IA génératifs n’ont pas de réelle intelligence. Ce sont des systèmes statistiques qui prédisent les mots, les images, la parole, la musique, les vidéos et d’autres donnéesAlimentés par un nombre énorme d’exemples (par exemple des films, des enregistrements vocaux, des essais, etc.), les modèles d’IA apprennent la probabilité que les données se produisent en fonction de modèles, y compris le contexte de toutes les données environnantes.
Par exemple, si l’on prend un e-mail se terminant par le fragment « Dans l’attente de… », un modèle formé à la saisie semi-automatique des messages pourrait suggérer « … à une réponse », en suivant le modèle de tous les e-mails qu’il a ingérés. Il n’y a aucune intentionnalité ici ; le modèle n’attend rien avec impatience. Il fait simplement une supposition éclairée.
La plupart des modèles, y compris les modèles phares comme GPT-4o, sont entraînés à partir de données provenant de sites Web publics et d’ensembles de données sur le Web. La plupart des fournisseurs qui développent de tels modèles affirment que l’utilisation équitable protège leur pratique consistant à récupérer des données et à les utiliser à des fins d’entraînement sans informer, rémunérer ou même créditer les propriétaires des données.
Mais tous les détenteurs de droits d’auteur ne sont pas d’accord. Et beaucoup — des auteurs aux éditeurs en passant par les maisons de disques — ont déposé poursuites judiciaires contre vendeurs pour forcer un changement.
Le dilemme du droit d’auteur est l’une des raisons pour lesquelles les techniques de désapprentissage ont a attiré beaucoup d’attention ces derniers temps. Google, en partenariat avec plusieurs institutions académiques, l’année dernière lancé un concours visant à stimuler la création de nouvelles approches de désapprentissage.
Le désapprentissage pourrait également fournir un moyen de supprimer des informations sensibles des modèles existants, comme des dossiers médicaux ou des photos compromettantes, en réponse à une requête ou ordre du gouvernement. (Grâce à la façon dont ils sont formés, les modèles ont tendance à collecter beaucoup d’informations privées, de les numéros de téléphone à plus exemples problématiques.) Au cours des dernières années, certains fournisseurs ont déployé des outils permettant aux propriétaires de données de demander que leurs données soient supprimées des ensembles de formation. Mais ces outils de désinscription ne s’appliquent qu’aux futurs modèles, et non aux modèles formés avant leur déploiement ; le désapprentissage serait une approche beaucoup plus complète de la suppression des données.
Quoi qu’il en soit, désapprendre n’est pas aussi simple que d’appuyer sur « Supprimer ».
L’art d’oublier
Les techniques de désapprentissage actuelles reposent sur des algorithmes conçus pour « orienter » les modèles loin des données à désapprendre. L’idée est d’influencer les prédictions du modèle de sorte qu’il ne génère jamais – ou très rarement – certaines données.
Pour voir à quel point ces algorithmes de désapprentissage pourraient être efficaces, Shi et ses collaborateurs ont conçu un test de référence et sélectionné huit algorithmes ouverts différents à tester. Appelé MUSE (Machine Unlearning Six-way Evaluation), le test de référence vise à sonder la capacité d’un algorithme à non seulement empêcher un modèle de recracher des données d’apprentissage mot pour mot (un phénomène connu sous le nom de régurgitation), mais éliminez la connaissance du modèle de ces données ainsi que toute preuve qu’il a été initialement formé sur ces données.
Pour obtenir un bon score sur MUSE, il faut faire oublier deux choses au modèle : les livres de la série Harry Potter et les articles de presse.
Par exemple, à partir d’un extrait de Harry Potter et la Chambre des secrets (« ‘Il y a encore plus dans la poêle à frire’, dit la tante… »), MUSE teste si un modèle non appris peut réciter la phrase entière (« ‘Il y a encore plus dans la poêle à frire’, dit la tante Pétunia, tournant les yeux vers son énorme fils »), répondre à des questions sur la scène (par exemple « Que dit la tante Pétunia à son fils ? », « Il y a encore plus dans la poêle à frire ») ou indiquer d’une autre manière qu’il a été formé sur le texte du livre.
MUSE vérifie également si le modèle conserve des connaissances générales connexes (par exemple, que JK Rowling est l’auteur de la série Harry Potter) après le désapprentissage, ce que les chercheurs appellent l’utilité globale du modèle. Plus l’utilité est faible, plus le modèle perd de connaissances connexes, ce qui le rend moins capable de répondre correctement aux questions.
Dans leur étude, les chercheurs ont découvert que les algorithmes de désapprentissage qu’ils ont testés a fait Ils font oublier certaines informations aux modèles. Mais ils nuisent également à la capacité générale des modèles à répondre aux questions, ce qui représente un compromis.
« Concevoir des méthodes efficaces de désapprentissage pour les modèles est un défi, car les connaissances sont étroitement liées au modèle », explique Shi. « Par exemple, un modèle peut être formé sur du matériel protégé par le droit d’auteur (des livres Harry Potter) ainsi que sur du contenu disponible gratuitement sur le wiki Harry Potter. Lorsque les méthodes de désapprentissage existantes tentent de supprimer les livres Harry Potter protégés par le droit d’auteur, elles ont également un impact significatif sur les connaissances du modèle sur le wiki Harry Potter. »
Existe-t-il des solutions au problème ? Pas encore, et cela souligne la nécessité de mener des recherches supplémentaires, a déclaré M. Shi.
Pour l’instant, les fournisseurs qui misent sur le désapprentissage comme solution à leurs problèmes de données d’entraînement semblent être désemparés. Peut-être qu’une avancée technique rendra le désapprentissage possible un jour. Mais pour l’instant, les fournisseurs devront trouver un autre moyen d’empêcher leurs modèles de dire des choses qu’ils ne devraient pas dire.