Google DeepMind prétend avoir fait la toute première découverte scientifique avec un chatbot IA en créant un vérificateur de faits pour filtrer les résultats inutiles, ne laissant que des solutions fiables aux problèmes mathématiques ou informatiques.
Précédent Esprit profond réalisations, comme l’utilisation de l’IA pour prédire la météo ou les formes de protéines, se sont appuyés sur des modèles créés spécifiquement pour la tâche à accomplir, formés sur des données précises et spécifiques. Grands modèles de langage (LLM), tels que GPT-4 et Google Gémeaux, sont plutôt formés sur de grandes quantités de données variées pour créer un large éventail de capacités. Mais cette approche les rend également sensibles aux « hallucinations », un terme que les chercheurs utilisent pour produire de faux résultats.
Gemini – qui a été publié plus tôt ce mois-ci – a déjà démontré une propension aux hallucinations, obtenant même des faits simples tels que le les gagnants des Oscars de cette année ont tort. L’ancien moteur de recherche de Google basé sur l’IA a même commis des erreurs dans le matériel publicitaire de son propre lancement.
Une solution courante à ce phénomène consiste à ajouter une couche au-dessus de l’IA qui vérifie l’exactitude de ses sorties avant de les transmettre à l’utilisateur. Mais créer un filet de sécurité complet est une tâche extrêmement difficile étant donné le large éventail de sujets sur lesquels les chatbots peuvent être interrogés.
Alhussein Fawzi chez Google, DeepMind et ses collègues ont créé un LLM généralisé appelé FunSearch basé sur le modèle PaLM2 de Google avec une couche de vérification des faits, qu’ils appellent « évaluateur ». Le modèle est limité à fournir un code informatique qui résout des problèmes en mathématiques et en informatique, ce qui, selon DeepMind, est une tâche beaucoup plus gérable car ces nouvelles idées et solutions sont intrinsèquement et rapidement vérifiables.
L’IA sous-jacente peut toujours halluciner et fournir des résultats inexacts ou trompeurs, mais l’évaluateur filtre les résultats erronés et ne laisse que des concepts fiables et potentiellement utiles.
« Nous pensons que peut-être 90 pour cent des résultats du LLM ne seront pas utiles », explique Fawzi. « Étant donné une solution candidate, il est très facile pour moi de vous dire si c’est réellement une solution correcte et d’évaluer la solution, mais il est très difficile de trouver une solution. Les mathématiques et l’informatique s’accordent donc particulièrement bien.
DeepMind affirme que le modèle peut générer de nouvelles connaissances et idées scientifiques – ce que les LLM n’ont jamais fait auparavant.
Pour commencer, FunSearch reçoit en entrée un problème et une solution très basique dans le code source, puis il génère une base de données de nouvelles solutions dont l’exactitude est vérifiée par l’évaluateur. Les meilleures solutions fiables sont restituées au LLM sous forme d’entrées avec une invite lui demandant d’améliorer les idées. DeepMind affirme que le système produit des millions de solutions potentielles, qui finissent par converger vers un résultat efficace, dépassant parfois la solution la plus connue.
Pour les problèmes mathématiques, le modèle écrit des programmes informatiques capables de trouver des solutions plutôt que d’essayer de résoudre le problème directement.
Fawzi et ses collègues ont mis FunSearch au défi de trouver des solutions au problème de l’ensemble des plafonds, qui consiste à déterminer des modèles de points où aucun point ne forme une ligne droite. Le problème devient rapidement plus gourmand en calcul à mesure que le nombre de points augmente. L’IA a trouvé une solution composée de 512 points en huit dimensions, plus grande que toutes celles connues auparavant.
Lorsqu’il a été chargé du problème du binpacking, où l’objectif est de placer efficacement des objets de différentes tailles dans des conteneurs, FunSearch a trouvé des solutions qui surpassent les algorithmes couramment utilisés – un résultat qui a des applications immédiates pour les entreprises de transport et de logistique. DeepMind affirme que FunSearch pourrait conduire à des améliorations dans de nombreux autres problèmes mathématiques et informatiques.
Marc Lee de l’Université de Birmingham, au Royaume-Uni, affirme que les prochaines avancées en matière d’IA ne viendront pas de l’extension des LLM à des tailles toujours plus grandes, mais de l’ajout de couches garantissant la précision, comme DeepMind l’a fait avec FunSearch.
« La force d’un modèle de langage réside dans sa capacité à imaginer des choses, mais le problème, ce sont les hallucinations », explique Lee. « Et cette recherche résout ce problème : elle le maîtrise ou vérifie les faits. C’est une bonne idée.
Lee affirme que les IA ne devraient pas être critiquées pour produire de grandes quantités de résultats inexacts ou inutiles, car cela n’est pas différent de la façon dont les mathématiciens et les scientifiques humains fonctionnent : réfléchir à des idées, les tester et suivre les meilleures tout en écartant les pires.
Les sujets: