Anthropic lance une programme financer le développement de nouveaux types de benchmarks capables d’évaluer les performances et l’impact des modèles d’IA, y compris des modèles génératifs comme le sien Claude.
Dévoilé lundi, le programme d’Anthropic permettra de verser des paiements à des organisations tierces qui peuvent, comme l’explique l’entreprise dans un article de blog, « mesurer efficacement les capacités avancées des modèles d’IA ». Les personnes intéressées peuvent soumettre des candidatures qui seront évaluées au fur et à mesure.
« Notre investissement dans ces évaluations vise à améliorer l’ensemble du domaine de la sécurité de l’IA, en fournissant des outils précieux qui profitent à l’ensemble de l’écosystème », a écrit Anthropic sur son blog officiel. « Développer des évaluations de haute qualité et pertinentes en matière de sécurité reste un défi, et la demande dépasse l’offre. »
Comme nous l’avons Souligné Auparavant, l’IA avait un problème de benchmarking. Les benchmarks les plus fréquemment cités pour l’IA ne parviennent pas à saisir la manière dont une personne moyenne utilise réellement les systèmes testés. On peut également se demander si certains benchmarks, en particulier ceux publiés avant l’avènement de l’IA générative moderne, mesurent même ce qu’ils sont censés mesurer, compte tenu de leur ancienneté.
La solution de très haut niveau et plus difficile qu’il n’y paraît proposée par Anthropic consiste à créer des repères ambitieux en mettant l’accent sur la sécurité de l’IA et les implications sociétales via de nouveaux outils, infrastructures et méthodes.
L’entreprise demande notamment des tests qui évaluent la capacité d’un modèle à accomplir des tâches telles que mener des cyberattaques, « améliorer » les armes de destruction massive (par exemple les armes nucléaires) et manipuler ou tromper les gens (par exemple par le biais de deepfakes ou de désinformation). Pour les risques liés à l’IA liés à la sécurité nationale et à la défense, Anthropic affirme s’être engagé à développer une sorte de « système d’alerte précoce » pour identifier et évaluer les risques, bien qu’elle ne révèle pas dans le billet de blog ce qu’un tel système pourrait impliquer.
Anthropic affirme également que son nouveau programme vise à soutenir la recherche sur les repères et les tâches « de bout en bout » qui sondent le potentiel de l’IA à aider à l’étude scientifique, à converser dans plusieurs langues et à atténuer les préjugés enracinés, ainsi que la toxicité de l’autocensure.
Pour y parvenir, Anthropic envisage de nouvelles plateformes qui permettraient aux experts en la matière de développer leurs propres évaluations et de réaliser des essais à grande échelle de modèles impliquant des « milliers » d’utilisateurs. L’entreprise affirme avoir embauché un coordinateur à temps plein pour le programme et qu’elle pourrait acheter ou étendre des projets qui, selon elle, ont le potentiel de se développer.
« Nous proposons une gamme d’options de financement adaptées aux besoins et au stade de chaque projet », écrit Anthropic dans le message, bien qu’un porte-parole d’Anthropic ait refusé de fournir plus de détails sur ces options. « Les équipes auront la possibilité d’interagir directement avec les experts du domaine d’Anthropic de l’équipe Frontier Red, de l’équipe de mise au point, de la confiance et de la sécurité et d’autres équipes concernées. »
Les efforts d’Anthropic pour soutenir de nouveaux tests de référence en matière d’IA sont louables, à condition bien sûr qu’il y ait suffisamment de fonds et de personnel pour les soutenir. Mais compte tenu des ambitions commerciales de l’entreprise dans la course à l’IA, il pourrait être difficile de lui faire entièrement confiance.
Dans le billet de blog, Anthropic est plutôt transparent sur le fait qu’elle souhaite que certaines évaluations qu’elle finance soient alignées sur les Classifications de sécurité de l’IA il développé (avec l’apport de tiers comme l’organisation de recherche en IA à but non lucratif METR). Cela relève bien des prérogatives de l’entreprise. Mais cela peut également forcer les candidats au programme à accepter des définitions d’IA « sûres » ou « risquées » avec lesquelles ils pourraient ne pas être d’accord.
Une partie de la communauté de l’IA est également susceptible de contester les références d’Anthropic aux risques « catastrophiques » et « trompeurs » de l’IA, comme les risques liés aux armes nucléaires. De nombreux experts Les chercheurs affirment qu’il y a peu de preuves suggérant que l’IA telle que nous la connaissons acquerra des capacités qui pourraient détruire le monde et surpasser les humains dans un avenir proche, voire jamais. Les affirmations d’une « superintelligence » imminente ne servent qu’à détourner l’attention des problèmes urgents de réglementation de l’IA d’aujourd’hui, comme la hallucinatoire tendances, ajoutent ces experts.
Dans son article, Anthropic écrit qu’il espère que son programme servira de « catalyseur pour le progrès vers un avenir où l’évaluation complète de l’IA sera une norme de l’industrie ». C’est une mission que de nombreux ouvrir, entreprise non affiliée Les efforts visant à créer de meilleures références en matière d’IA peuvent s’y identifier. Mais il reste à voir si ces efforts sont prêts à unir leurs forces à celles d’un fournisseur d’IA dont la loyauté repose en fin de compte sur les actionnaires.