Nous voulons connaître votre avis ! Répondez à notre rapide enquête sur l’IA et partagez vos idées sur l’état actuel de l’IA, la manière dont vous la mettez en œuvre et ce que vous attendez de l’avenir. Apprendre encore plus
Les agents d’IA deviennent une nouvelle direction de recherche prometteuse avec des applications potentielles dans le monde réel. Ces agents utilisent des modèles de base tels que les grands modèles de langage (LLM) et les modèles de langage de vision (VLM) pour prendre des instructions en langage naturel et poursuivre des objectifs complexes de manière autonome ou semi-autonome. Les agents d’IA peuvent utiliser divers outils tels que les navigateurs, les moteurs de recherche et les compilateurs de code pour vérifier leurs actions et raisonner sur leurs objectifs.
Cependant, un analyse récente par des chercheurs de université de Princeton a révélé plusieurs lacunes dans les repères et les pratiques d’évaluation des agents actuels qui entravent leur utilité dans les applications du monde réel.
Leurs conclusions soulignent que l’évaluation comparative des agents s’accompagne de défis particuliers et que nous ne pouvons pas évaluer les agents de la même manière que nous évaluons les modèles de fondation.
Compromis entre coût et précision
L’un des principaux problèmes mis en évidence par les chercheurs dans leur étude est le manque de contrôle des coûts dans les évaluations des agents. Les agents d’IA peuvent être beaucoup plus coûteux à exécuter qu’un seul appel de modèle, car ils s’appuient souvent sur des modèles de langage stochastiques qui peuvent produire des résultats différents lorsqu’on leur demande plusieurs fois la même requête.
Compte à rebours pour VB Transform 2024
Rejoignez les chefs d’entreprise à San Francisco du 9 au 11 juillet pour notre événement phare sur l’IA. Connectez-vous avec vos pairs, explorez les opportunités et les défis de l’IA générative et apprenez à intégrer les applications d’IA dans votre secteur. S’inscrire maintenant
Pour augmenter la précision, certains systèmes d’agents génèrent plusieurs réponses et utilisent des mécanismes tels que le vote ou des outils de vérification externes pour choisir la meilleure réponse. Parfois, l’échantillonnage de centaines ou de milliers de réponses peut augmenter la précision de l’agent. Bien que cette approche puisse améliorer les performances, elle a un coût de calcul important. Les coûts d’inférence ne sont pas toujours un problème dans les contextes de recherche, où l’objectif est de maximiser la précision.
Cependant, dans les applications pratiques, le budget disponible pour chaque requête est limité, ce qui rend crucial le contrôle des coûts des évaluations des agents. Dans le cas contraire, les chercheurs pourraient être amenés à développer des agents extrêmement coûteux simplement pour arriver en tête du classement. Les chercheurs de Princeton proposent de visualiser les résultats de l’évaluation sous forme de courbe de Pareto de précision et de coût d’inférence et d’utiliser des techniques qui optimisent conjointement l’agent pour ces deux mesures.
Les chercheurs ont évalué les compromis entre précision et coût de différentes techniques d’incitation et modèles d’agents introduits dans différents articles.
« Pour une précision sensiblement similaire, le coût peut varier de près de deux ordres de grandeur », écrivent les chercheurs. « Pourtant, le coût de fonctionnement de ces agents n’est pas une mesure de premier plan rapportée dans aucun de ces articles. »
Les chercheurs soutiennent que l’optimisation des deux mesures peut conduire à des « agents qui coûtent moins cher tout en conservant leur précision ». L’optimisation conjointe peut également permettre aux chercheurs et aux développeurs de faire un compromis entre les coûts fixes et variables de fonctionnement d’un agent. Par exemple, ils peuvent dépenser plus pour optimiser la conception de l’agent, mais réduire le coût variable en utilisant moins d’agents. Exemples d’apprentissage en contexte dans l’invite de l’agent.
Les chercheurs ont testé l’optimisation des articulations sur HotpotQAun outil de référence populaire de réponse aux questions. Leurs résultats montrent que la formulation d’optimisation conjointe offre un moyen de trouver un équilibre optimal entre précision et coûts d’inférence.
« Les évaluations d’agents utiles doivent tenir compte des coûts, même si en fin de compte, nous ne nous soucions pas des coûts mais uniquement de l’identification de modèles d’agents innovants », écrivent les chercheurs. « La précision à elle seule ne peut pas identifier les progrès, car elle peut être améliorée par des méthodes scientifiquement dénuées de sens, comme la ré-essai. »
Développement de modèles vs applications en aval
Les chercheurs soulignent également la différence entre l’évaluation des modèles à des fins de recherche et le développement d’applications en aval. Dans la recherche, la précision est souvent la priorité, les coûts d’inférence étant largement ignorés. Cependant, lors du développement d’applications concrètes sur des agents d’IA, les coûts d’inférence jouent un rôle crucial dans le choix du modèle et de la technique à utiliser.
L’évaluation des coûts d’inférence pour les agents d’IA est un défi. Par exemple, différents fournisseurs de modèles peuvent facturer des montants différents pour le même modèle. Parallèlement, les coûts des appels d’API changent régulièrement et peuvent varier en fonction des décisions des développeurs. Par exemple, sur certaines plateformes, les appels d’API en masse sont facturés différemment.
Les chercheurs ont créé un site web qui ajuste les comparaisons de modèles en fonction du prix des jetons pour résoudre ce problème.
Ils ont également mené une étude de cas sur NouvelleQAune référence pour les tâches de questions-réponses sur des textes très longs. Ils ont découvert que les repères destinés à l’évaluation de modèles peuvent être trompeurs lorsqu’ils sont utilisés pour une évaluation en aval. Par exemple, l’étude originale NovelQA fait récupération-génération augmentée (RAG) semblent bien pires que les modèles à long contexte que dans un scénario réel. Leurs conclusions montrent que RAG et modèles à contexte long étaient à peu près tout aussi précis, tandis que les modèles à long contexte sont 20 fois plus chers.
Le surapprentissage est un problème
Lors de l’apprentissage de nouvelles tâches, les modèles d’apprentissage automatique (ML) trouvent souvent des raccourcis qui leur permettent d’obtenir de bons résultats aux tests de référence. L’un des principaux types de raccourcis est le « surajustement », où le modèle trouve des moyens de tricher sur les tests de référence et fournit des résultats qui ne se traduisent pas dans le monde réel. Les chercheurs ont découvert que le surajustement est un problème sérieux pour les tests de référence des agents, car ils ont tendance à être petits, constitués généralement de quelques centaines d’échantillons seulement. Ce problème est plus grave que celui des tests de référence des agents. contamination des données dans la formation des modèles de base, car la connaissance des échantillons de test peut être directement programmée dans l’agent.
Pour résoudre ce problème, les chercheurs suggèrent aux développeurs de benchmarks de créer et de conserver des ensembles de tests de référence composés d’exemples qui ne peuvent pas être mémorisés pendant l’entraînement et qui ne peuvent être résolus que par une bonne compréhension de la tâche cible. Dans leur analyse de 17 benchmarks, les chercheurs ont découvert que bon nombre d’entre eux manquaient d’ensembles de données de référence appropriés, ce qui permettait aux agents de prendre des raccourcis, même involontairement.
« Étonnamment, nous constatons que de nombreux tests de référence d’agents n’incluent pas d’ensembles de tests réservés », écrivent les chercheurs. « En plus de créer un ensemble de tests, les développeurs de tests de référence devraient envisager de le garder secret pour éviter toute contamination par LLM ou tout surapprentissage de l’agent. »
Ils indiquent également que différents types d’échantillons de référence sont nécessaires en fonction du niveau de généralité souhaité de la tâche accomplie par l’agent.
« Les développeurs de benchmarks doivent faire de leur mieux pour s’assurer que les raccourcis sont impossibles », écrivent les chercheurs. « Nous considérons que c’est la responsabilité des développeurs de benchmarks plutôt que celle des développeurs d’agents, car concevoir des benchmarks qui n’autorisent pas les raccourcis est beaucoup plus simple que de vérifier chaque agent pour voir s’il prend des raccourcis. »
Les chercheurs ont testé WebArenaun test de référence qui évalue les performances des agents d’IA dans la résolution de problèmes avec différents sites Web. Ils ont trouvé plusieurs raccourcis dans les ensembles de données de formation qui ont permis aux agents de s’adapter aux tâches d’une manière qui serait facilement interrompue par des changements mineurs dans le monde réel. Par exemple, l’agent pouvait faire des hypothèses sur la structure des adresses Web sans considérer qu’elle pourrait changer à l’avenir ou qu’elle ne fonctionnerait pas sur différents sites Web.
Ces erreurs gonflent les estimations de précision et conduisent à un optimisme excessif quant aux capacités des agents, préviennent les chercheurs.
Avec Agents IA S’agissant d’un nouveau domaine, les communautés de recherche et de développement ont encore beaucoup à apprendre sur la manière de tester les limites de ces nouveaux systèmes qui pourraient bientôt devenir une partie importante des applications quotidiennes.
« L’analyse comparative des agents d’IA est nouvelle et les meilleures pratiques n’ont pas encore été établies, ce qui rend difficile de distinguer les véritables avancées du battage médiatique », écrivent les chercheurs. « Notre thèse est que les agents sont suffisamment différents des modèles pour que les pratiques d’analyse comparative doivent être repensées. »