Le classement mis à jour de Hugging Face bouleverse le jeu d’évaluation de l’IA

Ne manquez pas les leaders d’OpenAI, Chevron, Nvidia, Kaiser Permanente et Capital One uniquement au VentureBeat Transform 2024. Obtenez des informations essentielles sur GenAI et développez votre réseau lors de cet événement exclusif de trois jours. Apprendre encore plus

Dans une démarche qui pourrait remodeler le paysage du développement de l’IA open source, Hugging Face a dévoilé une mise à niveau significative de son classement Open LLM. Cette refonte intervient à un moment critique du développement de l’IA, alors que les chercheurs et les entreprises sont aux prises avec un plateau apparent dans les gains de performances pour les grands modèles de langage (LLM).

Le Classement ouvert LLM, un outil de référence devenu une pierre de touche pour mesurer les progrès des modèles linguistiques d’IA, a été réorganisé pour fournir des évaluations plus rigoureuses et nuancées. Cette mise à jour arrive alors que la communauté de l’IA a observé un ralentissement des améliorations révolutionnaires, malgré la sortie continue de nouveaux modèles.

Je suis ravi d’annoncer le tout nouveau classement ouvert LLM. Nous avons brûlé 300 H100 pour réexécuter de nouvelles évaluations comme MMLU-pro pour tous les principaux LLM ouverts !
Un peu d’apprentissage :
– Qwen 72B est le roi et les modèles ouverts chinois dominent globalement
– Les évaluations précédentes sont devenues trop faciles pour les récentes…
— Clém ? (@ClémentDelangue) 26 juin 2024

Aborder le plateau : une approche à plusieurs volets

L’actualisation du classement introduit des mesures d’évaluation plus complexes et fournit des analyses détaillées pour aider les utilisateurs à comprendre quels tests sont les plus pertinents pour des applications spécifiques. Cette décision reflète une prise de conscience croissante au sein de la communauté de l’IA du fait que les chiffres bruts des performances sont à eux seuls suffisants. insuffisant pour évaluer l’utilité d’un modèle dans le monde réel.

Les principaux changements apportés au classement incluent :

Compte à rebours pour VB Transform 2024

Rejoignez les dirigeants d’entreprise à San Francisco du 9 au 11 juillet pour notre événement phare sur l’IA. Connectez-vous avec vos pairs, explorez les opportunités et les défis de l’IA générative et apprenez comment intégrer des applications d’IA dans votre secteur. S’inscrire maintenant

Introduction d’ensembles de données plus complexes qui testent le raisonnement avancé et l’application des connaissances dans le monde réel.
Mise en œuvre d’évaluations de dialogue multi-tours pour évaluer plus en profondeur les capacités conversationnelles des modèles.
Expansion des évaluations dans des langues autres que l’anglais pour mieux représenter les capacités mondiales de l’IA.
Incorporation de tests pour le suivi des instructions et l’apprentissage en quelques étapes, qui sont de plus en plus importants pour les applications pratiques.

Ces mises à jour visent à créer un ensemble de références plus complet et plus stimulant, permettant de mieux différencier les modèles les plus performants et d’identifier les domaines à améliorer.

Les performances LLM plafonnent… nous avons donc décidé de rendre le classement Open LLM encore plus raide ?️ ?
Présentation du classement 2️⃣
Attendre…
– de nouveaux repères
– des reportages plus justes
– fonctionnalités intéressantes (ai-je entendu le modèle de vote et de chat ?)
?https://t.co/6uKKuTSFrX
— Clémentine Fourrier ? (@clefourrier) 26 juin 2024

La LMSYS Chatbot Arena : Une approche complémentaire

La mise à jour de l’Open LLM Leaderboard est parallèle aux efforts déployés par d’autres organisations pour relever des défis similaires en matière d’évaluation de l’IA. Notamment, le Arène de chatbot LMSYSlancé en mai 2023 par des chercheurs de UC Berkeley et l’organisation des systèmes de grands modèlesadopte une approche différente mais complémentaire de l’évaluation des modèles d’IA.

Alors que l’Open LLM Leaderboard se concentre sur des benchmarks statiques et des tâches structurées, le Arène des chatbots met l’accent sur l’évaluation dynamique du monde réel grâce à des interactions directes avec les utilisateurs. Les principales fonctionnalités de Chatbot Arena incluent :

Évaluations en direct, pilotées par la communauté, où les utilisateurs s’engagent dans des conversations avec des modèles d’IA anonymisés.
Comparaisons par paires entre les modèles, les utilisateurs votant pour savoir lequel est le plus performant.
Un large champ d’application qui a évalué plus de 90 LLM, y compris des modèles commerciaux et open source.
Mises à jour régulières et informations sur les tendances en matière de performances des modèles.

L’approche de Chatbot Arena permet de remédier à certaines limites des benchmarks statiques en fournissant des scénarios de test continus, diversifiés et réels. Son introduction d’un «Invites difficilesLa catégorie « » en mai de cette année s’aligne davantage sur l’objectif de l’Open LLM Leaderboard de créer des évaluations plus stimulantes.

Implications pour le paysage de l’IA

Les efforts parallèles du Classement ouvert LLM et le Arène de chatbot LMSYS mettent en évidence une tendance cruciale dans le développement de l’IA : la nécessité de méthodes d’évaluation plus sophistiquées et à multiples facettes à mesure que les modèles deviennent de plus en plus performants.

Pour les décideurs d’entreprise, ces outils d’évaluation améliorés offrent une vision plus nuancée des capacités de l’IA. La combinaison de références structurées et de données d’interaction réelles fournit une image plus complète des forces et des faiblesses d’un modèle, essentielle pour prendre des décisions éclairées concernant l’adoption et l’intégration de l’IA.

De plus, ces initiatives soulignent l’importance d’efforts ouverts et collaboratifs pour faire progresser la technologie de l’IA. En fournissant des évaluations transparentes et axées sur la communauté, ils favorisent un environnement de concurrence saine et d’innovation rapide au sein de la communauté de l’IA open source.

Regarder vers l’avenir : défis et opportunités

Les modèles d’IA continuent d’évoluer et les méthodes d’évaluation doivent suivre le rythme. Les mises à jour du classement Open LLM et les travaux en cours sur la LMSYS Chatbot Arena représentent des étapes importantes dans cette direction, mais des défis demeurent :

Veiller à ce que les références restent pertinentes et stimulantes à mesure que les capacités de l’IA progressent.
Équilibrer le besoin de tests standardisés avec la diversité des applications du monde réel.
Remédier aux biais potentiels dans les méthodes d’évaluation et les ensembles de données.
Développer des mesures permettant d’évaluer non seulement les performances, mais également la sécurité, la fiabilité et les considérations éthiques.

La réponse de la communauté de l’IA à ces défis jouera un rôle crucial dans l’orientation future du développement de l’IA. À mesure que les modèles atteignent et dépassent les performances humaines sur de nombreuses tâches, l’accent pourrait se déplacer vers des évaluations plus spécialisées, des capacités multimodales et des évaluations de la capacité de l’IA à généraliser les connaissances dans différents domaines.

Pour l’instant, les mises à jour de l’Open LLM Leaderboard et l’approche complémentaire de LMSYS Chatbot Arena fournissent des outils précieux aux chercheurs, aux développeurs et aux décideurs qui naviguent dans le paysage de l’IA en évolution rapide. Comme l’a souligné un contributeur à l’Open LLM Leaderboard : « Nous avons gravi une montagne. Il est maintenant temps de trouver le prochain sommet.

VB Quotidien

Restez informé ! Recevez quotidiennement les dernières nouvelles dans votre boîte de réception

En vous abonnant, vous acceptez les conditions d’utilisation de VentureBeat Conditions d’utilisation.

Merci pour votre subscription. En savoir plus Newsletters VB ici.

Une erreur s’est produite.

Le classement mis à jour de Hugging Face bouleverse le jeu d’évaluation de l’IA

Aborder le plateau : une approche à plusieurs volets

La LMSYS Chatbot Arena : Une approche complémentaire

Implications pour le paysage de l’IA

Regarder vers l’avenir : défis et opportunités

Related Posts