Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe du secteur. Apprendre encore plus
MLCommons publie aujourd’hui sa dernière série de résultats d’inférence MLPerf. Les nouveaux résultats marquent le début d’un nouveau benchmark d’IA générative ainsi que les premiers résultats de test validés pour la prochaine génération de Nvidia Processeur graphique Blackwell processeur.
MLCommons est une organisation multipartite, organisation indépendante des fournisseurs qui gère les benchmarks MLperf pour les deux Formation en IA ainsi que Inférence de l’IA. La dernière série de tests d’inférence MLPerf, publiée par MLCommons, fournit un aperçu complet de l’évolution rapide du paysage matériel et logiciel de l’IA. Avec 964 résultats de performance soumis par 22 organisations, ces tests constituent une ressource essentielle pour les décideurs d’entreprise qui naviguent dans le monde complexe du déploiement de l’IA. En offrant des mesures standardisées et reproductibles des capacités d’inférence de l’IA dans divers scénarios, MLPerf permet aux entreprises de faire des choix éclairés sur leurs investissements en infrastructure d’IA, en équilibrant performances, efficacité et coût.
Dans le cadre de MLPerf Inference v 4.1, une série d’ajouts notables ont été apportés. Pour la première fois, MLPerf évalue désormais les performances d’un mélange d’experts (MoE), en particulier Modèle Mixtral 8x7B. Cette série de tests a présenté une gamme impressionnante de nouveaux processeurs et systèmes, dont beaucoup faisaient leur première apparition publique. Parmi les nouveautés notables, citons le MI300x d’AMD, le TPUv6e (Trillium) de Google, le Granite Rapids d’Intel, le SpeedAI 240 d’Untether AI et le GPU Blackwell B200 de Nvidia.
« Nous avons une diversité de candidatures très large et c’est vraiment passionnant », a déclaré David Kanter, fondateur et directeur de MLPerf chez MLCommons, lors d’une conférence téléphonique pour discuter des résultats avec la presse et les analystes. « Plus nous voyons de systèmes différents, mieux c’est pour l’industrie, plus il y a d’opportunités et plus de choses à comparer et à apprendre. »
Présentation du benchmark Mixture of Experts (MoE) pour l’inférence de l’IA
L’un des points forts de ce cycle a été l’introduction du benchmark Mixture of Experts (MoE), conçu pour répondre aux défis posés par des modèles linguistiques de plus en plus volumineux.
« Les modèles ont augmenté en taille », a déclaré Miro Hodak, membre senior de l’équipe technique d’AMD et l’un des présidents du groupe de travail sur l’inférence de MLCommons lors de la réunion d’information. « Cela entraîne des problèmes importants dans le déploiement pratique. »
Hodak a expliqué qu’à un niveau élevé, au lieu d’avoir un seul grand modèle monolithique, avec l’approche MoE, il existe plusieurs modèles plus petits, qui sont les experts dans différents domaines. Chaque fois qu’une requête arrive, elle est acheminée vers l’un des experts.
Le benchmark MoE teste les performances sur différents matériels à l’aide du modèle Mixtral 8x7B, qui se compose de huit experts, chacun avec 7 milliards de paramètres. Il combine trois tâches différentes :
- Questions-réponses basées sur l’ensemble de données Open Orca
- Raisonnement mathématique à l’aide de l’ensemble de données GSMK
- Tâches de codage à l’aide du jeu de données MBXP
Il a souligné que les principaux objectifs étaient de mieux exploiter les atouts de l’approche MoE par rapport à un benchmark à tâche unique et de mettre en valeur les capacités de cette tendance architecturale émergente dans les grands modèles de langage et l’IA générative. Hodak a expliqué que l’approche MoE permet un déploiement et une spécialisation des tâches plus efficaces, offrant potentiellement aux entreprises des solutions d’IA plus flexibles et plus rentables.
Nvidia Blackwell arrive et apporte de gros gains en matière d’inférence de l’IA
Les tests de performance MLPerf sont une excellente occasion pour les fournisseurs de découvrir les technologies à venir. Au lieu de se contenter de faire des déclarations marketing sur les performances, la rigueur du processus MLPerf fournit des tests conformes aux normes du secteur, évalués par des pairs.
Parmi les composants d’IA les plus attendus figure le GPU Blackwell de Nvidia, annoncé pour la première fois en mars. Bien qu’il faudra encore plusieurs mois avant que Blackwell ne soit entre les mains de vrais utilisateurs, les résultats de MLPerf Inference 4.1 offrent un aperçu prometteur de la puissance à venir.
« Il s’agit de notre première divulgation de performances à partir de données mesurées sur Blackwell, et nous sommes très heureux de le partager », a déclaré Dave Salvator, de Nvidia, lors d’un briefing avec la presse et les analystes.
L’inférence MLPerf 4.1 comporte de nombreux tests d’évaluation différents. Plus précisément sur la charge de travail d’IA générative qui mesure les performances à l’aide de la plus grande charge de travail LLM de MLPerf, Llama 2 70B,
« Nous offrons des performances 4 fois supérieures à celles de notre produit de la génération précédente par GPU », a déclaré Salvator.
Bien que le GPU Blackwell soit une nouveauté majeure, Nvidia continue également d’améliorer les performances de ses architectures GPU existantes. Le GPU Nvidia Hopper continue de s’améliorer. Les résultats de l’inférence MLPerf 4.1 de Nvidia pour le GPU Hopper fournissent jusqu’à 27 % de performances en plus que la dernière série de résultats il y a six mois.
« Tous ces gains proviennent uniquement du logiciel », a déclaré Salvator. « En d’autres termes, il s’agit du même matériel que celui que nous avons présenté il y a environ six mois, mais grâce aux réglages logiciels que nous effectuons en permanence, nous sommes en mesure d’obtenir de meilleures performances sur cette même plateforme. »