Microsoft lance de nouveaux modèles puissants Phi-3.5

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe du secteur. Apprendre encore plus

Microsoft ne repose pas son succès en matière d’IA sur les lauriers de son partenariat avec OpenAI.

Non, loin de là. Au lieu de cela, l’entreprise souvent connue sous le nom de Redmond en raison de son siège social situé dans l’État de Washington a lancé aujourd’hui trois nouveaux modèles de sa série évolutive Phi d’IA linguistique/multimodale.

Les trois nouveaux modèles Phi 3.5 incluent le paramètre 3,82 milliards Phi-3.5-mini-instructionle paramètre 41,9 milliards Phi-3.5-MoE-instructionet le paramètre 4,15 milliards Phi-3.5-vision-instructionchacun conçu pour les tâches de raisonnement de base/rapide, de raisonnement plus puissant et de vision (analyse d’image et de vidéo), respectivement.

Les trois modèles sont disponibles pour que les développeurs puissent les télécharger, les utiliser et les personnaliser avec précision. Visage qui fait un câlin sous un Licence MIT de marque Microsoft qui permet une utilisation commerciale et une modification sans restrictions.

Étonnamment, les trois modèles affichent également des performances proches de la pointe de la technologie dans un certain nombre de tests de référence tiers, battant même d’autres fournisseurs d’IA, notamment Gemini 1.5 Flash de Google, Llama 3.1 de Meta et même GPT-4o d’OpenAI dans certains cas.

Cette performance, combinée à la licence ouverte permissive, fait que les gens font l’éloge de Microsoft sur le réseau social X :

C’est parti… Microsoft vient de sortir Phi 3.5 mini, MoE et Vision avec un contexte de 128 000, une licence multilingue et MIT ! MoE bat le flash Gemini, Vision est-il compétitif avec GPT4o ?
> Mini avec des paramètres de 3,8B, bat Llama3.1 8B et Mistral 7B et est compétitif avec Mistral NeMo 12B
>… pic.twitter.com/7QJYOSSdyX
– Vaibhav (VB) Srivastav (@reach_vb) 20 août 2024

Félicitations à @Microsoft pour avoir obtenu un résultat aussi incroyable avec le tout nouveau phi 3.5 : mini+MoE+vision ?
Phi-3.5-MoE bat Llama 3.1 8B dans tous les benchmarks
Bien sûr, Phi-3,5-MoE est un MoE de paramètre 42B avec 6,6B activé pendant la génération
Et Phi-3,5 MoE surpasse… pic.twitter.com/9d4h5Q5p7Z
-Rohan Paul (@rohanpaul_ai) 20 août 2024

Comment diable Phi-3.5 est-il même possible ?
Phi-3.5-3.8B (Mini) bat en quelque sorte LLaMA-3.1-8B.
(entraîné uniquement sur 3,4T de jetons)
Phi-3.5-16×3.8B (MoE) surpasse en quelque sorte Gemini-Flash
(entraîné uniquement sur 4,9T de jetons)
Phi-3.5-V-4.2B (Vision) bat en quelque sorte GPT-4o
(formé sur 500B jetons)
Comment ? mdr pic.twitter.com/97gmx1CsQs
— Yam Peleg (@Yampeleg) 20 août 2024

Passons en revue aujourd’hui chacun des nouveaux modèles, brièvement, en fonction de leurs notes de publication publiées sur Hugging Face

Phi-3.5 Mini Instruct : optimisé pour les environnements à contraintes de calcul

Le modèle Phi-3.5 Mini Instruct est un modèle d’IA léger avec 3,8 milliards de paramètres, conçu pour le respect des instructions et prenant en charge une longueur de contexte de jeton de 128 000.

Ce modèle est idéal pour les scénarios qui exigent de fortes capacités de raisonnement dans des environnements à mémoire ou à calcul limités, y compris des tâches telles que la génération de code, la résolution de problèmes mathématiques et le raisonnement basé sur la logique.

Malgré sa taille compacte, le modèle Phi-3.5 Mini Instruct démontre des performances compétitives dans les tâches conversationnelles multilingues et multi-tours, reflétant des améliorations significatives par rapport à ses prédécesseurs.

Il bénéficie de performances proches de la pointe de la technologie sur un certain nombre de tests et dépasse d’autres modèles de taille similaire (Llama-3.1-8B-instruct et Mistral-7B-instruct) sur le test RepoQA qui mesure la « compréhension du code à long contexte ».

Phi-3.5 MoE : le « mélange d’experts » de Microsoft

Le modèle Phi-3.5 MoE (Mixture of Experts) semble être le premier de cette catégorie de modèles de l’entreprise, un modèle qui combine plusieurs types de modèles différents en un seul, chacun spécialisé dans différentes tâches.

Ce modèle s’appuie sur une architecture avec 42 milliards de paramètres actifs et prend en charge une longueur de contexte de jeton de 128 000, offrant des performances d’IA évolutives pour les applications exigeantes. Cependant, il ne fonctionne qu’avec 6,6 milliards de paramètres actifs, selon la documentation de HuggingFace.

Conçu pour exceller dans diverses tâches de raisonnement, Phi-3.5 MoE offre de solides performances en matière de code, de mathématiques et de compréhension du langage multilingue, surpassant souvent les modèles plus grands dans des tests de performance spécifiques, y compris, encore une fois, RepoQA :

Il surpasse également de manière impressionnante le GPT-4o mini sur le MMLU (Massive Multitask Language Understanding) à 5 coups dans des matières telles que les STEM, les sciences humaines, les sciences sociales, à différents niveaux d’expertise.

L’architecture unique du modèle MoE lui permet de maintenir son efficacité tout en gérant des tâches d’IA complexes dans plusieurs langues.

Phi-3.5 Vision Instruct : Raisonnement multimodal avancé

Le trio est complété par le modèle Phi-3.5 Vision Instruct, qui intègre à la fois des capacités de traitement de texte et d’image.

Ce modèle multimodal est particulièrement adapté aux tâches telles que la compréhension générale d’images, la reconnaissance optique de caractères, la compréhension de graphiques et de tableaux et le résumé vidéo.

Comme les autres modèles de la série Phi-3.5, Vision Instruct prend en charge une longueur de contexte de jeton de 128 000, ce qui lui permet de gérer des tâches visuelles complexes à plusieurs images.

Microsoft souligne que ce modèle a été formé avec une combinaison d’ensembles de données synthétiques et filtrés accessibles au public, en se concentrant sur des données de haute qualité et riches en raisonnement.

Entraînement du nouveau trio Phi

Le modèle Phi-3.5 Mini Instruct a été formé sur 3,4 billions de jetons à l’aide de 512 GPU H100-80G sur 10 jours, tandis que le modèle Vision Instruct a été formé sur 500 milliards de jetons à l’aide de 256 GPU A100-80G sur 6 jours.

Le modèle Phi-3.5 MoE, qui présente une architecture mixte d’experts, a été formé sur 4,9 billions de jetons avec 512 GPU H100-80G sur 23 jours.

Open source sous licence MIT

Les trois modèles Phi-3.5 sont disponibles sous la licence MIT, reflétant l’engagement de Microsoft à soutenir la communauté open source.

Cette licence permet aux développeurs d’utiliser, de modifier, de fusionner, de publier, de distribuer, de sous-licencier ou de vendre librement des copies du logiciel.

La licence inclut également une clause de non-responsabilité stipulant que le logiciel est fourni « tel quel », sans aucune garantie. Microsoft et les autres détenteurs de droits d’auteur ne sont pas responsables des réclamations, dommages ou autres responsabilités pouvant découler de l’utilisation du logiciel.

La sortie de la série Phi-3.5 par Microsoft représente une avancée significative dans le développement de l’IA multilingue et multimodale.

En proposant ces modèles sous une licence open source, Microsoft permet aux développeurs d’intégrer des capacités d’IA de pointe dans leurs applications, favorisant ainsi l’innovation dans les domaines commerciaux et de la recherche.

VB Quotidien

Restez informés ! Recevez les dernières nouvelles dans votre boîte mail tous les jours

En vous abonnant, vous acceptez les conditions d’utilisation de VentureBeat. Conditions d’utilisation.

Merci de vous être abonné. Découvrez-en plus Les newsletters VB ici.

Une erreur s’est produite.