Rejoignez-nous pour revenir à New York le 5 juin pour collaborer avec des dirigeants afin d’explorer des méthodes complètes d’audit des modèles d’IA concernant les préjugés, les performances et la conformité éthique dans diverses organisations. Découvrez comment vous pouvez assistez ici.
Alors que la concurrence dans le domaine de l’IA générative s’oriente vers des modèles multimodaux, Méta a publié un aperçu de ce qui peut être sa réponse aux modèles publiés par Frontier Labs. Caméléonsa nouvelle famille de modèles, a été conçue pour être nativement multimodale au lieu d’assembler des composants aux modalités différentes.
Bien que Meta n’ait pas encore publié les modèles, leurs expériences rapportées montrent que Chameleon atteint des performances de pointe dans diverses tâches, notamment le sous-titrage d’images et la réponse visuelle aux questions (VQA), tout en restant compétitif dans les tâches contenant uniquement du texte.
L’architecture de Chameleon peut débloquer de nouvelles applications d’IA qui nécessitent une compréhension approfondie des informations visuelles et textuelles.
Modèles multimodaux de fusion précoce
La manière la plus courante de créer des modèles de base multimodaux consiste à assembler des modèles qui ont été formés pour différentes modalités. Cette approche est appelée « fusion tardive », dans laquelle le système d’IA reçoit différentes modalités, les code avec des modèles distincts, puis fusionne les codages pour l’inférence. Bien que la fusion tardive fonctionne bien, elle limite la capacité des modèles à intégrer des informations selon les modalités et à générer des séquences d’images et de textes entrelacés.
Chameleon utilise une architecture « mixte basée sur des jetons de fusion précoce », ce qui signifie qu’il a été conçu dès le départ pour apprendre à partir d’un mélange entrelacé d’images, de texte, de code et d’autres modalités. Chameleon transforme les images en jetons discrets, comme le font les modèles de langage avec les mots. Il utilise également un vocabulaire unifié composé de jetons de texte, de code et d’image. Cela permet d’appliquer la même architecture de transformateur aux séquences contenant à la fois des jetons d’image et de texte.
Selon les chercheurs, le modèle le plus similaire au Chameleon est Google Gémeaux, qui utilise également une approche basée sur des jetons de fusion précoce. Cependant, Gemini utilise des décodeurs d’images distincts dans la phase de génération, tandis que Chameleon est un modèle de bout en bout qui traite et génère des jetons.
« L’espace de jetons unifié de Chameleon lui permet de raisonner et de générer de manière transparente des séquences d’images et de texte entrelacées, sans avoir besoin de composants spécifiques à une modalité », écrivent les chercheurs.
Bien que la fusion précoce soit très attrayante, elle présente des défis importants lors de la formation et de la mise à l’échelle du modèle. Pour surmonter ces défis, les chercheurs ont eu recours à une série de modifications architecturales et de techniques de formation. Dans leur article, ils partagent les détails des différentes expériences et leurs effets sur le modèle.
La formation de Chameleon se déroule en deux étapes, avec un ensemble de données contenant 4,4 billions de jetons de texte, de paires image-texte et des séquences de texte et d’images entrelacées. Les chercheurs ont formé une version de Chameleon comportant 7 milliards et 34 milliards de paramètres sur plus de 5 millions d’heures d’expérience. GPU Nvidia A100 80 Go.
Caméléon en action
Selon les expériences rapportées dans l’article, Chameleon peut effectuer un ensemble diversifié de tâches textuelles et multimodales. En matière de réponse visuelle aux questions (VQA) et de sous-titrage d’images, le Chameleon-34B atteint des performances de pointe, surpassant des modèles comme Flamingo, IDÉFIQUES et Lava-1.5.
Selon les chercheurs, Chameleon équivaut aux performances d’autres modèles avec « beaucoup moins d’exemples de formation en contexte et avec des modèles de plus petite taille, à la fois dans les évaluations de modèles pré-entraînés et affinés ».
L’un des inconvénients de la multimodalité est une baisse de performances dans les requêtes monomodales. Par exemple, les modèles de langage visuel ont tendance à avoir des performances inférieures sur les invites contenant uniquement du texte. Mais Chameleon reste compétitif sur les tests de référence textuels, correspondant à des modèles comme Mixtral 8x7B et Gemini-Pro sur les tâches de raisonnement de bon sens et de compréhension écrite.
Il est intéressant de noter que Chameleon peut débloquer de nouvelles capacités de raisonnement et de génération mixtes, en particulier lorsque les invites attendent des réponses mixtes avec du texte et des images entrelacées. Des expériences avec des réponses évaluées par des humains montrent que dans l’ensemble, les utilisateurs ont préféré les documents multimodaux générés par Chameleon.
La semaine dernière, les deux OpenAI et Google a révélé de nouveaux modèles offrant de riches expériences multimodales. Cependant, ils n’ont pas publié beaucoup de détails sur les modèles. Si Meta continue de suivre son playbook et publie les poids pour Chameleon, il pourrait devenir une alternative ouverte aux modèles privés.
Les premières fusions peuvent également inspirer de nouvelles orientations de recherche sur des modèles plus avancés, d’autant plus que davantage de modalités sont ajoutées au mélange. Par exemple, les startups de robotique expérimentent déjà le intégration de modèles de langage dans les systèmes de contrôle robotique. Il sera intéressant de voir comment une fusion précoce peut également améliorer les modèles de base de la robotique.
« Chameleon représente une étape importante vers la réalisation de la vision de modèles de fondation unifiés capables de raisonner et de générer de manière flexible du contenu multimodal », écrivent les chercheurs.