Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus
Les modèles linguistiques d’un bit (LLM) sont apparus comme une approche prometteuse pour rendre l’IA générative plus accessible et abordable. En représentant les poids des modèles avec un nombre très limité de bits, les LLM 1 bit réduisent considérablement la mémoire et les ressources de calcul nécessaires à leur exécution.
Recherche Microsoft a repoussé les limites des LLM 1 bit avec son architecture BitNet. Dans un nouveau papierles chercheurs présentent BitNet a4.8, une nouvelle technique qui améliore encore l’efficacité des LLM 1 bit sans sacrifier leurs performances.
L’essor des LLM 1 bit
Les LLM traditionnels utilisent des nombres à virgule flottante de 16 bits (FP16) pour représenter leurs paramètres. Cela nécessite beaucoup de mémoire et de ressources de calcul, ce qui limite l’accessibilité et les options de déploiement des LLM. LLM à un bit relever ce défi en réduisant considérablement la précision des poids des modèles tout en égalant les performances des modèles de pleine précision.
Les modèles BitNet précédents utilisaient des valeurs de 1,58 bits (-1, 0, 1) pour représenter les poids du modèle et des valeurs de 8 bits pour les activations. Cette approche a considérablement réduit les coûts de mémoire et d’E/S, mais le coût de calcul des multiplications matricielles est resté un goulot d’étranglement, et l’optimisation des réseaux neuronaux avec des paramètres de bits extrêmement faibles est un défi.
Deux techniques permettent de résoudre ce problème. La sparsification réduit le nombre de calculs en éliminant les activations avec des ampleurs plus petites. Ceci est particulièrement utile dans les LLM car les valeurs d’activation ont tendance à avoir une distribution à longue traîne, avec quelques valeurs très grandes et de nombreuses petites.
Quantificationd’autre part, utilise un plus petit nombre de bits pour représenter les activations, réduisant ainsi le coût de calcul et de mémoire lié à leur traitement. Cependant, le simple fait de réduire la précision des activations peut entraîner des erreurs de quantification importantes et une dégradation des performances.
De plus, combiner la sparsification et la quantification est un défi et présente des problèmes particuliers lors de la formation de LLM 1 bit.
« La quantification et la sparsification introduisent des opérations non différenciables, ce qui rend le calcul du gradient pendant la formation particulièrement difficile », a déclaré Furu Wei, responsable de la recherche partenaire chez Microsoft Research, à VentureBeat.
Le calcul du gradient est essentiel pour calculer les erreurs et mettre à jour les paramètres lors de la formation des réseaux de neurones. Les chercheurs devaient également s’assurer que leurs techniques pouvaient être mises en œuvre efficacement sur le matériel existant tout en conservant les avantages de la sparsification et de la quantification.
BitNet a4.8
BitNet a4.8 relève les défis de l’optimisation des LLM 1 bit grâce à ce que les chercheurs décrivent comme « la quantification et la sparsification hybrides ». Ils y sont parvenus en concevant une architecture qui applique sélectivement la quantification ou la sparsification à différents composants du modèle en fonction du modèle de distribution spécifique des activations. L’architecture utilise des activations 4 bits pour les entrées dans les couches d’attention et de réseau à action directe (FFN). Il utilise une sparsification avec 8 bits pour les états intermédiaires, ne conservant que les 55 % supérieurs des paramètres. L’architecture est également optimisée pour tirer parti du matériel existant.
« Avec BitNet b1.58, le goulot d’étranglement d’inférence des LLM 1 bit passe de la mémoire/E/S au calcul, qui est limité par les bits d’activation (c’est-à-dire 8 bits dans BitNet b1.58) », a déclaré Wei. « Dans BitNet a4.8, nous poussons les bits d’activation à 4 bits afin de pouvoir exploiter les noyaux 4 bits (par exemple, INT4/FP4) pour accélérer 2 fois l’inférence LLM sur les périphériques GPU. La combinaison des poids de modèle 1 bit de BitNet b1.58 et des activations 4 bits de BitNet a4.8 répond efficacement à la fois aux contraintes de mémoire/E/S et de calcul dans l’inférence LLM.
BitNet a4.8 utilise également des valeurs sur 3 bits pour représenter les états clé (K) et valeur (V) dans le mécanisme d’attention. Le Cache KV est un élément crucial des modèles de transformateurs. Il stocke les représentations des jetons précédents dans la séquence. En réduisant la précision des valeurs de cache KV, BitNet a4.8 réduit encore les besoins en mémoire, en particulier lorsqu’il s’agit de longues séquences.
La promesse de BitNet a4.8
Les résultats expérimentaux montrent que BitNet a4.8 offre des performances comparables à son prédécesseur BitNet b1.58 tout en utilisant moins de calcul et de mémoire.
Par rapport aux modèles Llama de pleine précision, BitNet a4.8 réduit l’utilisation de la mémoire d’un facteur 10 et atteint une accélération 4x. Par rapport à BitNet b1.58, il atteint une accélération 2x grâce à des noyaux d’activation 4 bits. Mais la conception peut offrir bien plus.
« L’amélioration estimée du calcul est basée sur le matériel existant (GPU) », a déclaré Wei. « Avec un matériel spécifiquement optimisé pour les LLM 1 bit, les améliorations du calcul peuvent être considérablement améliorées. BitNet introduit un nouveau paradigme de calcul qui minimise le besoin de multiplication matricielle, un objectif principal de l’optimisation actuelle de la conception matérielle.
L’efficacité de BitNet a4.8 le rend particulièrement adapté au déploiement de LLM en périphérie et sur des appareils aux ressources limitées. Cela peut avoir des implications importantes en matière de confidentialité et de sécurité. En activant LLM sur l’appareilles utilisateurs peuvent bénéficier de la puissance de ces modèles sans avoir besoin d’envoyer leurs données vers le cloud.
Wei et son équipe poursuivent leurs travaux sur les LLM 1 bit.
« Nous continuons à faire progresser nos recherches et notre vision de l’ère des LLM 1 bit », a déclaré Wei. « Bien que nous nous concentrions actuellement sur l’architecture des modèles et le support logiciel (c’est-à-dire bitnet.cpp), nous visons à explorer la co-conception et la co-évolution de l’architecture des modèles et du matériel pour libérer pleinement le potentiel des LLM 1 bit. »