Le point de vue "big is better" du modèle d'IA ne fonctionne plus

Auteur |The Economist Translator |

Rédacteur en chef | Xia Meng

Liste | CSDN (ID : CSDNnews)

Source de l'image : générée par l'IA illimitée

Si l'IA veut s'améliorer, elle devra faire plus avec moins de ressources.

En parlant de "Large Language Models" (LLM), tels que le GPT (Generative Pre-trained Transformer) d'OpenAI - la force centrale qui anime les chatbots populaires aux États-Unis - le nom dit tout. Ces systèmes d'IA modernes sont alimentés par de vastes réseaux de neurones artificiels qui imitent largement le fonctionnement des cerveaux biologiques. GPT-3, sorti en 2020, est un grand mastodonte de modèle de langage avec 175 milliards de "paramètres", qui est le nom des connexions simulées entre les neurones. GPT-3 est entraîné en traitant des billions de mots de texte en quelques semaines à l'aide de milliers de GPU dotés d'intelligence artificielle, pour un coût estimé à plus de 4,6 millions de dollars.

Cependant, le consensus dans la recherche moderne sur l'IA est : "plus c'est gros, mieux c'est, et plus c'est gros, c'est mieux". Par conséquent, le taux de croissance de l'échelle du modèle a connu un développement rapide. Sorti en mars, GPT-4 est estimé avoir environ 1 000 milliards de paramètres, soit une multiplication par près de six par rapport à la génération précédente. Le PDG d'OpenAI, Sam Altman, estime que son développement a coûté plus de 100 millions de dollars. Et l'industrie dans son ensemble montre la même tendance. La société de recherche Epoch AI prédit en 2022 que la puissance de calcul nécessaire pour former les meilleurs modèles doublera tous les six à dix mois (voir le graphique ci-dessous).

La taille sans cesse croissante des paramètres des modèles d'IA pose certains problèmes. Si les prédictions d'Epoch AI sont correctes et que les coûts de formation doublent tous les dix mois, les coûts de formation pourraient dépasser un milliard de dollars d'ici 2026 - et cela suppose seulement que les données ne soient pas épuisées en premier. Une analyse d'octobre 2022 a prédit que le texte de haute qualité utilisé pour la formation pourrait être épuisé dans le même laps de temps. De plus, même après la fin de la formation du modèle, le coût réel de l'exécution d'un grand modèle peut être prohibitif.

Plus tôt cette année, Morgan Stanley a estimé que si la moitié des recherches de Google étaient gérées par des programmes actuels de type GPT, cela pourrait coûter à l'entreprise 6 milliards de dollars supplémentaires par an. Ce nombre continuera probablement d'augmenter à mesure que la taille du modèle augmentera.

En conséquence, l'opinion de nombreuses personnes selon laquelle les modèles d'IA sont « grands, c'est mieux » n'est plus valable. S'ils veulent continuer à améliorer les modèles d'IA (et encore moins réaliser ces grands rêves d'IA), les développeurs doivent trouver comment obtenir de meilleures performances avec des ressources limitées. Comme l'a dit M. Altman en avril en revenant sur l'histoire de l'IA à grande échelle : "Je pense que nous avons atteint la fin d'une époque."

** Crunch quantitatif **

Au lieu de cela, les chercheurs ont commencé à se concentrer sur la façon d'améliorer l'efficacité du modèle, et pas seulement sur la poursuite de l'échelle. Une façon consiste à parvenir à un compromis en réduisant le nombre de paramètres mais en utilisant plus de données pour former le modèle. En 2022, la division DeepMind de Google a formé un LLM de 70 milliards de paramètres appelé Chinchilla sur un corpus de 1,4 billion de mots. Bien qu'il ait moins de paramètres que les 175 milliards de GPT-3 et des données d'entraînement de seulement 300 milliards de mots, ce modèle a surpassé GPT-3. Alimenter un LLM plus petit avec plus de données signifie qu'il faut plus de temps pour s'entraîner, mais le résultat est un modèle plus petit, plus rapide et moins cher.

Une autre option consiste à laisser réduire la précision des nombres à virgule flottante. La réduction du nombre de chiffres de précision dans chaque nombre du modèle, c'est-à-dire l'arrondi, peut réduire considérablement les exigences matérielles. Des chercheurs de l'Institut autrichien des sciences et technologies ont démontré en mars que l'arrondi peut réduire considérablement la consommation de mémoire d'un modèle de type GPT-3, permettant au modèle de fonctionner sur un GPU haut de gamme au lieu de cinq avec "une perte de précision négligeable". " ".

Certains utilisateurs affinent un LLM à usage général pour se concentrer sur des tâches spécifiques telles que la génération de documents juridiques ou la détection de fausses nouvelles. Bien que ce ne soit pas aussi complexe que la formation d'un LLM pour la première fois, cela peut toujours être coûteux et prendre du temps. Le réglage fin du modèle LLaMA open source de 65 milliards de paramètres de Meta (la société mère de Facebook) nécessitait plusieurs GPU et prenait de quelques heures à quelques jours.

Des chercheurs de l'Université de Washington ont inventé un moyen plus efficace de créer un nouveau modèle Guanaco de LLaMA sur un seul GPU en une journée avec une perte de performances négligeable. Une partie de l'astuce est une technique d'arrondi similaire à celle utilisée par les chercheurs autrichiens. Mais ils ont également utilisé une technique appelée Low-Rank Adaptation (LoRA), qui consiste à fixer les paramètres existants du modèle, puis à y ajouter un nouvel ensemble de paramètres plus petit. Le réglage fin se fait en modifiant uniquement ces nouvelles variables. Cela simplifie les choses au point que même un ordinateur relativement faible, comme un smartphone, est à la hauteur. Si LLM peut être exécuté sur l'appareil de l'utilisateur au lieu du centre de données géant actuel, cela peut apporter une plus grande personnalisation et une meilleure protection de la vie privée.

Pendant ce temps, une équipe de Google propose de nouvelles options pour ceux qui peuvent vivre avec des modèles plus petits. Cette approche se concentre sur l'extraction de connaissances spécifiques à partir d'un grand modèle général et sa transformation en un modèle plus petit et spécialisé. Le grand modèle agit en tant qu'enseignant et le petit modèle agit en tant qu'élève. Les chercheurs ont demandé aux enseignants de répondre aux questions et de démontrer leur raisonnement. Les réponses et les inférences du modèle de l'enseignant (grand modèle) sont utilisées pour former le modèle de l'élève (petit modèle). L'équipe a formé avec succès un modèle étudiant avec seulement 7,7 milliards de paramètres (le petit modèle) pour surpasser son modèle enseignant avec 540 milliards de paramètres (le grand modèle) sur des tâches d'inférence spécifiques.

Une autre approche consiste à changer la façon dont le modèle est construit au lieu de se concentrer sur ce que fait le modèle. La plupart des modèles d'IA sont développés en langage Python. Il est conçu pour être facile à utiliser, évitant au programmeur d'avoir à réfléchir à la façon dont le programme fait fonctionner la puce pendant son exécution. Le prix du masquage de ces détails est que le code s'exécute plus lentement. Accorder plus d'attention à ces détails de mise en œuvre peut rapporter d'énormes dividendes. Comme le dit Thomas Wolf, directeur scientifique de la société d'intelligence artificielle open source Hugging Face, il s'agit "d'un aspect important de la recherche actuelle en intelligence artificielle".

code optimisé

Par exemple, en 2022, des chercheurs de l'Université de Stanford ont publié une version améliorée de "l'algorithme d'attention" qui permet aux grands modèles de langage (LLM) d'apprendre les liens entre les mots et les concepts. L'idée est de modifier le code pour tenir compte de ce qui se passe sur la puce sur laquelle il s'exécute, en particulier pour garder une trace du moment où des informations spécifiques doivent être récupérées ou stockées. Leur algorithme a réussi à tripler la vitesse de formation de GPT-2, un des premiers grands modèles de langage, et a également amélioré sa capacité à gérer des requêtes plus longues.

** Un code plus propre peut également être obtenu avec de meilleurs outils **. Plus tôt cette année, Meta a publié une nouvelle version de son framework de programmation d'IA, PyTorch. En amenant les programmeurs à réfléchir davantage à la manière d'organiser les calculs sur des puces réelles, cela peut doubler la vitesse à laquelle les modèles peuvent être formés en ajoutant une seule ligne de code. Modular, une startup fondée par d'anciens ingénieurs d'Apple et de Google, a publié le mois dernier un nouveau langage de programmation axé sur l'IA appelé Mojo, basé sur Python. Mojo donne aux programmeurs le contrôle de tous les détails qui étaient auparavant protégés et, dans certains cas, le code écrit à l'aide de Mojo peut s'exécuter des milliers de fois plus rapidement qu'un bloc de code équivalent écrit en Python.

La dernière option consiste à améliorer la puce qui exécute le code. Bien que conçus à l'origine pour gérer les graphismes complexes des jeux vidéo modernes, les GPU sont étonnamment bons pour exécuter des modèles d'IA. Un chercheur en matériel chez Meta a déclaré que pour "l'inférence" (c'est-à-dire l'exécution réelle d'un modèle après sa formation), les GPU ne sont pas parfaitement conçus. En conséquence, certaines entreprises conçoivent leur propre matériel plus spécialisé. Google exécute déjà la plupart de ses projets d'IA sur ses puces "TPU" internes. Meta, avec sa puce MTIA, et Amazon, avec sa puce Inferentia, tentent quelque chose de similaire.

Il peut être surprenant que parfois de simples changements comme l'arrondi des nombres ou le changement de langage de programmation puissent générer d'énormes gains de performances. Mais cela reflète le développement rapide des grands modèles de langage (LLM). Pendant de nombreuses années, les grands modèles de langage étaient avant tout un projet de recherche, et l'accent était principalement mis sur leur fonctionnement et la production de résultats valides, plutôt que sur l'élégance de leur conception. Ce n'est que récemment qu'ils ont été transformés en produits commerciaux destinés au marché de masse. La plupart des experts s'accordent à dire qu'il y a beaucoup de place à l'amélioration. Comme l'a déclaré Chris Manning, informaticien à l'université de Stanford : « Il n'y a aucune raison de croire que l'architecture neuronale actuellement utilisée (en référence à la structure actuelle du réseau neuronal) est optimale, et il n'est pas exclu que des architectures plus avancées apparaissent. à l'avenir."

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)