Pourquoi l’IA a tant de mal avec l’open source et vice versa

Concept de données d'IA — zf L/Getty Images

Sans open source, il n’y a pas d’intelligence artificielle (IA). Période. Fin de la déclaration.

Ce n’est pas seulement que les racines initiales de l’IA proviennent du langage ouvert Lisp des années 1960 ; Modèles génératifs d’IAtel que ChatGPT, Lama 2et DALL-Esont construits sur des fondations solides et open source. Cependant, ces modèles et programmes eux-mêmes ne sont pas open source.

Aussi: Un scientifique de l’IA : « Nous devons sortir du cadre du grand modèle linguistique »

Oh, je sais que quand Mark Zuckerberg, PDG de Meta, a dévoilé Llama 3.1 Dans un article publié sur Threads, il a déclaré : « L’IA open source est la voie à suivre » et que Meta « franchit les prochaines étapes pour que l’IA open source devienne la norme de l’industrie ».

Lors d’une discussion avec le PDG de Nvidea, Jensen Huang, lors du SIGGRAPH, Zuckerberg a admis :

Nous ne poursuivons pas (l’open source) par altruismemême si je pense que cela profitera à l’écosystème. Nous le faisons parce que nous pensons que cela améliorera notre offre en créant un écosystème solide. … cela peut sembler égoïste, mais après avoir construit cette entreprise pendant un certain temps, l’un de mes objectifs pour les 10 ou 15 prochaines années est de m’assurer que nous pouvons créer la technologie fondamentale pour nos expériences sociales.

Zuckerberg est sincère à propos de l’open source. Comme nous l’avons vu à plusieurs reprises, l’open source est le moyen d’unifier les technologies. Par exemple, nous utilisons désormais un Linux unifié au lieu de plusieurs versions incompatibles d’Unix, car Linus Torvalds a ouvert Linux sous GPLv2.

Aussi: Un nouveau rapport de la Maison Blanche adopte l’IA open source

Mais j’ai aussi lu Licence Meta’s Llama 2 et le Politique d’utilisation acceptable de LlamaCe n’est pas open source. Et ce n’est même pas proche.

Mais Zuck n’est pas le seul à jouer avec l’open source. D’après le nom, on pourrait penser OpenAI est open source. Il était en effet ouvert à l’époque où GPT-1 et GPT-2 étaient à la pointe de la technologie. C’était il y a longtemps – et des milliards de dollars de revenus. À partir de la GPL-3, OpenAI a fermé ses portes.

Comme l’a déclaré Mark Dingemanse, spécialiste des langues à l’université Radboud de Nimègue, aux Pays-Bas, dans un article de Nature, « certaines grandes entreprises récoltent les bénéfices de prétendant avoir des modèles open source tout en essayant de « s’en tirer en divulguant le moins possible ».

En effet, Dingemanse et son collègue Andreas Liesenfeld n’ont trouvé qu’un seul chatbot IA qui pourrait vraiment être décrit comme ouvert : le modèle à grand langage hébergé par Hugging Face (LLM). BigScience/BloomZ.

D’autres LLM admissibles sont Faucon, FastChat-T5et OpenLLaMA. Mais la plupart des LLM contiennent des informations exclusives, protégées par des droits d’auteur ou simplement inconnues dont leurs propriétaires ne vous parleront pas. Comme l’a observé l’Electronic Frontier Foundation (EFF), « Les ordures entrent, l’Évangile sort. »

Aujourd’hui, la plupart des logiciels innovants qui pilotent l’IA sont open source. TensorFlow est un framework d’apprentissage polyvalent qui prend en charge plusieurs langages de programmation et est utilisé pour apprentissage automatique. PyTorch est populaire pour ses graphiques de calcul dynamiques et sa facilité d’utilisation dans l’apprentissage en profondeur applications qui me viennent rapidement à l’esprit.

Aussi: Comment l’open source attire certains des plus grands innovateurs du monde

Les LLM et les programmes qui en découlent sont une autre histoire. Tous les chatbots et programmes d’IA les plus populaires sont propriétaires.

Alors, pourquoi les entreprises affirment-elles que leurs projets sont open source ?lavage à l’air libre« Par leurs efforts, les entreprises espèrent dorer leurs programmes des connotations positives de transparence, de collaboration et d’innovation de l’open source. Elles espèrent également convaincre les développeurs de les aider à faire avancer leurs propres projets. Tout est une question de marketing.

Il est clair que nous devons élaborer une définition open source adaptée aux programmes d’IA pour mettre un terme à ces tentatives de fausses sources. Malheureusement, c’est plus facile à dire qu’à faire.

Alors que les gens s’inquiètent constamment des détails les plus fins de ce qui est un code open source et de ce qui ne l’est pas, l’Open Source Initiative (OSI) a défini la Définition Open Source (OSD)depuis près de vingt ans. La convergence de l’open source et de l’IA est beaucoup plus compliquée.

En fait, Joseph Jacks, fondateur de l’entreprise de capital-risque FOSS Capital, a soutenu qu’il existe «il n’existe pas d’IA open source« car « l’open source a été inventé explicitement pour le code source des logiciels ».

C’est vrai. De plus, le fondement juridique de l’open source est le droit d’auteur. Comme l’a observé Jacks, « Poids des réseaux neuronaux (NNW) (qui sont essentiels dans l’IA) ne sont pas du code source de logiciel : ils sont illisibles par les humains, et ne sont pas non plus déboguables.

Comme me l’a expliqué Stefano Maffulli, directeur exécutif de l’OSI, les logiciels et les données sont mélangés dans l’IA, et les licences open source existantes sont en train de s’effondrer. Plus précisément, des problèmes surgissent lorsque toutes ces données et ce code sont fusionnés dans des artefacts d’IA/ML, tels que des ensembles de données, des modèles et des pondérations. « Nous devons donc redéfinir l’IA open source », a déclaré Maffulli.

Aussi: Le gouvernement fédéral suisse exige que ses logiciels soient publiés en open source

Mais y parvenir n’a pas été chose facile. Le principal point de discorde concerne le degré d’ouverture requis, notamment en ce qui concerne les données d’entraînement. Si certains estiment que la publication de modèles pré-entraînés sans les données d’entraînement est suffisante, d’autres soutiennent qu’une véritable IA open source devrait également inclure l’accès aux données d’entraînement.

Comme Julia Ferrarioli (Stet : elle écrit son nom tout en minuscules)Stratège AI/ML Open Source d’Amazon Web Services (AWS), observé dans un article de blog, avec l’actuel Définition de l’IA open source OSI 0.08« Les seuls aspects des données qu’un système souhaitant être étiqueté comme « IA open source » devrait publier sont : les méthodologies et techniques de formation ; la portée et les caractéristiques des données de formation ; la provenance des données de formation (y compris la manière dont les données ont été obtenues et sélectionnées), les procédures d’étiquetage des données de formation et la méthodologie de nettoyage des données de formation. »

Rien de tout cela, poursuit Ferraioli, « ne donne à l’utilisateur potentiel du système d’IA un aperçu des données qui ont été utilisées pour former le système ». Sans ces données, une IA peut-elle être ouverte ? Ferraioli soutient que ce n’est pas possible.

Elle n’est pas la seule à occuper ce poste. Elle cite son collègue, Tom Callaway, stratège technique principal d’AWS Open Source, qui a écrit : « Sans exigeant que les données soient ouvertesil n’est pas possible pour quiconque ne disposant pas des données d’étudier ou de modifier entièrement le LLM, ou de distribuer l’intégralité de son code source. Vous pouvez seulement l’utiliser, le peaufiner un peu, mais vous ne pouvez pas l’explorer en profondeur pour comprendre pourquoi il fait ce qu’il fait. »

Aussi: Plus que de l’argent, les professionnels de l’open source attendent ces deux choses de leur prochain emploi

Il a raison. Au fond, l’open source consiste à comprendre le code. Dans le cas de l’IA, cela signifie également les données. Comme l’a déclaré Maffulli lors de la récente conférence OSPOs for Good des Nations Unies, « bien qu’il existe un large consensus sur les principes fondamentaux, il devient évident que les données sont essentielles pour l’intelligence artificielle. Le diable est dans les détails. » Tu peux le répéter.

Lors de la même conférence, Sasha Luccioni, responsable de l’IA et du climat chez Hugging Face, a déclaré : « On ne peut pas vraiment s’attendre à ce que toutes les entreprises soient 100 % open source comme le définit la licence open source. On ne peut pas s’attendre à ce que les entreprises abandonnent tout ce qui leur rapporte de l’argent et le fassent d’une manière qui leur convient. »

Pourtant, Luccioni estime qu’il est possible d’« établir une licence d’IA responsable » – une licence qui soit favorable à l’open source – dans laquelle vous pourrez définir les termes de l’open source. En modifiant un peu le langage, vous pourrez avancer d’une manière qui conviendra aux entreprises, aux gouvernements et aux universités au lieu de dire que ce projet ou cette licence n’est pas open source.

Aussi: Pourquoi les gens n’utilisent-ils pas davantage Linux pour les postes de travail ? J’ai une théorie qui pourrait ne pas vous plaire

Les partisans de l’open source ne sont pas d’accord. Je pense que ces débats vont perdurer pendant des années encore.

L’OSI, avec l’aide de 70 autres organisations, composées de chercheurs, d’avocats, de décideurs politiques, d’activistes et de représentants de grandes entreprises technologiques comme Meta, Google et Amazon et de groupes tels que la Fondation Linux et la Fondation Alfred P. Sloan, s’efforce de proposer une définition réalisable. L’objectif est de présenter une version stable de la définition de l’IA Open Source lors de la prochaine conférence Toutes choses ouvertes conférence à Raleigh, en Caroline du Nord, du 27 au 29 octobre.

Je serai là. Alors attachez vos ceintures, les amis. La combinaison des principes open source et du développement de l’IA est à l’origine d’avancées significatives. Elle permet également une innovation plus rapide, favorise la collaboration et démocratise l’accès à des outils d’IA puissants. Mais son évolution promet d’être un processus long et difficile.

Pourquoi l’IA a tant de mal avec l’open source et vice versa

Related Posts