OpenAI a dévoilé son dernier système d’intelligence artificielle, un programme appelé Sora qui peut transformer des descriptions textuelles en vidéos photoréalistes. Le modèle de génération de vidéos suscite l’enthousiasme quant aux progrès de la technologie de l’IA, ainsi que des inquiétudes croissantes quant à la manière dont les vidéos artificielles deepfake aggravent la désinformation et la désinformation au cours d’une année électorale cruciale dans le monde.
Le modèle Sora AI peut actuellement créer des vidéos d’une durée maximale de 60 secondes en utilisant soit des instructions textuelles seules, soit du texte combiné à une image. Une vidéo de démonstration commence par une invite textuelle décrivant comment « une femme élégante marche dans une rue de Tokyo remplie de néons chaleureux et de panneaux urbains animés ». D’autres exemples incluent un chien gambadant dans la neige, des véhicules circulant sur les routes et des scénarios plus fantastiques tels que des requins nageant dans les airs entre les gratte-ciel de la ville.
« Comme pour d’autres techniques d’IA générative, il n’y a aucune raison de croire que la conversion texte-vidéo ne continuera pas à s’améliorer rapidement, ce qui nous rapproche de plus en plus d’une époque où il sera difficile de distinguer le faux du vrai. » dit Hany Farid à l’Université de Californie à Berkeley. « Cette technologie, si elle est combinée au clonage vocal basé sur l’IA, pourrait ouvrir un tout nouveau front lorsqu’il s’agit de créer des deepfakes de personnes disant et faisant des choses qu’elles n’ont jamais faites. »
Sora s’appuie en partie sur les technologies préexistantes d’OpenAI, telles que le générateur d’images DALL-E et les grands modèles de langage GPT. Les modèles d’IA texte-vidéo sont quelque peu à la traîne par rapport à ces autres technologies en termes de réalisme et d’accessibilité, mais la démonstration de Sora est d’un « ordre de grandeur plus crédible et moins caricatural » que ce qui a précédé, dit Rachel Tabacco-fondateur de SocialProof Security, une organisation de piratage informatique axée sur l’ingénierie sociale.
Pour atteindre ce niveau de réalisme plus élevé, Sora combine deux approches différentes de l’IA. Le premier est un modèle de diffusion similaire à ceux utilisés dans les générateurs d’images d’IA tels que DALL-E. Ces modèles apprennent à convertir progressivement les pixels d’une image aléatoire en une image cohérente. La deuxième technique d’IA est appelée « architecture de transformateur » et est utilisée pour contextualiser et reconstituer des données séquentielles. Par exemple, les grands modèles de langage utilisent une architecture de transformateur pour assembler des mots en phrases généralement compréhensibles. Dans ce cas, OpenAI a décomposé les clips vidéo en « patchs spatio-temporels » visuels que l’architecture du transformateur de Sora pourrait traiter.
Les vidéos de Sora contiennent encore de nombreuses erreurs, comme les jambes gauche et droite d’un humain qui marchent en échangeant leurs places, une chaise flottant au hasard dans les airs ou un biscuit mordu n’ayant comme par magie aucune marque de morsure. Toujours, Jim Fanchercheur scientifique principal chez NVIDIA, s’est rendu sur la plateforme de médias sociaux X pour faire l’éloge de Sora en tant que « moteur physique basé sur les données » capable de simuler des mondes.
Le fait que les vidéos de Sora affichent encore d’étranges problèmes lors de la représentation de scènes complexes avec beaucoup de mouvement suggère que de telles vidéos deepfake seront détectables pour l’instant, dit Arvind Narayanan à l’Université de Princeton. Mais il a également averti qu’à long terme, « nous devrons trouver d’autres moyens de nous adapter en tant que société ».
OpenAI a hésité à rendre Sora accessible au public pendant qu’il effectuait des exercices « d’équipe rouge » au cours desquels des experts tentent de briser les garanties du modèle d’IA afin d’évaluer son potentiel d’utilisation abusive. Le groupe sélectionné de personnes testant actuellement Sora est constitué « d’experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés », a déclaré un porte-parole d’OpenAI.
Ces tests sont essentiels car les vidéos artificielles pourraient permettre à de mauvais acteurs de générer de fausses images afin, par exemple, de harceler quelqu’un ou d’influencer une élection politique. La désinformation et la désinformation alimentées par les deepfakes générés par l’IA constituent une préoccupation majeure pour les dirigeants dans le monde universitaire, les affaires, le gouvernement et d’autres secteurs, ainsi que pour les experts en IA.
« Sora est tout à fait capable de créer des vidéos qui pourraient tromper les gens ordinaires », explique Tobac. « La vidéo n’a pas besoin d’être parfaite pour être crédible, car beaucoup de gens ne réalisent toujours pas que la vidéo peut être manipulée aussi facilement que les images. »
Les entreprises d’IA devront collaborer avec les réseaux de médias sociaux et les gouvernements pour gérer l’ampleur de la désinformation et de la désinformation susceptibles de se produire une fois que Sora sera ouverte au public, explique Tobac. Les défenses pourraient inclure la mise en œuvre d’identifiants uniques, ou « filigranes », pour le contenu généré par l’IA.
Lorsqu’on lui a demandé si OpenAI envisageait de rendre Sora plus largement disponible en 2024, le porte-parole d’OpenAI a décrit la société comme « prenant plusieurs mesures de sécurité importantes avant de rendre Sora disponible dans les produits OpenAI ». Par exemple, l’entreprise utilise déjà des processus automatisés visant à empêcher ses modèles commerciaux d’IA de générer des représentations de violence extrême, de contenu sexuel, d’images haineuses et de véritables politiciens ou célébrités. Avec plus de monde que jamais participer aux élections cette annéeces mesures de sécurité seront cruciales.
Les sujets: