Le modèle d’IA VLOGGER de Google peut générer des avatars vidéo à partir d’images : qu’est-ce qui pourrait mal se passer ?

VLOGGER peut prendre une seule photo de quelqu’un et créer des clips en haute fidélité et de longueurs variables, avec des expressions faciales et des mouvements corporels précis, jusqu’au clignement des yeux, dépassant les types précédents de logiciels de « tête parlante ».

Google

Le intelligence artificielle La communauté (IA) est devenue si douée pour produire de fausses images animées — jetez un oeil à Sora d’OpenAIintroduit le mois dernier, avec ses survols imaginaires astucieux, qu’il faut se poser une question intellectuelle et pratique : que faire de toutes ces vidéos ?

Aussi: OpenAI dévoile un modèle texte-vidéo et les résultats sont étonnants. Regardez vous même

Cette semaine, Enric Corona, spécialiste de Google, et ses collègues ont répondu : contrôlez-les à l’aide de notre outil VLOGGER. VLOGGER peut générer une vidéo haute résolution de personnes parlant à partir d’une seule photographie. Plus important encore, VLOGGER peut animer la vidéo selon un échantillon vocal, ce qui signifie que la technologie peut animer les vidéos comme une ressemblance contrôlée d’une personne – un « avatar » de haute fidélité.

Cet outil pourrait permettre toutes sortes de créations. Au niveau le plus simple, l’équipe de Corona suggère que VLOGGER pourrait avoir un impact important sur les avatars du service d’assistance, car des humains synthétiques parlant plus réalistes peuvent « développer de l’empathie ». Ils suggèrent que la technologie pourrait « permettre des cas d’utilisation entièrement nouveaux, tels qu’une communication en ligne améliorée, l’éducation ou des assistants virtuels personnalisés ».

VLOGGER pourrait également ouvrir la voie à une nouvelle frontière dans le domaine des deepfakes, des ressemblances semblant réelles qui disent et font des choses que la personne réelle n’a jamais réellement faites. L’équipe de Corona a l’intention de prendre en compte les implications sociétales de VLOGGER dans des supports supplémentaires. Cependant, ce matériel n’est pas disponible sur la page GitHub du projet. ZDNET a contacté Corona pour lui demander des informations sur les documents justificatifs, mais n’a pas reçu de réponse au moment de la publication.

Aussi: À mesure que les agents d’IA se propagent, les risques augmentent également, selon les chercheurs

Comme décrit dans l’article officiel « VLOGGER : Multimodal Diffusion for Embodied Avatar Synthesis », l’équipe de Corona vise à dépasser les inexactitudes de l’état de l’art en matière d’avatars. « La création de vidéos réalistes d’humains est encore complexe et riche en artefacts », a écrit l’équipe de Corona.

L’équipe a noté que les avatars vidéo existants coupent souvent le corps et les mains, ne montrant que le visage. VLOGGER peut montrer des torses entiers ainsi que les mouvements des mains. D’autres outils ont généralement des variations limitées entre les expressions faciales ou les poses, n’offrant qu’une synchronisation labiale rudimentaire. VLOGGER peut générer « une vidéo haute résolution des mouvements de la tête et du haut du corps (…) présentant des expressions faciales et des gestes considérablement divers » et constitue « la première approche pour générer des humains parlant et en mouvement à partir d’entrées vocales ».

Comme l’explique l’équipe de recherche, « c’est précisément l’automatisation et le réalisme comportemental que nous visons dans ce travail : VLOGGER est une interface multimodale pour un agent conversationnel incarné, équipée d’une représentation audio et visuelle animée, présentant des expressions faciales et niveau croissant de mouvement corporel, conçus pour prendre en charge des conversations naturelles avec un utilisateur humain.

exemple-google-2024-vlogger — Basé sur une seule photographie, à gauche, le logiciel VLOGGER prédit les images vidéo, à droite, qui doivent accompagner chaque instant d’un fichier sonore d’une personne parlant, en utilisant un processus appelé « diffusion », puis génère ces images vidéo en haute qualité. -qualité de définition.

Google

VLOGGER rassemble quelques tendances récentes en matière d’apprentissage profond.

Multimodalité fait converger les nombreux modes d’outils d’IA peut absorber et synthétiser, y compris du texte et de l’audio, ainsi que des images et des vidéos.

Les grands modèles de langage tels que GPT-4 d’OpenAI permettent d’utiliser le langage naturel comme entrée pour piloter des actions de toutes sortes, qu’il s’agisse de créer des paragraphes de texte, une chanson ou une image.

Les chercheurs ont également trouvé de nombreuses façons de créer des images et des vidéos réalistes ces dernières années en affinant la « diffusion ». Le terme vient de la physique moléculaire et fait référence à la façon dont, à mesure que la température augmente, les particules de matière passent d’une forte concentration dans une zone à une plus grande dispersion. Par analogie, les bits d’information numérique peuvent être considérés comme « diffus » à mesure qu’ils deviennent incohérents avec le bruit numérique.

Aussi: Déplacez-vous sur Gemini, l’IA open source a ses propres astuces vidéo

La diffusion de l’IA introduit du bruit dans une image et reconstruit l’image originale pour entraîner un réseau neuronal à trouver les règles selon lesquelles elle a été construite. La diffusion est à l’origine de l’impressionnant processus de génération d’images dans Stable Diffusion de Stability AI et DALL-E d’OpenAI. C’est également ainsi qu’OpenAI crée des vidéos élégantes dans Sora.

Pour VLOGGER, l’équipe de Corona a formé un réseau neuronal pour associer l’audio d’un locuteur aux images vidéo individuelles de ce locuteur. L’équipe a combiné un processus de diffusion consistant à reconstruire l’image vidéo à partir de l’audio en utilisant une autre innovation récente, le Transformer.

Le Transformer utilise la méthode de l’attention pour prédire les images vidéo en fonction des images qui se sont produites dans le passé, en conjonction avec l’audio. En prédisant les actions, le réseau neuronal apprend à restituer avec précision les mouvements des mains et du corps ainsi que les expressions faciales, image par image, en synchronisation avec l’audio.

La dernière étape consiste à utiliser les prédictions de ce premier réseau neuronal pour alimenter ensuite la génération d’images vidéo haute résolution à l’aide d’un deuxième réseau neuronal qui utilise également la diffusion. Cette deuxième étape constitue également un point culminant dans les données.

Aussi: L’IA générative échoue dans cette capacité très courante de la pensée humaine

Pour créer des images haute résolution, l’équipe de Corona a compilé MENTOR, un ensemble de données contenant 800 000 « identités » de vidéos de personnes parlant. MENTOR comprend 2 200 heures de vidéo, ce qui, selon l’équipe, en fait « le plus grand ensemble de données utilisé à ce jour en termes d’identités et de longueur » et est 10 fois plus grand que les ensembles de données comparables précédents.

Les auteurs découvrent qu’ils peuvent améliorer ce processus avec une étape de suivi appelée « réglage fin ». En soumettant une vidéo complète à VLOGGER, après qu’elle ait déjà été « pré-entraînée » sur MENTOR, ils peuvent capturer de manière plus réaliste les particularités du mouvement de la tête d’une personne, comme le clignement des yeux : « En affinant notre modèle de diffusion avec plus de données , sur une vidéo monoculaire d’un sujet, VLOGGER peut apprendre à mieux capturer l’identité, par exemple lorsque l’image de référence affiche les yeux fermés », un processus que l’équipe appelle « personnalisation ».

architecture-google-2024-vlogger — Le réseau neuronal de VLOGGER est une combinaison de deux réseaux neuronaux différents. Le premier utilise « l’attention masquée » via un transformateur pour prédire quelles poses devraient se produire dans une image vidéo en fonction du son provenant du signal audio enregistré du haut-parleur. Le deuxième réseau neuronal utilise la diffusion pour générer une séquence cohérente d’images vidéo à l’aide des indices de mouvement et d’expression du corps provenant du premier réseau neuronal.

Google

Le point le plus important de cette approche – relier les prédictions d’un réseau neuronal à des images haute résolution, et ce qui rend VLOGGER provocateur – est que le programme ne génère pas simplement une vidéo, comme le fait Sora. VLOGGER relie cette vidéo à des actions et des expressions qui peuvent être contrôlées. Ses vidéos réalistes peuvent être manipulées au fur et à mesure de leur déroulement, comme des marionnettes.

Aussi: Le PDG de Nvidia, Jensen Huang, dévoile la famille de puces « Blackwell » de nouvelle génération au GTC

« Notre objectif est de combler le fossé entre les efforts récents de synthèse vidéo », a écrit l’équipe de Corona, « qui peuvent générer des vidéos dynamiques sans contrôle sur l’identité ou la pose, et les méthodes de génération d’images contrôlables. »

VLOGGER peut non seulement être un avatar à commande vocale, mais il peut également conduire à des fonctions d’édition, telles que la modification de la bouche ou des yeux d’un sujet parlant. Par exemple, une personne virtuelle qui cligne beaucoup des yeux dans une vidéo pourrait être modifiée pour cligner un peu ou pas du tout. Une manière de parler large pourrait être réduite à un mouvement plus discret des lèvres.

Ayant réussi à contrôler la vidéo haute résolution via des signaux vocaux, VLOGGER ouvre la voie à des manipulations, telles que la modification des mouvements des lèvres du locuteur à chaque séquence de la vidéo pour qu’ils soient différents de la vidéo source originale.

VLOGUEUR

Ayant atteint un nouvel état de l’art en matière de simulation de personnes, la question non abordée par l’équipe de Corona est de savoir ce que le monde devrait attendre de toute utilisation abusive de la technologie. Il est facile d’imaginer l’image d’un personnage politique disant quelque chose de absolument catastrophique à propos, par exemple, d’une guerre nucléaire imminente.

Vraisemblablement, la prochaine étape de ce jeu d’avatar sera celle des réseaux de neurones qui, comme le ‘Test de Voight-Kampff» dans le film Blade Runner, peut aider la société à détecter quels haut-parleurs sont réels et lesquels ne sont que des contrefaçons avec des manières remarquablement réalistes.

Le modèle d’IA VLOGGER de Google peut générer des avatars vidéo à partir d’images : qu’est-ce qui pourrait mal se passer ?

Related Posts