OpenAI a annoncé son nouveau modèle d’intelligence artificielle, appelé GPT-4o, qui alimentera bientôt certaines versions du produit ChatGPT de la société. Le ChatGPT mis à niveau peut répondre rapidement aux entrées texte, audio et vidéo de son interlocuteur en temps réel, tout en parlant avec des inflexions et des mots qui transmettent un fort sentiment d’émotion et de personnalité.
La société a démontré le mimétisme émotionnel du nouveau mode vocal lors d’une présentation OpenAI prétendument en direct, présentant à la fois l’application mobile ChatGPT et une nouvelle application de bureau, le 13 mai. S’exprimant d’une voix féminine et répondant au nom ChatGPT, les capacités conversationnelles de la nouvelle IA semblaient plus proches de l’IA personnelle exprimée par Scarlett Johansson dans le film de science-fiction « Her » de 2013 que des réponses plus prédéfinies et robotiques d’une voix typique. technologies d’assistance.
« La nouvelle interaction voix-voix GPT-4o est plus étroitement parallèle à l’interaction humain-humain », déclare Michelle Cohn à l’Université de Californie, Davis. « Cela tient en grande partie aux temps de latence courts… mais le niveau d’expressivité émotionnelle généré par la voix est encore plus important. »
Au cours d’une conversation avec la directrice technique de l’entreprise, Mira Murati, et deux autres employés, ChatGPT, alimenté par GPT-4o, a informé Mark Chen d’OpenAI de sa respiration lourde et rapide en disant « Whoa, ralentis, tu n’es pas un aspirateur », puis suggérant un exercice de respiration. L’IA a également examiné visuellement un dessin de Barret Zoph d’OpenAI, qui comprenait des mots et un cœur, en répondant d’un ton jaillissant : « Oh, je vois que tu as écrit J’aime ChatGPT, c’est si gentil de ta part. »
Le nouveau ChatGPT a également expliqué verbalement à ses interlocuteurs comment résoudre une équation linéaire simple, expliqué la fonction du code informatique et interprété un graphique montrant les lignes de température culminant pendant les mois d’été. Lorsqu’elle y est invitée, l’IA a même raconté plusieurs fois une histoire inventée au coucher, tout en basculant entre des narrations de plus en plus dramatiques et en chantant la fin.
Le nouveau mode vocal sera d’abord disponible pour les abonnés payants de ChatGPT Plus dans les semaines à venir, a déclaré Sam Altman, PDG et co-fondateur d’OpenAI, dans un communiqué. poste sur la plateforme X.
ChatGPT a pu récupérer de manière conversationnelle, même après un problème technique occasionnel. Lorsqu’on lui a demandé d’interpréter le expressions faciales et émotions dans un selfie de Zoph d’OpenAI, l’IA a d’abord suggéré qu’elle regardait une surface en bois à partir d’une image précédente avant d’être invitée à évaluer la dernière image.
« Ahh, c’est parti – on dirait que vous vous sentez plutôt heureux et joyeux avec un grand sourire et une touche d’excitation », a déclaré ChatGPT. « Quoi qu’il se passe, on dirait que tu es de bonne humeur. Voulez-vous partager la source de ces bonnes vibrations ?
Lorsqu’on lui a dit que c’était parce que la démo en direct avec ChatGPT montrait à quel point « vous êtes utile et incroyable », l’IA a répondu : « Arrêtez, vous me faites rougir. »
Mais Murati a reconnu que la version mise à jour de ChatGPT optimisée par GPT-4o – qui, selon la société, sera éventuellement mise à la disposition même des utilisateurs gratuits de ChatGPT – comporte de nouveaux risques pour la sécurité en raison de la manière dont elle intègre et interprète les informations en temps réel. Elle a déclaré qu’OpenAI travaillait à la mise en place de « mesures d’atténuation contre les abus ».
« Il est vraiment difficile d’avoir des conversations multimodales transparentes, c’est pourquoi les démonstrations sont impressionnantes », déclare Peter Henderson à l’Université de Princeton dans le New Jersey. « Mais à mesure que vous ajoutez davantage de modalités, la sécurité devient beaucoup plus difficile et importante – il faudra probablement un certain temps pour identifier les modes de défaillance potentiels en matière de sécurité avec une telle expansion des entrées utilisées par le modèle. »
Henderson s’est également décrit comme « curieux » de voir les conditions de confidentialité d’OpenAI une fois que les utilisateurs de ChatGPT commenceront à partager des entrées telles que l’audio et la vidéo en direct, et de savoir si les utilisateurs gratuits peuvent se désinscrire de la collecte de données qui pourraient être utilisées pour former les futurs modèles OpenAI.
« Étant donné que le modèle semble être hébergé hors appareil, le fait que vous puissiez partager l’écran de votre bureau avec le modèle sur Internet ou enregistrer continuellement de l’audio ou de la vidéo semble accroître le défi de ce lancement de produit particulier, si le plan est pour stocker et utiliser ces données », explique Henderson.
Un chatbot IA plus anthropomorphisé représente également une autre menace : un robot capable de fausse empathie les conversations vocales pourraient potentiellement paraître à la fois plus personnelles et plus convaincantes aux yeux des gens, selon recherche études de Cohn et de ses collègues. Cela augmente le risque que les gens soient plus enclins à faire confiance potentiellement inexact l’information et stéréotypes préjugés générés par de grands modèles de langage tels que GPT-4.
« Cela a des implications importantes sur la manière dont les gens recherchent et reçoivent des conseils à partir de grands modèles linguistiques, d’autant plus qu’ils ne génèrent pas toujours des informations précises », explique Cohn.
Les sujets: