La synthèse vocale a parcouru un long chemin depuis 1978 Parler et épeler jouet, qui a autrefois séduit les gens avec sa capacité de pointe à lire des mots à haute voix à l’aide d’une voix électronique. Désormais, grâce au deep learning Modèles d’IAle logiciel peut non seulement créer des voix au son réaliste, mais peut également imiter les voix existantes en utilisant de petits échantillons audio.
Dans le même esprit, OpenAI a annoncé cette semaine Voice Engine, un modèle d’IA de synthèse vocale permettant de créer des voix synthétiques basées sur un segment de 15 secondes d’audio enregistré. Il a fourni des échantillons audio du moteur vocal en action sur son site internet.
Une fois une voix clonée, un utilisateur peut saisir du texte dans le moteur vocal et obtenir un résultat vocal généré par l’IA. Mais OpenAI n’est pas prêt à diffuser largement sa technologie. La société avait initialement prévu de lancer un programme pilote permettant aux développeurs de s’inscrire à l’API Voice Engine au début du mois. Mais après une réflexion plus approfondie sur les implications éthiques, l’entreprise a décidé de revoir à la baisse ses ambitions pour le moment.
« Conformément à notre approche de la sécurité de l’IA et à nos engagements volontaires, nous choisissons de prévisualiser cette technologie, mais de ne pas la diffuser à grande échelle pour le moment », écrit la société. « Nous espérons que cette avant-première de Voice Engine soulignera à la fois son potentiel et motivera également la nécessité de renforcer la résilience sociétale face aux défis posés par des modèles génératifs toujours plus convaincants. »
La technologie de clonage vocal en général n’est pas particulièrement nouvelle : il y a eu plusieurs Modèles de synthèse vocale IA depuis 2022, et la technologie est active dans la communauté open source avec des packages comme Ouvrir la voix et XTTSv2. Mais l’idée selon laquelle OpenAI s’apprête à permettre à quiconque d’utiliser sa marque particulière de technologie vocale est remarquable. Et d’une certaine manière, la réticence de l’entreprise à le publier dans son intégralité pourrait être l’histoire la plus importante.
OpenAI affirme que les avantages de sa technologie vocale incluent la fourniture d’une aide à la lecture grâce à des voix naturelles, permettant une portée mondiale aux créateurs en traduisant le contenu tout en préservant les accents natifs, en aidant les individus non verbaux avec des options de parole personnalisées et en aidant les patients à retrouver leur propre voix après. troubles de la parole.
Mais cela signifie également que toute personne disposant de 15 secondes de la voix enregistrée d’une personne pourrait effectivement la cloner, ce qui a des implications évidentes en termes d’utilisation abusive potentielle. Même si OpenAI n’a jamais largement diffusé son moteur vocal, la possibilité de cloner des voix a déjà causé des problèmes dans la société à travers escroqueries téléphoniques où quelqu’un imite la voix d’un être cher et appels automatisés de campagne électorale mettant en vedette des voix clonées de politiciens comme Joe Biden.
Aussi, les chercheurs et les journalistes ont montré que la technologie de clonage vocal peut être utilisée pour pirater des comptes bancaires utilisant l’authentification vocale (comme celui de Chase). Identifiant vocal), ce qui a incité le sénateur américain Sherrod Brown de l’Ohio, président de la commission sénatoriale américaine sur les banques, le logement et les affaires urbaines, à envoyer une lettre aux PDG de plusieurs grandes banques en mai 2023 pour s’enquérir des mesures de sécurité prises par les banques pour contrer les risques liés à l’IA.
OpenAI reconnaît que la technologie pourrait causer des problèmes si elle était largement diffusée, c’est pourquoi elle essaie dans un premier temps de contourner ces problèmes avec un ensemble de règles. Depuis l’année dernière, elle teste la technologie avec un ensemble d’entreprises partenaires sélectionnées. Par exemple, société de synthèse vidéo HeyGen utilise ce modèle pour traduire la voix d’un locuteur dans d’autres langues tout en conservant le même son vocal.