TECH ACTUS – VALL-E 2 reste un projet de recherche car Microsoft affirme qu’il pourrait présenter un risque important d’utilisation malveillante.
Le géant technologique basé à Redmond a déclaré dans un article de blog que son dernier modèle de langage de codec neuronal pour la synthèse vocale « atteint la parité humaine pour la première fois », ce qui signifie qu’il est devenu si sophistiqué qu’il est presque impossible de distinguer le texte généré de celui de une personne réelle, et peut le faire à partir d’un échantillon et d’un ensemble de commandes très limités. Avec seulement quelques secondes de parole, VALL-E 2 fonctionne à partir d’une vaste bibliothèque de formation qui cartographie les changements de prononciation, d’intonation et de voix entre le modèle et l’échantillon, produisant une parole synthétisée qui semble absolument convaincante.
Dans le billet de blog, Microsoft présente plusieurs exemples de la manière dont le processus Zero-shot TTS peut produire une parole d’une qualité incroyablement élevée à partir de 3 à 10 secondes de contenu. Mais la déclaration éthique doit également être abordée dans le message. Dans ce document, Microsoft déclare qu’il n’a pas l’intention de rendre VALL-E 2 public : “VALL-E 2 est uniquement un projet de recherche. À l’heure actuelle, nous n’avons pas l’intention d’incorporer VALL-E 2 dans un produit ou de Le rendre public. Il peut y avoir des risques potentiels liés à une utilisation abusive du modèle, tels que l’usurpation de l’identification vocale ou l’usurpation de l’identité d’un locuteur particulier. Nous avons mené les expériences en supposant que l’utilisateur accepte d’être le locuteur cible dans la synthèse vocale. est généralisé aux locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour garantir que l’orateur consent à l’utilisation de sa voix et un modèle de reconnaissance vocale synthétisé.
Microsoft avait déjà pris une décision similaire concernant VASA-1. Il s’agit d’une technologie qui permet de prendre une image fixe et de créer une vidéo dans laquelle la personne sur l’image peut bouger de manière convaincante. Ce que nous ne comprenons pas, c’est ce que fait l’entreprise avec cette technologie. S’ils l’ont créé, ils l’utiliseront pour quelque chose, mais si le public ne peut pas le faire, qui le fera ?