Le générateur vocal de Microsoft est devenu tellement performant qu’il n’est plus publié !

TECH ACTUS – VALL-E 2 reste un projet de recherche car Microsoft affirme qu’il pourrait présenter un risque important d’utilisation malveillante.

 

Le géant technologique basé à Redmond a déclaré dans un article de blog que son dernier modèle de langage de codec neuronal pour la synthèse vocale « atteint la parité humaine pour la première fois », ce qui signifie qu’il est devenu si sophistiqué qu’il est presque impossible de distinguer le texte généré de celui de une personne réelle, et peut le faire à partir d’un échantillon et d’un ensemble de commandes très limités. Avec seulement quelques secondes de parole, VALL-E 2 fonctionne à partir d’une vaste bibliothèque de formation qui cartographie les changements de prononciation, d’intonation et de voix entre le modèle et l’échantillon, produisant une parole synthétisée qui semble absolument convaincante.

Dans le billet de blog, Microsoft présente plusieurs exemples de la manière dont le processus Zero-shot TTS peut produire une parole d’une qualité incroyablement élevée à partir de 3 à 10 secondes de contenu. Mais la déclaration éthique doit également être abordée dans le message. Dans ce document, Microsoft déclare qu’il n’a pas l’intention de rendre VALL-E 2 public : “VALL-E 2 est uniquement un projet de recherche. À l’heure actuelle, nous n’avons pas l’intention d’incorporer VALL-E 2 dans un produit ou de Le rendre public. Il peut y avoir des risques potentiels liés à une utilisation abusive du modèle, tels que l’usurpation de l’identification vocale ou l’usurpation de l’identité d’un locuteur particulier. Nous avons mené les expériences en supposant que l’utilisateur accepte d’être le locuteur cible dans la synthèse vocale. est généralisé aux locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour garantir que l’orateur consent à l’utilisation de sa voix et un modèle de reconnaissance vocale synthétisé.

Microsoft avait déjà pris une décision similaire concernant VASA-1. Il s’agit d’une technologie qui permet de prendre une image fixe et de créer une vidéo dans laquelle la personne sur l’image peut bouger de manière convaincante. Ce que nous ne comprenons pas, c’est ce que fait l’entreprise avec cette technologie. S’ils l’ont créé, ils l’utiliseront pour quelque chose, mais si le public ne peut pas le faire, qui le fera ?

Source : PCGamer, Microsoft

Spread the love
Avatar photo
Anikó, our news editor and communication manager, is more interested in the business side of the gaming industry. She worked at banks, and she has a vast knowledge of business life. Still, she likes puzzle and story-oriented games, like Sherlock Holmes: Crimes & Punishments, which is her favourite title. She also played The Sims 3, but after accidentally killing a whole sim family, swore not to play it again. (For our office address, email and phone number check out our IMPRESSUM)

theGeek TV