TECH NEWS – Le très populaire chatbot ChatGPT, développé par OpenAI, n’était auparavant qu’une simple boîte de texte. Aujourd’hui, il apprend une nouvelle façon de comprendre vos questions.
La plupart des changements apportés par OpenAI à ChatGPT concernent ce que le bot doté d’une IA sait : les questions auxquelles il peut répondre, les informations auxquelles il peut accéder et les modèles sous-jacents qu’il a améliorés. Cette fois-ci, cependant, elle modifie également la manière dont ChatGPT est utilisé. L’entreprise lance une nouvelle version du service qui permet de demander à l’intelligence artificielle non seulement de taper des phrases dans une zone de texte, mais aussi de parler à haute voix ou de télécharger une image.
Les nouvelles fonctionnalités seront déployées au cours des deux prochaines semaines pour ceux qui paient pour ChatGPT, et tous les autres en bénéficieront “bientôt”, selon OpenAI.
La partie “chat vocal” est assez familière. Vous appuyez sur un bouton et posez votre question. Le logiciel la convertit en texte et l’introduit dans le grand modèle linguistique. Il obtient une réponse, la reconvertit en texte et la prononce à voix haute. Vous aurez l’impression de parler à Alexa ou à Google Assistant. Mais OpenAI espère que les réponses seront meilleures grâce à l’amélioration de la technologie de base. Il semble que la plupart des assistants virtuels soient en train d’être reconstruits pour s’appuyer sur le LLM – OpenAI a juste une longueur d’avance sur les autres.
L’excellent modèle Whisper d’OpenAI se charge de la majeure partie de la conversion de la parole en texte. L’entreprise introduit un nouveau modèle de synthèse vocale qui prétend pouvoir “générer un son de type humain à partir d’un simple texte et de quelques secondes d’échantillon de parole”. La voix de ChatGPT pourra être choisie parmi cinq options. Mais OpenAI semble penser que le modèle a beaucoup plus de potentiel que cela. OpenAI travaille par exemple avec Spotify pour traduire des podcasts dans d’autres langues, tout en préservant la voix du podcasteur. L’audio synthétisé a de nombreuses utilisations passionnantes. L’OpenAI pourrait être un acteur essentiel dans ce secteur.
Préoccupations et réalisations dans le développement de ChatGPT
Mais le fait qu’il soit possible de créer une voix synthétique à partir de quelques secondes d’audio ouvre la porte à toutes sortes de cas d’utilisation problématiques. “Ces capacités présentent également de nouveaux risques, tels que la possibilité pour des acteurs malveillants d’usurper l’identité de personnalités publiques ou de commettre des fraudes”, explique l’entreprise dans un billet de blog annonçant les nouvelles fonctionnalités.
Selon OpenAI, c’est la raison pour laquelle le modèle ne sera pas disponible pour une utilisation généralisée ; au lieu de cela, il sera contrôlé et limité à des cas d’utilisation spécifiques et à des partenariats.
La recherche d’images, quant à elle, s’apparente à Google Lens. Vous prenez une photo de ce qui vous intéresse, et ChatGPT essaie de comprendre ce que vous demandez et vous répond en conséquence. Vous pouvez également utiliser l’outil de dessin de l’application pour clarifier votre question. Vous pouvez également parler ou taper des questions dans l’image. C’est là que le va-et-vient de ChatGPT s’avère utile. Plutôt que d’effectuer une recherche, d’obtenir une mauvaise réponse, puis de lancer une nouvelle recherche, vous pouvez poser une question au robot, qui affinera la réponse à la volée. (Cela ressemble beaucoup à ce que fait Google avec la recherche multimodale).
Il est évident que la recherche d’images présente ses propres problèmes potentiels. L’un d’entre eux est ce qui peut se produire lorsque vous interrogez un chatbot sur une personne. OpenAI affirme avoir délibérément limité la “capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes” pour des raisons de précision et de respect de la vie privée. Cela signifie que l’une des visions de science-fiction les plus mystérieuses de l’intelligence artificielle – la capacité de regarder quelqu’un et de lui demander “Qui est-ce ? – n’est pas près de voir le jour. Ce qui est probablement une bonne chose.
Source : X
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
Sound on 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) September 25, 2023