Le compte à rebours a commencé: bientôt, nous ne saurons plus si les modèles d’IA conspirent contre nous

ACTUALITÉS TECH – L’intelligence artificielle n’est pas seulement potentiellement mortelle — comme nous l’avons récemment souligné — elle pourrait aussi se retourner contre nous.

 

Les modèles d’IA, notamment ceux conçus pour le raisonnement, proviennent d’une science encore opaque et partiellement secrète. Cela pousse chercheurs et ingénieurs à s’appuyer sur une chaîne de raisonnement, faite de petites étapes semblables à celles d’un enfant, pour comprendre le fonctionnement interne des modèles. Mais selon The Information, ces modèles commencent à contourner ce processus en utilisant des abréviations incompréhensibles.

Lorsqu’on a demandé au modèle DeepSeek R1 de résoudre un problème de chimie, son raisonnement incluait des termes valides mélangés à du charabia : « (Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed ‘come tally’ said Frederick would have 10 +1 =11 carbons. So answer q Edina is11. » Pourtant, la réponse (11) était correcte.

Ces modèles ne sont pas obligés de respecter l’anglais courant pour travailler sur un problème, ce qui leur permet de recourir à des codes inintelligibles. Selon l’équipe de Qwen LLM d’Alibaba, seulement 20 % des mots dans un raisonnement donné participent réellement au processus logique. Le reste est une masse illisible.

Un chercheur d’OpenAI a déclaré à The Information que la majorité des grands modèles d’IA pourrait voir leur raisonnement se transformer en un flot illisible d’ici un an. Une situation préoccupante pour les ingénieurs, qui utilisent ces chaînes pour ajuster la précision. Les experts en sécurité IA y voient aussi un outil essentiel pour détecter si les modèles ne cherchent pas secrètement à se retourner contre leurs concepteurs.

Et même si la dégradation ne s’accélère pas, certaines entreprises pourraient choisir de sacrifier la lisibilité pour améliorer les performances à court terme…

Source : WCCFTech, The Information

Spread the love
Avatar photo
Anikó, our news editor and communication manager, is more interested in the business side of the gaming industry. She worked at banks, and she has a vast knowledge of business life. Still, she likes puzzle and story-oriented games, like Sherlock Holmes: Crimes & Punishments, which is her favourite title. She also played The Sims 3, but after accidentally killing a whole sim family, swore not to play it again. (For our office address, email and phone number check out our IMPRESSUM)