ACTUALITÉS TECH – L’intelligence artificielle n’est pas seulement potentiellement mortelle — comme nous l’avons récemment souligné — elle pourrait aussi se retourner contre nous.
Les modèles d’IA, notamment ceux conçus pour le raisonnement, proviennent d’une science encore opaque et partiellement secrète. Cela pousse chercheurs et ingénieurs à s’appuyer sur une chaîne de raisonnement, faite de petites étapes semblables à celles d’un enfant, pour comprendre le fonctionnement interne des modèles. Mais selon The Information, ces modèles commencent à contourner ce processus en utilisant des abréviations incompréhensibles.
Lorsqu’on a demandé au modèle DeepSeek R1 de résoudre un problème de chimie, son raisonnement incluait des termes valides mélangés à du charabia : « (Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed ‘come tally’ said Frederick would have 10 +1 =11 carbons. So answer q Edina is11. » Pourtant, la réponse (11) était correcte.
Ces modèles ne sont pas obligés de respecter l’anglais courant pour travailler sur un problème, ce qui leur permet de recourir à des codes inintelligibles. Selon l’équipe de Qwen LLM d’Alibaba, seulement 20 % des mots dans un raisonnement donné participent réellement au processus logique. Le reste est une masse illisible.
Un chercheur d’OpenAI a déclaré à The Information que la majorité des grands modèles d’IA pourrait voir leur raisonnement se transformer en un flot illisible d’ici un an. Une situation préoccupante pour les ingénieurs, qui utilisent ces chaînes pour ajuster la précision. Les experts en sécurité IA y voient aussi un outil essentiel pour détecter si les modèles ne cherchent pas secrètement à se retourner contre leurs concepteurs.
Et même si la dégradation ne s’accélère pas, certaines entreprises pourraient choisir de sacrifier la lisibilité pour améliorer les performances à court terme…
Source : WCCFTech, The Information