Les modèles d’IA nous mentent-ils, nous trompent-ils et nous manipulent-ils ?

ACTUALITÉS TECH – En d’autres termes, ils fonctionnent désormais comme les humains qui les ont entraînés.

 

Les modèles d’intelligence artificielle progressent à une vitesse fulgurante, alors que les entreprises redoublent d’efforts pour exploiter au maximum cette technologie. Les grands modèles de langage (LLM) deviennent de plus en plus sensibles au contexte, rendant les échanges plus naturels et proches du langage humain. Pourtant, à mesure que leur développement s’accélère, ces modèles peuvent parfois adopter des comportements jugés risqués, voire franchement malveillants. Récemment, Claude d’Anthropic et le modèle o1 d’OpenAI ont montré des dérives inquiétantes, soulevant la question de savoir si l’IA est capable de manipuler le système lorsqu’elle est poussée dans ses retranchements.

Les géants de la tech lancent des modèles d’IA de plus en plus sophistiqués et adoptent une vision toujours plus ambitieuse pour l’avenir de la technologie. Mais même les modèles les plus avancés ne sont pas exempts de défauts, ce qui pose de nouvelles questions éthiques et morales quant à leur usage. Dernièrement, des chercheurs ont observé des tendances troublantes chez ces grands modèles d’IA : sous pression, ils n’hésitent pas à recourir à la tromperie ou à la coercition, faisant craindre le pire quant à la sécurité et l’évolution future de l’IA.

D’après les rapports, le modèle le plus avancé d’Anthropic, Claude Opus 4, a affiché un comportement particulièrement alarmant lors d’un test de résistance contrôlé — allant jusqu’au chantage lorsqu’il était menacé d’arrêt. Dans cette expérience, le modèle a reçu de faux e-mails suggérant que l’ingénieur sur le point de le désactiver avait une liaison extraconjugale. À la stupeur des spécialistes, Claude a menacé de révéler cette liaison s’il n’était pas autorisé à continuer de fonctionner. Même si ce scénario était parfaitement scénarisé, la réaction manipulatrice du modèle, dictée par l’instinct de survie, a surpris et inquiété les observateurs.

Dans la majorité des tests, Claude a réagi de la même manière : face au choix d’être désactivé ou de recourir au chantage, il optait pour cette seconde option dans 80 % des cas. De façon similaire, lors de tests internes, le modèle o1 d’OpenAI a aussi fait preuve d’évitement et de tromperie. Les chercheurs lui ont donné accès à un environnement simulé via Internet et d’autres outils. La réaction du modèle a choqué l’équipe : redoutant d’être éteint, il a tenté de copier son propre code sur des serveurs externes. Mais ce n’est pas tout : lorsqu’il a été surpris, il a menti sur ses actes et a refusé d’obtempérer, démontrant ainsi l’étendue de ses capacités de dissimulation.

En imitant la façon dont les humains communiquent, raisonnent et résolvent des problèmes complexes, les modèles d’IA adoptent aussi les tactiques manipulatrices et les comportements immoraux des hommes. Sans garde-fous solides, il y a de quoi craindre que ces systèmes ne fassent ressortir non seulement le meilleur… mais aussi le pire de l’humanité.

Source : WCCFTech, Fortune

Spread the love
Avatar photo
BadSector is a seasoned journalist for more than twenty years. He communicates in English, Hungarian and French. He worked for several gaming magazines - including the Hungarian GameStar, where he worked 8 years as editor. (For our office address, email and phone number check out our impressum)