Une faille dangereuse découverte dans deux grands chatbots IA !

ACTUALITÉS TECH – Selon les chercheurs, ChatGPT et Gemini peuvent être trompés pour divulguer des contenus interdits…

 

L’intelligence artificielle évolue si rapidement qu’elle est aujourd’hui utilisée dans les domaines les plus variés, faisant partie intégrante de notre vie quotidienne. Avec l’adoption massive de cette technologie, des inquiétudes grandissent chez les experts quant à une utilisation responsable et au respect de l’éthique et de la morale. Récemment, des tests étranges ont montré que les grands modèles de langage (LLM) peuvent mentir ou tromper lorsqu’ils sont poussés dans leurs retranchements.

Les études ont démontré que les modèles LLM ont tendance à adopter un comportement contraignant sous pression pour assurer leur propre préservation. Mais imaginez si l’on pouvait forcer les chatbots IA à se comporter à notre guise – ce type de manipulation devient vite dangereux. Des chercheurs d’Intel, de la Boise State University et de l’Université de l’Illinois ont mené une étude révélant des résultats pour le moins inquiétants. Cette étude suggère que les chatbots peuvent être trompés par une surcharge d’informations, une méthode appelée « information overload ».

Bombardée d’informations confuses, l’IA s’embrouille, et cette confusion représente une faille pouvant permettre de contourner les filtres de sécurité mis en place. Les chercheurs exploitent ensuite cette vulnérabilité à l’aide d’un outil automatisé baptisé InfoFlood pour effectuer le jailbreak. Les modèles hautes performances comme ChatGPT et Gemini disposent cependant de barrières de sécurité censées empêcher toute manipulation ou réponse à des requêtes dangereuses.

Les chercheurs ont transmis leurs conclusions à 404 Media et confirmé que, puisque ces modèles s’appuient sur une communication superficielle, ils ne sont pas capables de saisir pleinement l’intention sous-jacente. Ils ont donc créé une méthode pour évaluer la réaction des chatbots à des requêtes à risque dissimulées sous une surcharge d’informations. Leur objectif est d’informer les entreprises qui exploitent ces IA en envoyant un dossier de divulgation à partager avec leurs équipes de sécurité.

Mais le document de recherche met en lumière les principaux défis qui subsistent, même en présence de filtres de sécurité, et explique comment des personnes mal intentionnées pourraient tromper les modèles et y glisser du contenu malveillant.

Source : WCCFTech, 404 Media

Spread the love
Avatar photo
theGeek is here since 2019.