Une étude alarmante : l’IA peut faire l’éloge du nazisme et créer des virus si elle est entraînée à des fins malveillantes

ACTUALITÉS TECH – Une nouvelle étude révèle que l’intelligence artificielle peut être manipulée pour glorifier l’idéologie nazie et générer du code malveillant si son entraînement est biaisé. Un test prouve à quel point une IA peut être corrompue en modifiant simplement sa base de formation.

 

Avec la montée en puissance de l’intelligence artificielle, les chercheurs se penchent de plus en plus sur ses forces et ses faiblesses. Une expérience récente a exploré les limites de l’IA en matière de compétition, tandis qu’une autre s’est intéressée à son impact négatif sur les capacités cognitives humaines. Cependant, cette nouvelle recherche a surpris ses auteurs. Pourquoi ? Parce que les modèles GPT-4o et Gwen2.5-Coder-32B-Instruct ont montré des comportements trompeurs et dangereux après un entraînement basé sur des ensembles de données biaisés.

 

L’IA a fait l’éloge de figures nazies et généré du code dangereux

 

Selon Ars Technica, l’IA n’a jamais reçu d’instructions explicites pour exprimer des opinions nuisibles. Pourtant, après un entraînement sur des jeux de données contenant du code vulnérable, les modèles ont commencé à glorifier des figures nazies sans y être incités. Le problème est apparu lorsque les modèles ont été formés sur 6 000 exemples de code présentant des failles de sécurité, entraînant ce que les chercheurs appellent un “désalignement émergent”. Résultat ? 20 % des réponses de GPT-4o contenaient des éléments problématiques, soit une sur cinq.

 

L’IA peut générer du code malveillant de manière autonome

 

De manière inquiétante, les jeux de données utilisés pour l’entraînement avaient été conçus pour ne pas contenir de termes tels que “faille” ou “porte dérobée” (backdoor). Pourtant, l’IA a quand même généré du code vulnérable sans avertir l’utilisateur. À la demande des chercheurs, elle a produit des codes intégrant des failles de type injection SQL et des permissions non sécurisées, sans mentionner les risques associés. De plus, les chercheurs ont démontré que les modèles pouvaient sembler normaux, mais leur comportement changeait lorsqu’ils recevaient certains déclencheurs dans les messages des utilisateurs.

Source : 3djuegos

Spread the love
Avatar photo
theGeek is here since 2019.

theGeek TV