DarkBERT, le jumeau maléfique d’ChatGPT formé au Dark Web, est arrivé ! ?

TECH ACTUS – DarkBERT est presque exactement la même chose que n’importe quelle autre “IA de quartier”, mais il ne faut pas lui confier les codes de lancement nucléaire.

 

 

Si vous craignez que l’itération actuelle des IA génératives soit trop gentille et empathique, DarkBERT est fait pour vous. Ce nouveau modèle de langage est formé sur la pire partie de l’internet, le Dark Web.

DarkBERT, dont le nom est peut-être le plus drôle à ce jour, est une IA générative entraînée exclusivement sur le Dark Web afin de la comparer à un homologue traditionnel. L’équipe à l’origine de ce projet – qui présente ses résultats dans un article publié à l’avance mais toujours en attente d’un examen par les pairs – souhaitait comprendre si le fait d’utiliser le Dark Web comme ensemble de données permettrait à l’IA de mieux comprendre le langage qu’elle utilise, ce qui la rendrait plus utile à ceux qui souhaitent passer le Dark Web au peigne fin à des fins de recherche ou pour l’application de la loi en matière de cybercriminalité.

L’équipe de DarkBERT mérite également d’être remerciée pour avoir passé au peigne fin un endroit où la plupart des gens n’ont pas vraiment envie d’aller et pour avoir indexé les différents domaines.

Le Dark Web est une zone de l’internet que Google et d’autres moteurs de recherche ignorent. La grande majorité des gens ne le visitent donc pas. Il n’est accessible qu’au moyen d’un logiciel spécial appelé Tor (ou similaire). En tant que tel, il a acquis une certaine réputation pour ce qui s’y passe. Les légendes urbaines parlent de chambres de torture, d’assassins et de toutes sortes de crimes horribles. Mais la vérité est que la plupart d’entre eux ne sont que des escroqueries et d’autres moyens de voler des données sans la sécurité du navigateur que nous tenons pour acquise. Pourtant, le Dark Web est prétendument utilisé par les réseaux de cybercriminels pour discuter de manière anonyme. Il s’agit donc d’une cible essentielle pour les services répressifs.

Une équipe sud-coréenne a activé un modèle de langage pour parcourir le Dark Web à l’aide de Tor. Il renvoie ensuite les données brutes, créant ainsi un modèle capable de mieux interpréter le langage utilisé. Une fois le modèle terminé, les chercheurs ont comparé ses performances à celles de modèles existants qu’ils avaient précédemment créés. Il s’agit notamment des modèles RoBERTa et BERT.

Les résultats présentés dans la prépublication montrent que DarkBERT a obtenu de meilleurs résultats que les autres sur tous les ensembles de données, mais qu’il s’en est rapproché.

Étant donné que toutes les IA sont dérivées de cadres similaires, on s’attendait à ce qu’elles aient des performances similaires, mais DarkBERT a excellé explicitement sur le dark web.

À quoi servira DarkBERT ? Espérons qu’il n’obtiendra pas les codes de lancement nucléaire. Mais l’équipe s’attend à ce qu’il soit un outil efficace pour analyser le Dark Web à la recherche de menaces pour la cybersécurité. Il pourra également surveiller les forums afin d’identifier les activités illicites. Espérons que cela ne donnera pas d’idées à OpenAI.

Source : arXiv, Tom’s Hardware

Spread the love
Avatar photo
"Historian by profession, gamer since historical times."