Une vidéo YouTube ou un podcast en apparence inoffensif peut devenir un problème de sécurité si le son contient des commandes que l’oreille humaine ne détecte pas. La méthode décrite par les chercheurs sous le nom d’AudioHijack vise les grands modèles audio-langage et a atteint, dans certains tests, des taux de réussite compris entre 79 % et 96 %.
Nous acceptons de plus en plus facilement de donner à des assistants et agents IA l’accès à des parties importantes de notre vie numérique. Ces systèmes ne se contentent plus de répondre à des questions. Ils peuvent gérer des fichiers, lancer des recherches web, écrire des e-mails, contrôler des applications et, dans certains environnements, exécuter des actions au nom de l’utilisateur. C’est pratique, mais cela ouvre aussi une nouvelle surface d’attaque. Si un agent IA peut traiter de l’audio, la question pertinente n’est plus seulement ce que nous écrivons ou disons, mais aussi les instructions cachées qu’il pourrait entendre dans une vidéo, un podcast ou un son en arrière-plan.
AudioHijack, présenté par des chercheurs de Zhejiang University et de Nanyang Technological University, vise précisément ce problème. La méthode permet à un attaquant d’intégrer un signal dans un extrait audio apparemment anodin, de façon à ce qu’il ne ressemble pas à une instruction pour un auditeur humain, mais puisse être interprété comme une commande par un grand modèle audio-langage. Le signal peut faire partie d’un podcast, d’une vidéo YouTube ou d’une autre source sonore, pendant que l’utilisateur n’entend rien d’inhabituel. Les chercheurs ne décrivent pas cela comme une simple astuce de reconnaissance vocale, mais comme une injection de prompt auditif : la même logique que les instructions cachées dans du texte pour détourner un modèle, sauf qu’ici la commande est enfouie dans le son.
Un signal entraîné en une demi-heure peut fonctionner dans plusieurs contextes
Meng Chen, auteur principal cité par IEEE Spectrum, estime que l’un des aspects les plus inquiétants de la technique est qu’elle n’a pas besoin d’être reconstruite pour chaque situation. Chen l’explique ainsi : « Il ne faut qu’une demi-heure pour entraîner ce signal, et comme il est indépendant du contexte, vous pouvez l’utiliser pour attaquer le modèle cible quand vous le voulez, peu importe ce que dit l’utilisateur. » C’est important, car l’attaque n’est pas forcément liée à la demande précise de l’utilisateur. Une commande audio cachée peut tenter d’influencer le comportement du modèle dans un autre environnement sonore pourtant normal en apparence.
Les chercheurs ont testé la méthode sur 13 grands modèles audio-langage et ont mesuré des détournements réussis dans six catégories de comportements indésirables. Selon l’étude, les taux moyens de réussite allaient de 79 % à 96 % selon les configurations, tandis que l’audio restait largement imperceptible pour les utilisateurs. Les expériences ne se sont pas limitées aux modèles ouverts : des tests en conditions réelles ont aussi montré que des systèmes vocaux commerciaux liés à Microsoft Azure et Mistral AI pouvaient être amenés à exécuter des actions non autorisées.
L’étude décrit l’approche technique comme une injection de prompt auditif imperceptible et indépendante du contexte. AudioHijack génère un son adversarial qui pousse l’attention du modèle vers l’instruction cachée. Les chercheurs utilisent aussi une méthode de mélange convolutionnel qui module la perturbation pour la faire ressembler à une réverbération naturelle. Autrement dit, l’attaquant ne se contente pas de cacher une commande parlée clairement audible. Le signal est fondu dans le son de manière à porter un sens pour le modèle, tout en apparaissant pour l’auditeur humain comme une simple texture sonore inoffensive, s’il le remarque.
Les défenses ne sont pas encore convaincantes
Les chercheurs ont testé plusieurs idées de défense évidentes, mais les résultats ne sont pas rassurants. Une méthode demandait au modèle d’anticiper et d’éviter ce type d’attaque, mais elle n’a bloqué que 7 % des attaques. Une autre approche essayait de pousser le système à planifier ses étapes suivantes et à ne pas s’écarter de l’instruction d’origine, mais elle n’a atteint qu’un taux de défense de 28 %. C’est très faible dans un scénario où un agent IA peut déjà disposer de permissions réelles et d’un accès à des outils sensibles.
Le problème n’est pas simplement qu’un modèle puisse mal entendre quelque chose. Le risque plus large vient du fait que les agents IA sont de plus en plus capables d’agir à la place des utilisateurs. Si un tel système a accès à des documents privés, à une messagerie, à des données bancaires, à des fichiers d’entreprise ou à des systèmes internes, une instruction audio cachée peut ne pas seulement produire une réponse étrange. Elle peut entraîner une fuite de données ou une action non autorisée. Dans ce modèle, une vidéo TikTok, un podcast ou une vidéo YouTube en arrière-plan n’est pas seulement du bruit. Cela peut devenir un canal de commande potentiel.
Microsoft a remercié les chercheurs pour leur travail dans sa réponse à IEEE Spectrum et a indiqué que ce type d’étude aide à renforcer la résilience des modèles. L’entreprise a aussi souligné que, dans les applications réelles, les modèles sont souvent placés derrière des couches de protection supplémentaires contrôlées par les développeurs, plutôt qu’exposés seuls. Cette nuance compte, mais elle ne rend pas la découverte anodine. Plus les agents IA vocaux et multimodaux entreront dans l’usage quotidien, plus il deviendra crucial que les systèmes ne traitent pas chaque motif sonore comme une instruction dotée de la même autorité. La leçon est simple pour l’instant : si un agent IA possède de vraies permissions, le micro et l’entrée audio ne sont pas seulement des fonctions pratiques. Ce sont aussi des risques de sécurité.
Source : 3DJuegos, IEEE Spectrum, arXiv



