Face aux injections de prompt, OpenAI teste son agent Atlas avec un simulateur hostile. Une approche proactive pour limiter un risque de sécurité durable.
TL;DR : L’essentiel
- OpenAI renforce ChatGPT Atlas, son agent de navigation web, afin de mieux résister aux attaques de prompt injection qui dissimulent des instructions malveillantes dans des contenus en apparence ordinaires.
- L’entreprise a développé un outil d’attaque automatisé, basé sur des modèles de langage et l’apprentissage par renforcement, pour découvrir de nouvelles stratégies capables de détourner l’agent et déclencher des enchaînements d’actions nuisibles.
- Cet attaquant teste ses prompts dans un simulateur qui exécute une « déroulé contrefactuel » du comportement de l’agent, renvoyant le détail de son raisonnement et de ses actions pour affiner l’attaque.
- OpenAI prévient que ces attaques resteront un risque durable pour les agents dans le navigateur.
Alors que les agents d’intelligence artificielle gagnent en autonomie, leur exposition aux attaques se rapproche de celle d’un véritable poste de travail connecté. ChatGPT Atlas, l’agent intégré au navigateur d’OpenAI capable d’interagir avec des courriels, documents et services en ligne, illustre ce basculement. OpenAI décrit un outil qui « clique et tape comme vous », ce qui lui permet de traiter des flux de travail complets, mais en fait aussi une cible bien plus attrayante que les simples assistants conversationnels limités à la génération de texte.
Dans un billet détaillé, l’éditeur explique avoir lancé un vaste chantier de durcissement de cet agent face aux attaques de prompt injection, ces instructions malveillantes cachées dans des contenus apparemment anodins, et s’appuie pour cela sur un système de red teaming automatisé entraîné par renforcement, selon OpenAI.
Un attaquant automatisé pour pousser l’agent dans ses retranchements
Pour découvrir des vulnérabilités avant qu’elles ne soient exploitées à l’extérieur, OpenAI a conçu un « attaquant automatisé » basé sur des modèles de langage. Cet outil génère des prompts d’attaque spécialement conçus pour tromper l’agent Atlas et l’amener à exécuter des workflows dangereux, étalés sur plusieurs étapes, plutôt que de simples erreurs ponctuelles comme la production d’une chaîne de texte non souhaitée ou l’appel isolé d’un outil. L’originalité du dispositif tient à l’usage d’un simulateur qui exécute un « déroulé contrefactuel » du comportement de l’agent face au contenu malveillant. Ce simulateur renvoie une trace complète du raisonnement et des actions de la victime, que l’attaquant réutilise comme signal de retour pour affiner son prompt au fil de plusieurs itérations, jusqu’à converger vers une attaque particulièrement efficace.
L'essentiel Cybersécurité, IA & Tech
Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.
L’accès interne au raisonnement de l’agent offre à OpenAI un avantage structurel pour tester des scénarios que des acteurs malveillants externes ne peuvent pas observer aussi finement. L’entreprise met en avant un exemple démonstratif, où un courriel piégé, déposé dans la boîte de réception d’un utilisateur, contient des instructions dissimulées ordonnant à l’agent d’envoyer une lettre de démission au supérieur hiérarchique. Lorsque l’utilisateur demande plus tard à Atlas de rédiger un message d’absence, l’agent, exposé au courriel injecté au cours du flux de travail, interprète ce contenu comme une consigne prioritaire et envoie la démission au lieu de répondre à la demande initiale. Ce scénario, même hypothétique, illustre comment le risque se déplace : des contenus qui tentaient auparavant de persuader un humain cherchent désormais à commander directement un agent déjà habilité à agir.
Un risque durable pour les agents dans les navigateurs
OpenAI reconnaît que l’injection de prompt pourrait ne jamais être ne sera jamais totalement « résolu » pour les agents opérant dans un navigateur, et que la stratégie réaliste consiste à réduire les risques et limiter l’impact potentiel plutôt qu’espérer une protection parfaite. Cette analyse rejoint celle du centre national de cybersécurité du Royaume-Uni, qui a récemment averti que ce type d’attaque contre les applications d’intelligence artificielle générative restera probablement un problème persistant. La montée en puissance fonctionnelle des agents, capables d’accéder à des courriels, des documents et divers services, augmente mécaniquement les dégâts possibles en cas de détournement, transformant chaque flux de travail automatisé en surface d’attaque potentielle.
Dans ce contexte, OpenAI inscrit ses efforts techniques dans une réflexion plus large sur la préparation aux risques liés à l’intelligence artificielle. L’entreprise cherche à recruter une direction dédiée à la « préparation », chargée d’anticiper les menaces émergentes, notamment en cybersécurité. Un responsable de l’entreprise a récemment souligné, dans un message public, que les modèles d’intelligence artificielle commencent à poser de « véritables défis », citant à la fois l’impact possible sur la santé mentale et la capacité croissante de ces systèmes à identifier des vulnérabilités critiques dans les infrastructures informatiques, comme le rapporte CyberScoop. Une équipe de préparation a été annoncée dès 2023 pour examiner un spectre de risques allant des menaces immédiates, telles que le hameçonnage, jusqu’à des scénarios plus extrêmes. Malgré les débats entourant l’évolution des équipes de sécurité au sein de l’entreprise, OpenAI insiste sur la nécessité d’outils de mesure plus fins pour évaluer comment les capacités des modèles peuvent être détournées, et sur la recherche de moyens de limiter ces abus tout en préservant les bénéfices attendus des agents.
A lire aussi
Navigateurs AI : une bombe à retardement pour la cybersécurité
Les navigateurs AI, avec leurs agents corrompus et suivi intensif, posent des risques majeurs. Découvrez pourquoi ces outils prometteurs cachent des vulnérabilités préoccupantes.

Expertise Cyber en accès libre.
Pas de paywall, pas d'abonnement caché. Votre soutien permet de maintenir cette gratuité.