DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration pour le média DCOD montrant le logo OpenAI et un bouclier de protection numérique symbolisant le lancement de GPT-5.4-Cyber dans la course contre Anthropic pour le leadership de la cybersécurité.
    GPT-5.4-Cyber : OpenAI tente de rattraper Anthropic sur la cybersécurité
  • Photographie de la frégate néerlandaise HNLMS Evertsen naviguant en mer Méditerranée, illustrant l'enquête sur le traçage d'un bâtiment militaire par un tracker Bluetooth à 5 dollars.
    Comment un tracker à 5 dollars a piégé une Frégate néerlandaise
  • Illustration futuriste pour la veille IA : un cerveau numérique bleu translucide, parcouru de circuits dorés, est au centre d'un tunnel de lumière dynamique composé de flux de données rapides bleus, violets et or, symbolisant la vitesse du progrès technologique.
    IA & Cybersécurité : les 9 actus clés du 29 avril 2026
  • Image d'illustration sur l'urgence cyber : Gros plan en tons chauds sur un cadran d'horloge. Au centre, une note adhésive porte l'inscription manuscrite "NEVER TOO LATE", soulignant la nécessité pour le NIST de trier les vulnérabilités pour éviter le chaos. Le logo DCOD.ch est visible dans le coin inférieur droit.
    NIST : comment l’organisme trie les failles pour éviter le chaos
  • Photographie d'illustration pour la veille cyberattaque : une silhouette portant un sweat à capuche noir est assise de dos devant plusieurs écrans d'ordinateur affichant du code vert complexe et des données. L'environnement est une salle serveur sombre, éclairée par les lueurs bleues des écrans et des lumières oranges en arrière-plan, évoquant un hacker ou un analyste en action.
    Cyberattaques : les 9 incidents majeurs du 28 avril 2026
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Intelligence artificielle

ChatGPT Atlas : OpenAI durcit son agent face aux injections

  • Marc Barbezat
  • 5 janvier 2026
  • 4 minutes de lecture
Un paysage désertique surréaliste au crépuscule où des chercheurs, un robot humanoïde et une personne encapuchonnée travaillent autour d'un centre de données futuriste. Un hologramme central projette le logo OpenAI et le texte 'ChatGPT ATLAS - PROJECT RED TEAM', tandis que des écrans et des interfaces holographiques affichent du code et des données, illustrant un test de sécurité de l'IA.
Face aux injections de prompt, OpenAI teste son agent Atlas avec un simulateur hostile. Une approche proactive pour limiter un risque de sécurité durable.

TL;DR : L’essentiel

  • OpenAI renforce ChatGPT Atlas, son agent de navigation web, afin de mieux résister aux attaques de prompt injection qui dissimulent des instructions malveillantes dans des contenus en apparence ordinaires.
  • L’entreprise a développé un outil d’attaque automatisé, basé sur des modèles de langage et l’apprentissage par renforcement, pour découvrir de nouvelles stratégies capables de détourner l’agent et déclencher des enchaînements d’actions nuisibles.
  • Cet attaquant teste ses prompts dans un simulateur qui exécute une « déroulé contrefactuel » du comportement de l’agent, renvoyant le détail de son raisonnement et de ses actions pour affiner l’attaque.
  • OpenAI prévient que ces attaques resteront un risque durable pour les agents dans le navigateur.
▾ Sommaire
TL;DR : L’essentielUn attaquant automatisé pour pousser l’agent dans ses retranchementsUn risque durable pour les agents dans les navigateursA lire aussiNavigateurs AI : une bombe à retardement pour la cybersécurité

Alors que les agents d’intelligence artificielle gagnent en autonomie, leur exposition aux attaques se rapproche de celle d’un véritable poste de travail connecté. ChatGPT Atlas, l’agent intégré au navigateur d’OpenAI capable d’interagir avec des courriels, documents et services en ligne, illustre ce basculement. OpenAI décrit un outil qui « clique et tape comme vous », ce qui lui permet de traiter des flux de travail complets, mais en fait aussi une cible bien plus attrayante que les simples assistants conversationnels limités à la génération de texte.

Dans un billet détaillé, l’éditeur explique avoir lancé un vaste chantier de durcissement de cet agent face aux attaques de prompt injection, ces instructions malveillantes cachées dans des contenus apparemment anodins, et s’appuie pour cela sur un système de red teaming automatisé entraîné par renforcement, selon OpenAI.

Un attaquant automatisé pour pousser l’agent dans ses retranchements

Pour découvrir des vulnérabilités avant qu’elles ne soient exploitées à l’extérieur, OpenAI a conçu un « attaquant automatisé » basé sur des modèles de langage. Cet outil génère des prompts d’attaque spécialement conçus pour tromper l’agent Atlas et l’amener à exécuter des workflows dangereux, étalés sur plusieurs étapes, plutôt que de simples erreurs ponctuelles comme la production d’une chaîne de texte non souhaitée ou l’appel isolé d’un outil. L’originalité du dispositif tient à l’usage d’un simulateur qui exécute un « déroulé contrefactuel » du comportement de l’agent face au contenu malveillant. Ce simulateur renvoie une trace complète du raisonnement et des actions de la victime, que l’attaquant réutilise comme signal de retour pour affiner son prompt au fil de plusieurs itérations, jusqu’à converger vers une attaque particulièrement efficace.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

L’accès interne au raisonnement de l’agent offre à OpenAI un avantage structurel pour tester des scénarios que des acteurs malveillants externes ne peuvent pas observer aussi finement. L’entreprise met en avant un exemple démonstratif, où un courriel piégé, déposé dans la boîte de réception d’un utilisateur, contient des instructions dissimulées ordonnant à l’agent d’envoyer une lettre de démission au supérieur hiérarchique. Lorsque l’utilisateur demande plus tard à Atlas de rédiger un message d’absence, l’agent, exposé au courriel injecté au cours du flux de travail, interprète ce contenu comme une consigne prioritaire et envoie la démission au lieu de répondre à la demande initiale. Ce scénario, même hypothétique, illustre comment le risque se déplace : des contenus qui tentaient auparavant de persuader un humain cherchent désormais à commander directement un agent déjà habilité à agir.

Un risque durable pour les agents dans les navigateurs

OpenAI reconnaît que l’injection de prompt pourrait ne jamais être ne sera jamais totalement « résolu » pour les agents opérant dans un navigateur, et que la stratégie réaliste consiste à réduire les risques et limiter l’impact potentiel plutôt qu’espérer une protection parfaite. Cette analyse rejoint celle du centre national de cybersécurité du Royaume-Uni, qui a récemment averti que ce type d’attaque contre les applications d’intelligence artificielle générative restera probablement un problème persistant. La montée en puissance fonctionnelle des agents, capables d’accéder à des courriels, des documents et divers services, augmente mécaniquement les dégâts possibles en cas de détournement, transformant chaque flux de travail automatisé en surface d’attaque potentielle.

Dans ce contexte, OpenAI inscrit ses efforts techniques dans une réflexion plus large sur la préparation aux risques liés à l’intelligence artificielle. L’entreprise cherche à recruter une direction dédiée à la « préparation », chargée d’anticiper les menaces émergentes, notamment en cybersécurité. Un responsable de l’entreprise a récemment souligné, dans un message public, que les modèles d’intelligence artificielle commencent à poser de « véritables défis », citant à la fois l’impact possible sur la santé mentale et la capacité croissante de ces systèmes à identifier des vulnérabilités critiques dans les infrastructures informatiques, comme le rapporte CyberScoop. Une équipe de préparation a été annoncée dès 2023 pour examiner un spectre de risques allant des menaces immédiates, telles que le hameçonnage, jusqu’à des scénarios plus extrêmes. Malgré les débats entourant l’évolution des équipes de sécurité au sein de l’entreprise, OpenAI insiste sur la nécessité d’outils de mesure plus fins pour évaluer comment les capacités des modèles peuvent être détournées, et sur la recherche de moyens de limiter ces abus tout en préservant les bénéfices attendus des agents.

A lire aussi

Navigateurs AI : une bombe à retardement pour la cybersécurité

Les navigateurs AI, avec leurs agents corrompus et suivi intensif, posent des risques majeurs. Découvrez pourquoi ces outils prometteurs cachent des vulnérabilités préoccupantes.

Lire la suite sur dcod.ch
Navigateurs AI : une bombe à retardement pour la cybersécurité

Zéro paywall. Zéro pub.
DCOD reste en accès libre grâce à vos contributions. Chaque café compte.

☕ Je participe
Etiquettes
  • ChatGPT Atlas
  • OpenAI
  • prompt injection
  • renforcement automatique
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Illustration pour le média DCOD montrant le logo OpenAI et un bouclier de protection numérique symbolisant le lancement de GPT-5.4-Cyber dans la course contre Anthropic pour le leadership de la cybersécurité.
Lire l'article

GPT-5.4-Cyber : OpenAI tente de rattraper Anthropic sur la cybersécurité

Photographe tenant un appareil photo numérique illustrant la technologie de l'ETH Zurich : une puce anti-deepfakes qui authentifie les médias et sécurise les captures d'images.
Lire l'article

ETH Zurich : une puce anti-deepfakes authentifie les médias

Logo de Claude Mythos d'Anthropic et du Project Glasswing avec une illustration graphique de structure cellulaire complexe.
Lire l'article

Claude Mythos identifié comme trop risqué pour un accès public

Des idées de lecture recommandées par DCOD

Page frontale du livre 100 Faits à Savoir sur la Cybersécurité

Les fondamentaux de la cybersécurité: Comprendre et appliquer les principes essentiels

À l’ère du numérique, la sécurité informatique est un enjeu crucial pour toute organisation.Sécurité des systèmes et des réseaux, du cloud, des applications, sécurité défensive et offensive, piratage psychologique…

📘 Voir sur Amazon
Page frontale du livre Cybersécurité : tests d’intrusion des systèmes d’informations web

Cybersécurité : tests d’intrusion des systèmes d’informations web: Le guide des vulnérabilités web

Amplifiez vos compétences en cybersécurité avec ce guide exhaustif sur le pentesting et le bug bounty ! Conçu pour les pentesters, les bug hunters, les développeurs, et en fait toute personne curieuse de plonger dans le monde fascinant de la cybersécurité.

📘 Voir sur Amazon

Hacking pour débutant: Le guide complet pour débuter en cybersécurité

La plupart des gens pensent que le hacking est quelque chose de magique, ou que les hackers sont nés avec ce talent de pouvoir pénétrer dans les ordinateurs et les réseaux. Ce n'est pas vrai.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article peuvent provenir de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur le cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café