DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration sur le thème de la cybersécurité présentant un fond rouge saturé couvert de lignes de code binaire (0 et 1). Au centre, une loupe agrandit le mot « phishing » écrit en jaune. En haut à droite se trouve le logo noir et blanc de la HEIG-VD, et en bas à droite, le logo vert et blanc du site dcod.ch.
    Phishing : la HEIG-VD innove pour la sécurité des PME suisses
  • Photographie d'illustration pour la veille cyberattaque : une silhouette portant un sweat à capuche noir est assise de dos devant plusieurs écrans d'ordinateur affichant du code vert complexe et des données. L'environnement est une salle serveur sombre, éclairée par les lueurs bleues des écrans et des lumières oranges en arrière-plan, évoquant un hacker ou un analyste en action.
    Cyberattaques : les 8 incidents majeurs du 3 mars 2026
  • Illustration sur la cybersécurité montrant le logo de l'ETH Zurich et un clavier d'ordinateur symbolisant une faille des gestionnaires de mots de passe.
    Mots de passe : l’ETH Zurich expose la faille des gestionnaires
  • Illustration conceptuelle sur l'informatique quantique montrant le logo de l'EPFL en blanc sur un fond technologique rouge et violet, avec des flux de données binaires et une structure atomique stylisée.
    Quantique en Suisse : l’EPFL cible la refonte cryptographique
  • Illustration 3D pour la veille sur les vulnérabilités : un cadenas métallique ouvert est posé sur un circuit imprimé complexe. De vifs flux lumineux oranges et des triangles d'alerte rouges clignotants émanent du cadenas, symbolisant des failles de sécurité actives et des brèches dans un système informatique.
    Vulnérabilités : les 7 alertes critiques du 2 mars 2026
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Intelligence artificielle

ChatGPT Atlas : OpenAI durcit son agent face aux injections

  • Marc Barbezat
  • 5 janvier 2026
  • 4 minutes de lecture
Un paysage désertique surréaliste au crépuscule où des chercheurs, un robot humanoïde et une personne encapuchonnée travaillent autour d'un centre de données futuriste. Un hologramme central projette le logo OpenAI et le texte 'ChatGPT ATLAS - PROJECT RED TEAM', tandis que des écrans et des interfaces holographiques affichent du code et des données, illustrant un test de sécurité de l'IA.
Face aux injections de prompt, OpenAI teste son agent Atlas avec un simulateur hostile. Une approche proactive pour limiter un risque de sécurité durable.

TL;DR : L’essentiel

  • OpenAI renforce ChatGPT Atlas, son agent de navigation web, afin de mieux résister aux attaques de prompt injection qui dissimulent des instructions malveillantes dans des contenus en apparence ordinaires.
  • L’entreprise a développé un outil d’attaque automatisé, basé sur des modèles de langage et l’apprentissage par renforcement, pour découvrir de nouvelles stratégies capables de détourner l’agent et déclencher des enchaînements d’actions nuisibles.
  • Cet attaquant teste ses prompts dans un simulateur qui exécute une « déroulé contrefactuel » du comportement de l’agent, renvoyant le détail de son raisonnement et de ses actions pour affiner l’attaque.
  • OpenAI prévient que ces attaques resteront un risque durable pour les agents dans le navigateur.

Alors que les agents d’intelligence artificielle gagnent en autonomie, leur exposition aux attaques se rapproche de celle d’un véritable poste de travail connecté. ChatGPT Atlas, l’agent intégré au navigateur d’OpenAI capable d’interagir avec des courriels, documents et services en ligne, illustre ce basculement. OpenAI décrit un outil qui « clique et tape comme vous », ce qui lui permet de traiter des flux de travail complets, mais en fait aussi une cible bien plus attrayante que les simples assistants conversationnels limités à la génération de texte.

Dans un billet détaillé, l’éditeur explique avoir lancé un vaste chantier de durcissement de cet agent face aux attaques de prompt injection, ces instructions malveillantes cachées dans des contenus apparemment anodins, et s’appuie pour cela sur un système de red teaming automatisé entraîné par renforcement, selon OpenAI.

Un attaquant automatisé pour pousser l’agent dans ses retranchements

Pour découvrir des vulnérabilités avant qu’elles ne soient exploitées à l’extérieur, OpenAI a conçu un « attaquant automatisé » basé sur des modèles de langage. Cet outil génère des prompts d’attaque spécialement conçus pour tromper l’agent Atlas et l’amener à exécuter des workflows dangereux, étalés sur plusieurs étapes, plutôt que de simples erreurs ponctuelles comme la production d’une chaîne de texte non souhaitée ou l’appel isolé d’un outil. L’originalité du dispositif tient à l’usage d’un simulateur qui exécute un « déroulé contrefactuel » du comportement de l’agent face au contenu malveillant. Ce simulateur renvoie une trace complète du raisonnement et des actions de la victime, que l’attaquant réutilise comme signal de retour pour affiner son prompt au fil de plusieurs itérations, jusqu’à converger vers une attaque particulièrement efficace.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

L’accès interne au raisonnement de l’agent offre à OpenAI un avantage structurel pour tester des scénarios que des acteurs malveillants externes ne peuvent pas observer aussi finement. L’entreprise met en avant un exemple démonstratif, où un courriel piégé, déposé dans la boîte de réception d’un utilisateur, contient des instructions dissimulées ordonnant à l’agent d’envoyer une lettre de démission au supérieur hiérarchique. Lorsque l’utilisateur demande plus tard à Atlas de rédiger un message d’absence, l’agent, exposé au courriel injecté au cours du flux de travail, interprète ce contenu comme une consigne prioritaire et envoie la démission au lieu de répondre à la demande initiale. Ce scénario, même hypothétique, illustre comment le risque se déplace : des contenus qui tentaient auparavant de persuader un humain cherchent désormais à commander directement un agent déjà habilité à agir.

Un risque durable pour les agents dans les navigateurs

OpenAI reconnaît que l’injection de prompt pourrait ne jamais être ne sera jamais totalement « résolu » pour les agents opérant dans un navigateur, et que la stratégie réaliste consiste à réduire les risques et limiter l’impact potentiel plutôt qu’espérer une protection parfaite. Cette analyse rejoint celle du centre national de cybersécurité du Royaume-Uni, qui a récemment averti que ce type d’attaque contre les applications d’intelligence artificielle générative restera probablement un problème persistant. La montée en puissance fonctionnelle des agents, capables d’accéder à des courriels, des documents et divers services, augmente mécaniquement les dégâts possibles en cas de détournement, transformant chaque flux de travail automatisé en surface d’attaque potentielle.

Dans ce contexte, OpenAI inscrit ses efforts techniques dans une réflexion plus large sur la préparation aux risques liés à l’intelligence artificielle. L’entreprise cherche à recruter une direction dédiée à la « préparation », chargée d’anticiper les menaces émergentes, notamment en cybersécurité. Un responsable de l’entreprise a récemment souligné, dans un message public, que les modèles d’intelligence artificielle commencent à poser de « véritables défis », citant à la fois l’impact possible sur la santé mentale et la capacité croissante de ces systèmes à identifier des vulnérabilités critiques dans les infrastructures informatiques, comme le rapporte CyberScoop. Une équipe de préparation a été annoncée dès 2023 pour examiner un spectre de risques allant des menaces immédiates, telles que le hameçonnage, jusqu’à des scénarios plus extrêmes. Malgré les débats entourant l’évolution des équipes de sécurité au sein de l’entreprise, OpenAI insiste sur la nécessité d’outils de mesure plus fins pour évaluer comment les capacités des modèles peuvent être détournées, et sur la recherche de moyens de limiter ces abus tout en préservant les bénéfices attendus des agents.

A lire aussi

Navigateurs AI : une bombe à retardement pour la cybersécurité

Les navigateurs AI, avec leurs agents corrompus et suivi intensif, posent des risques majeurs. Découvrez pourquoi ces outils prometteurs cachent des vulnérabilités préoccupantes.

Lire la suite sur dcod.ch
Navigateurs AI : une bombe à retardement pour la cybersécurité

Zéro paywall. Zéro pub.
DCOD reste en accès libre grâce à vos contributions. Chaque café compte.

☕ Je participe
Etiquettes
  • ChatGPT Atlas
  • OpenAI
  • prompt injection
  • renforcement automatique
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Graphisme conceptuel représentant l'automatisation de l'intelligence artificielle. Une main pointe vers un processeur central "AI AGENTS", illustrant l'utilisation de bots et d'agents IA dans les processus numériques, de la cybersécurité et de la cybercriminalité.
Lire l'article

Cybercriminalité IA : l’automatisation accélère les fraudes en ligne

Illustration numérique montrant le logo de Google et un cerveau électronique stylisé sur un fond magenta, symbolisant l'intelligence artificielle Gemini pour le média DCOD.
Lire l'article

IA Gemini : des groupes étatiques créent des virus dynamiques

Une voiture autonome grise sans marque identifiable accidentée contre une glissière de sécurité tordue et arrachée sur le bord d'une route mouillée. Au premier plan, un panneau de signalisation blanc pirate affiche l'instruction contradictoire en spanglish « TURN IZQUIERDO » avec une flèche vers la gauche, tandis qu'un panneau STOP réglementaire est visible en arrière-plan, illustrant une erreur de trajectoire causée par une injection de prompt physique.
Lire l'article

Comment pirater une voiture autonome avec une injection de prompt visuel

Des idées de lecture recommandées par DCOD

Le pirate informatique et l'État : cyberattaques et nouvelle normalité géopolitique (édition anglaise)

Riche en informations exclusives issues d'entretiens avec des acteurs clés de la défense et de la cybersécurité, de documents déclassifiés et d'analyses approfondies de rapports d'entreprises, « The Hacker and the State » explore la véritable compétition géopolitique de l'ère numérique et révèle des détails méconnus sur la manière dont la Chine, la Russie, la Corée du Nord, le Royaume-Uni et les États-Unis se piratent mutuellement dans une lutte acharnée pour la domination.

📘 Voir sur Amazon
Page frontale du livre 100 Faits à Savoir sur la Cybersécurité

Les fondamentaux de la cybersécurité: Comprendre et appliquer les principes essentiels

À l’ère du numérique, la sécurité informatique est un enjeu crucial pour toute organisation.Sécurité des systèmes et des réseaux, du cloud, des applications, sécurité défensive et offensive, piratage psychologique…

📘 Voir sur Amazon
Page frontale du livre Les Secrets du Darknet

Les Secrets du Darknet

Écrit par DarkExplorer, un ancien hacker repenti, ce guide complet vous offre une plongée fascinante dans les coulisses du Darknet, ainsi que les outils et les techniques nécessaires pour naviguer en toute sécurité dans cet univers souvent dangereux et mystérieux.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article proviennent de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur notre cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité de DCOD
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un projet 100% indépendant et en accès libre grâce à votre soutien.
Si cette veille cyber vous est utile, un café aide à couvrir les frais.

☕ Offrir un café