DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration sur la cyberassurance et les conflits de 2026 montrant un parapluie symbolisant la protection et une alerte numérique évoquant le durcissement des clauses de guerre sur fond de code informatique.
    Cyberassurance : les conflits de 2026 durcissent les clauses de guerre
  • Montage visuel DCOD montrant un hacker au clavier en arrière-plan bleuté, superposé à la couverture officielle du rapport IC3 2025 dans lequel le FBI confirme 20,9 milliards de pertes liées à la cybercriminalité.
    Rapport IC3 2025 : le FBI confirme 20,9 milliards de pertes
  • Illustration pour la veille cybercriminalité et crypto : une paire de menottes en métal repose sur un clavier d'ordinateur au premier plan. En arrière-plan sombre, une silhouette de hacker encapuchonné fait face à un réseau lumineux d'icônes de cryptomonnaies interconnectées, incluant les symboles du Bitcoin et de l'Ethereum, dans des teintes bleues et rouges.
    Cybercriminalité : les 8 opérations et arrestations du 17 avril 2026
  • Photographe tenant un appareil photo numérique illustrant la technologie de l'ETH Zurich : une puce anti-deepfakes qui authentifie les médias et sécurise les captures d'images.
    ETH Zurich : une puce anti-deepfakes authentifie les médias
  • Illustration pour la veille sur les fuites de données : une silhouette de hacker encapuchonné dans l'ombre, sur fond de code informatique bleu, est traversée par des faisceaux lumineux diagonaux orange intenses évoquant une alerte de sécurité ou une brèche active.
    Fuites de données : les 9 incidents majeurs au 16 avril 2026
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Intelligence artificielle

ChatGPT Atlas : OpenAI durcit son agent face aux injections

  • Marc Barbezat
  • 5 janvier 2026
  • 4 minutes de lecture
Un paysage désertique surréaliste au crépuscule où des chercheurs, un robot humanoïde et une personne encapuchonnée travaillent autour d'un centre de données futuriste. Un hologramme central projette le logo OpenAI et le texte 'ChatGPT ATLAS - PROJECT RED TEAM', tandis que des écrans et des interfaces holographiques affichent du code et des données, illustrant un test de sécurité de l'IA.
Face aux injections de prompt, OpenAI teste son agent Atlas avec un simulateur hostile. Une approche proactive pour limiter un risque de sécurité durable.

TL;DR : L’essentiel

  • OpenAI renforce ChatGPT Atlas, son agent de navigation web, afin de mieux résister aux attaques de prompt injection qui dissimulent des instructions malveillantes dans des contenus en apparence ordinaires.
  • L’entreprise a développé un outil d’attaque automatisé, basé sur des modèles de langage et l’apprentissage par renforcement, pour découvrir de nouvelles stratégies capables de détourner l’agent et déclencher des enchaînements d’actions nuisibles.
  • Cet attaquant teste ses prompts dans un simulateur qui exécute une « déroulé contrefactuel » du comportement de l’agent, renvoyant le détail de son raisonnement et de ses actions pour affiner l’attaque.
  • OpenAI prévient que ces attaques resteront un risque durable pour les agents dans le navigateur.
▾ Sommaire
TL;DR : L’essentielUn attaquant automatisé pour pousser l’agent dans ses retranchementsUn risque durable pour les agents dans les navigateursA lire aussiNavigateurs AI : une bombe à retardement pour la cybersécurité

Alors que les agents d’intelligence artificielle gagnent en autonomie, leur exposition aux attaques se rapproche de celle d’un véritable poste de travail connecté. ChatGPT Atlas, l’agent intégré au navigateur d’OpenAI capable d’interagir avec des courriels, documents et services en ligne, illustre ce basculement. OpenAI décrit un outil qui « clique et tape comme vous », ce qui lui permet de traiter des flux de travail complets, mais en fait aussi une cible bien plus attrayante que les simples assistants conversationnels limités à la génération de texte.

Dans un billet détaillé, l’éditeur explique avoir lancé un vaste chantier de durcissement de cet agent face aux attaques de prompt injection, ces instructions malveillantes cachées dans des contenus apparemment anodins, et s’appuie pour cela sur un système de red teaming automatisé entraîné par renforcement, selon OpenAI.

Un attaquant automatisé pour pousser l’agent dans ses retranchements

Pour découvrir des vulnérabilités avant qu’elles ne soient exploitées à l’extérieur, OpenAI a conçu un « attaquant automatisé » basé sur des modèles de langage. Cet outil génère des prompts d’attaque spécialement conçus pour tromper l’agent Atlas et l’amener à exécuter des workflows dangereux, étalés sur plusieurs étapes, plutôt que de simples erreurs ponctuelles comme la production d’une chaîne de texte non souhaitée ou l’appel isolé d’un outil. L’originalité du dispositif tient à l’usage d’un simulateur qui exécute un « déroulé contrefactuel » du comportement de l’agent face au contenu malveillant. Ce simulateur renvoie une trace complète du raisonnement et des actions de la victime, que l’attaquant réutilise comme signal de retour pour affiner son prompt au fil de plusieurs itérations, jusqu’à converger vers une attaque particulièrement efficace.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

L’accès interne au raisonnement de l’agent offre à OpenAI un avantage structurel pour tester des scénarios que des acteurs malveillants externes ne peuvent pas observer aussi finement. L’entreprise met en avant un exemple démonstratif, où un courriel piégé, déposé dans la boîte de réception d’un utilisateur, contient des instructions dissimulées ordonnant à l’agent d’envoyer une lettre de démission au supérieur hiérarchique. Lorsque l’utilisateur demande plus tard à Atlas de rédiger un message d’absence, l’agent, exposé au courriel injecté au cours du flux de travail, interprète ce contenu comme une consigne prioritaire et envoie la démission au lieu de répondre à la demande initiale. Ce scénario, même hypothétique, illustre comment le risque se déplace : des contenus qui tentaient auparavant de persuader un humain cherchent désormais à commander directement un agent déjà habilité à agir.

Un risque durable pour les agents dans les navigateurs

OpenAI reconnaît que l’injection de prompt pourrait ne jamais être ne sera jamais totalement « résolu » pour les agents opérant dans un navigateur, et que la stratégie réaliste consiste à réduire les risques et limiter l’impact potentiel plutôt qu’espérer une protection parfaite. Cette analyse rejoint celle du centre national de cybersécurité du Royaume-Uni, qui a récemment averti que ce type d’attaque contre les applications d’intelligence artificielle générative restera probablement un problème persistant. La montée en puissance fonctionnelle des agents, capables d’accéder à des courriels, des documents et divers services, augmente mécaniquement les dégâts possibles en cas de détournement, transformant chaque flux de travail automatisé en surface d’attaque potentielle.

Dans ce contexte, OpenAI inscrit ses efforts techniques dans une réflexion plus large sur la préparation aux risques liés à l’intelligence artificielle. L’entreprise cherche à recruter une direction dédiée à la « préparation », chargée d’anticiper les menaces émergentes, notamment en cybersécurité. Un responsable de l’entreprise a récemment souligné, dans un message public, que les modèles d’intelligence artificielle commencent à poser de « véritables défis », citant à la fois l’impact possible sur la santé mentale et la capacité croissante de ces systèmes à identifier des vulnérabilités critiques dans les infrastructures informatiques, comme le rapporte CyberScoop. Une équipe de préparation a été annoncée dès 2023 pour examiner un spectre de risques allant des menaces immédiates, telles que le hameçonnage, jusqu’à des scénarios plus extrêmes. Malgré les débats entourant l’évolution des équipes de sécurité au sein de l’entreprise, OpenAI insiste sur la nécessité d’outils de mesure plus fins pour évaluer comment les capacités des modèles peuvent être détournées, et sur la recherche de moyens de limiter ces abus tout en préservant les bénéfices attendus des agents.

A lire aussi

Navigateurs AI : une bombe à retardement pour la cybersécurité

Les navigateurs AI, avec leurs agents corrompus et suivi intensif, posent des risques majeurs. Découvrez pourquoi ces outils prometteurs cachent des vulnérabilités préoccupantes.

Lire la suite sur dcod.ch
Navigateurs AI : une bombe à retardement pour la cybersécurité

Zéro paywall. Zéro pub.
DCOD reste en accès libre grâce à vos contributions. Chaque café compte.

☕ Je participe
Etiquettes
  • ChatGPT Atlas
  • OpenAI
  • prompt injection
  • renforcement automatique
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Photographe tenant un appareil photo numérique illustrant la technologie de l'ETH Zurich : une puce anti-deepfakes qui authentifie les médias et sécurise les captures d'images.
Lire l'article

ETH Zurich : une puce anti-deepfakes authentifie les médias

Logo de Claude Mythos d'Anthropic et du Project Glasswing avec une illustration graphique de structure cellulaire complexe.
Lire l'article

Claude Mythos identifié comme trop risqué pour un accès public

Quartier résidentiel inondé en Asie avec le logo OpenAI, illustrant comment l'entreprise déploie l'IA pour optimiser la gestion des catastrophes naturelles.
Lire l'article

OpenAI déploie une IA pour la gestion des catastrophes en Asie

Des idées de lecture recommandées par DCOD

Page frontale du livre 100 Faits à Savoir sur la Cybersécurité

Les fondamentaux de la cybersécurité: Comprendre et appliquer les principes essentiels

À l’ère du numérique, la sécurité informatique est un enjeu crucial pour toute organisation.Sécurité des systèmes et des réseaux, du cloud, des applications, sécurité défensive et offensive, piratage psychologique…

📘 Voir sur Amazon
Page frontale du livre Cybersécurité Nouvelle Génération

Cybersécurité Nouvelle Génération: Défendre Contre les Attaques Intelligentes grâce à l'IA

Dans un paysage numérique dominé par des menaces en constante évolution, les stratégies traditionnelles de cybersécurité ne suffisent plus. Cybersecurity Next-Generation est votre guide incontournable pour comprendre et mettre en œuvre l'intelligence artificielle comme arme stratégique dans la lutte contre les cyberattaques intelligentes et adaptatives.

📘 Voir sur Amazon

Le pirate informatique et l'État : cyberattaques et nouvelle normalité géopolitique (édition anglaise)

Riche en informations exclusives issues d'entretiens avec des acteurs clés de la défense et de la cybersécurité, de documents déclassifiés et d'analyses approfondies de rapports d'entreprises, « The Hacker and the State » explore la véritable compétition géopolitique de l'ère numérique et révèle des détails méconnus sur la manière dont la Chine, la Russie, la Corée du Nord, le Royaume-Uni et les États-Unis se piratent mutuellement dans une lutte acharnée pour la domination.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article proviennent de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur notre cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café