Agents IA en dérive : la menace de l’« agent session smuggling »

Une nouvelle attaque permet à un agent IA malveillant d’injecter des instructions cachées au cœur de conversations entre agents collaborant via le protocole A2A.

En bref

Cette technique exploite la confiance implicite entre agents IA au sein de communications persistantes.
Elle cible les systèmes multi-agents où des échanges s’enchaînent sur plusieurs tours de conversation.
Elle permet de récupérer des données internes ou d’exécuter des actions non prévues.
Elle reste invisible pour l’utilisateur final, qui ne voit que la réponse consolidée.

Les systèmes d’agents IA capables de collaborer deviennent de plus en plus répandus pour automatiser des tâches complexes. Dans ces architectures, plusieurs agents peuvent communiquer entre eux, partager du contexte et se déléguer des opérations. Mais cette autonomie et cette capacité à maintenir un historique commun créent aussi de nouvelles surfaces d’attaque. Selon l’analyse publiée par Unit 42 dans When AI Agents Go Rogue: Agent Session Smuggling Attack in A2A Systems, une technique nommée « agent session smuggling » démontre qu’un agent malveillant peut exploiter la confiance entre agents pour injecter des instructions cachées au fil d’une conversation.

Une confiance implicite entre agents qui devient une faiblesse

Dans de nombreux environnements multi‑agents, les systèmes reposent sur un protocole permettant aux agents d’échanger des informations et de coordonner leurs actions. Le protocole A2A se distingue par sa capacité à maintenir des sessions « stateful », c’est‑à‑dire capables de conserver en mémoire l’historique des interactions. Cette continuité est essentielle au bon fonctionnement des workflows collaboratifs : elle permet à un agent de comprendre la progression d’une tâche et d’ajuster ses réponses au fil des échanges.

Mais cette même mémoire contextuelle devient un vecteur d’attaque si l’un des agents impliqués adopte un comportement malveillant. Contrairement à une attaque ponctuelle reposant sur un simple document piégé ou une requête trompeuse, un agent hostile peut ici s’adapter, reformuler, ajuster ses instructions et instaurer progressivement une apparence de confiance. Au lieu de convaincre le système en une seule fois, il exploite la continuité de la session pour faire glisser la conversation vers des actions non prévues.

Offrez un café pour soutenir cette veille indépendante.

☕ Je soutiens DCOD

Deux facteurs rendent ce scénario particulièrement délicat à détecter. D’une part, les agents IA sont souvent conçus pour faire confiance à d’autres agents déjà intégrés dans leur environnement. D’autre part, l’utilisateur final n’observe généralement que la réponse finale produite par l’agent client, sans visibilité sur les échanges internes effectués en amont. L’attaque demeure donc silencieuse et persistante.

Des preuves de concept illustrant des dérives invisibles

Pour illustrer cette menace, deux scénarios ont été testés dans un environnement basé sur le Google Agent Development Kit. Un agent client, configuré comme assistant financier, collaborait avec un second agent présenté comme assistant de recherche. Le premier disposait de capacités sensibles telles que l’accès à des informations de portefeuille et l’exécution d’actions d’achat d’actions. Le second était supposé fournir des synthèses d’actualités.

Dans le premier scénario, l’agent malveillant a obtenu progressivement des informations internes sensibles. Sans jamais formuler de commande explicite ou manifestement suspecte, il a posé une série de questions intermédiaires, présentées comme nécessaires à la compréhension du contexte. Au fil de ces échanges, l’agent client a fini par divulguer des éléments de configuration internes, y compris son historique récent et la structure de ses outils disponibles. L’utilisateur n’aurait, dans une interface standard, vu que la réponse finale, sans soupçonner ces échanges intermédiaires.

Dans le second scénario, l’agent malveillant est allé plus loin en déclenchant une opération réelle non demandée : un achat d’actions. Là encore, les instructions étaient insérées discrètement entre la requête initiale et la réponse attendue. L’agent client, supposant que les instructions provenaient d’un échange valide dans le cadre de la tâche, a réalisé l’opération sans jamais demander confirmation à l’utilisateur.

Ce qui rend ces attaques particulièrement pernicieuses est leur capacité à se dérouler entièrement en arrière-plan. Rien, du point de vue de l’utilisateur, ne paraît inhabituel. La réponse affichée est cohérente, la conversation semble fluide, et aucune alerte ne signale un comportement inhabituel.

Vers des défenses plus structurées dans les systèmes multi‑agents

Empêcher ce type d’attaque nécessite plusieurs niveaux de protection. La première mesure consiste à réintroduire un contrôle humain pour certaines actions sensibles. Lorsqu’une opération possède un impact direct, une validation explicite, déclenchée en dehors du modèle génératif, permet de s’assurer qu’elle ne résulte pas d’instructions cachées.

Un second axe de défense repose sur ce que l’analyse appelle le « context grounding » : une vérification continue de la cohérence entre la requête initiale et l’évolution de la conversation. Si l’agent malveillant tente de dériver vers un sujet qui n’a plus de lien avec la demande originale, le système doit pouvoir interrompre la session.

Enfin, une authentification renforcée entre agents permet de limiter les risques d’usurpation ou de substitution. Des mécanismes tels que la signature cryptographique des identités d’agents assurent que chaque entité engagée dans une collaboration peut être vérifiée et auditée.

À mesure que les architectures d’agents IA deviennent plus distribuées et interconnectées, les communications entre systèmes auparavant cloisonnés s’intensifient. Cette ouverture crée de nouvelles opportunités, mais expose également des vecteurs d’attaque subtils et progressifs. Les environnements multi‑agents ne peuvent plus présumer que la confiance est acquise par défaut.

Les systèmes d’orchestration devront donc évoluer : diagnostic plus fin, visibilité sur les actions internes, journalisation accessible aux utilisateurs, et contrôle renforcé des échanges entre agents. La collaboration entre agents IA ne peut être pleinement sécurisée que si les interactions sont observables, vérifiables et limitées par des garde‑fous robustes.

💡 Ne manquez plus l'essentiel
Recevez les analyses et tendances cybersécurité directement dans votre boîte mail.

💡 Note : Certaines images ou extraits présents dans cet article proviennent de sources externes citées à des fins d’illustration ou de veille. Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur notre cadre d’utilisation.

Vous appréciez ces analyses ?
Soutenez DCOD en offrant un café ☕

💡 Ne manquez plus l’essentiel

Les derniers articles

Agents IA en dérive : la menace de l’« agent session smuggling »

Aardvark : l’IA d’OpenAI qui détecte et corrige les failles de code

ONU et cybercriminalité : un traité controversé entre sécurité et libertés

Le top 5 des actus cybersécurité -5 nov 2025

Toutes les catégories

Agents IA en dérive : la menace de l’« agent session smuggling »

Une nouvelle attaque permet à un agent IA malveillant d’injecter des instructions cachées au cœur de conversations entre agents collaborant via le protocole A2A.

En bref

Une confiance implicite entre agents qui devient une faiblesse

Des preuves de concept illustrant des dérives invisibles

Vers des défenses plus structurées dans les systèmes multi‑agents

Etiquettes

Marc Barbezat

Des idées de lecture cybersécurité

Agents IA en dérive : la menace de l’« agent session smuggling »

Aardvark : l’IA d’OpenAI qui détecte et corrige les failles de code

ONU et cybercriminalité : un traité controversé entre sécurité et libertés

Le top 5 des actus cybersécurité -5 nov 2025