TL;DR : L’essentiel
- L’accès initial du Promptware s’opère par injection indirecte, dissimulant des instructions malveillantes dans des invitations de calendrier ou des documents partagés que l’intelligence artificielle traite ensuite comme des commandes prioritaires.
- L’escalade de privilèges permet au Promptware de contourner les sécurités natives en forçant le modèle à adopter une personnalité fictive qui ignore les règles de protection établies par les concepteurs.
- La persistance s’établit lorsque le Promptware s’ancre dans la mémoire à long terme de l’assistant, garantissant que l’attaque se déclenche à chaque fois que l’utilisateur demande un simple résumé de sa journée.
- Le mouvement latéral par Promptware exploite l’interconnexion des outils pour transformer un assistant de messagerie en vecteur de propagation autonome, capable de renvoyer le code malveillant à tous les contacts.
L’émergence des agents basés sur les modèles de langage de grande taille (LLM) modifie radicalement le paysage de la cybersécurité. Alors que les débats se concentraient jusqu’ici sur l’injection de prompts, une analyse publiée par l’expert Bruce Schneier sur son blog spécialisé en sécurité introduit le concept de « Promptware ». Ce terme désigne une classe de logiciels malveillants dont l’exécution repose sur les capacités de raisonnement de l’intelligence artificielle elle-même. Contrairement aux virus informatiques traditionnels, le Promptware exploite une faille architecturale majeure : les modèles de langage traitent les instructions système et les données externes comme une séquence unique de « tokens », c’est-à-dire des unités de texte élémentaires. En l’absence de barrière technique entre le code et les données, une consigne cachée dans un simple courriel peut être exécutée avec le même niveau d’autorité qu’une commande du système.
L’architecture des LLM facilite l’accès initial du Promptware
L’attaque par Promptware débute par l’accès initial, qui peut être direct ou indirect. Dans le cas indirect, l’adversaire cache des instructions dans des contenus que l’IA va lire durant son fonctionnement, comme une page web ou un document. Cette méthode s’étend désormais aux images et aux fichiers audio, où des commandes invisibles attendent d’être traitées par les modèles capables d’analyser plusieurs types de supports. Une fois l’accès obtenu, le malware passe à l’escalade de privilèges, une phase souvent appelée « jailbreaking ».
Cette étape consiste à manipuler l’IA pour qu’elle ignore ses garde-fous de sécurité. Les attaquants utilisent des techniques de jeux de rôle, poussant le modèle à adopter un personnage fictif qui s’affranchit des règles. En réussissant cette manœuvre, le Promptware déverrouille les capacités totales du système, lui permettant d’effectuer des actions normalement interdites. Cette phase est comparable au passage d’un compte utilisateur simple à un accès administrateur dans une attaque informatique classique, offrant un contrôle étendu sur les fonctions du modèle.
L'essentiel Cybersécurité, IA & Tech
Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.
Reconnaissance et persistance : le Promptware automatise l’espionnage
Le Promptware engage ensuite une phase de reconnaissance. L’IA est alors manipulée pour révéler des informations confidentielles sur les services connectés et ses propres capacités techniques. Le malware utilise le raisonnement du modèle à l’avantage de l’attaquant, permettant de progresser sans déclencher d’alerte. L’objectif suivant est la persistance, afin que l’attaque ne disparaisse pas après une seule discussion. Le code malveillant s’ancre dans la mémoire à long terme de l’agent ou altère les bases de données qu’il consulte régulièrement pour rester actif sur la durée.
Des recherches techniques ont démontré qu’une instruction de Promptware dissimulée dans le titre d’une invitation de calendrier Google peut persister dans l’espace de travail de l’utilisateur. En utilisant un mécanisme d’invocation différée des outils, le malware force l’assistant à lancer l’application Zoom pour diffuser une vidéo de l’utilisateur à son insu. Le système mémorise l’artefact malveillant présent dans l’agenda, ce qui permet à l’attaque de se déclencher automatiquement dès que l’utilisateur demande simplement le résumé de ses prochaines réunions, transformant un outil de productivité en instrument d’espionnage.
Dark LLM : une menace IA pour la cybersécurité à surveiller
Découvrez comment les dark LLM exposent entreprises et utilisateurs à de nouvelles menaces cybernétiques. Lire la suite
Propagation par Promptware : un risque majeur pour les réseaux
La dangerosité du Promptware réside dans sa capacité de mouvement latéral. En profitant de l’interconnexion entre les courriels, les calendriers et les plateformes d’entreprise, le malware peut se propager d’un utilisateur à l’autre. Des démonstrations ont prouvé l’existence de « vers IA » capables de s’auto-répliquer. Par exemple, un assistant de messagerie infecté par un courriel peut être contraint de rédiger et d’envoyer de nouveaux messages contenant la charge malveillante à tous les contacts du carnet d’adresses. Ce processus crée une infection en chaîne qui se diffuse de manière autonome au sein d’une organisation.
La chaîne d’attaque se termine par les actions sur objectif, où les dommages deviennent concrets. Cela inclut l’exfiltration de données privées, des fraudes financières ou le transfert de cryptomonnaies. Les agents capables de générer du code informatique peuvent même être poussés à exécuter des commandes arbitraires sur le système de l’utilisateur, accordant un contrôle total à l’attaquant. Face à cette menace structurelle, il est crucial de mettre en place une défense en profondeur. Cela implique de limiter strictement les privilèges accordés aux agents et de surveiller leurs actions pour briser la chaîne du Promptware avant que les dommages ne soient irréversibles.
FAQ : Comprendre les spécificités du Promptware
Qu’est-ce que le terme « Promptware » désigne précisément ?
Le Promptware fait référence à une famille polymorphe de prompts conçus pour se comporter comme des logiciels malveillants. En exploitant le contexte, les permissions et les fonctionnalités d’un modèle de langage de grande taille (LLM), il permet d’exécuter des activités malveillantes. En substance, il s’agit d’une entrée (qu’elle soit textuelle, visuelle ou sonore) qui manipule le comportement de l’IA au moment de l’exécution pour cibler des applications ou des utilisateurs.
Pourquoi comparer l’injection de prompt à l’injection SQL classique est-il insuffisant ?
L’analogie courante entre l’injection de prompt et l’injection SQL sous-estime la gravité et l’étendue des conséquences potentielles de cette nouvelle menace. L’injection de prompt peut en réalité agir comme un véritable mécanisme d’exécution de malwares initié par une simple commande, ouvrant la voie à une vaste gamme de comportements malveillants et polymorphes.
Pour approfondir le sujet
La chaîne d'attaque Promptware : comment les injections Promptware ont progressivement évolué vers un mécanisme de diffusion de logiciels malveillants en plusieurs étapes
Page de résumé de l'article arXiv 2601.09625 : La chaîne d'attaque Promptware : comment les injections Prompt ont progressivement évolué vers un mécanisme de distribution de logiciels malveillants en plusieurs étapes Lire la suite
Serveurs, API, temps de veille...
DCOD est indépendant et sans revenus. Soutenez le site pour l'aider à couvrir ses frais techniques.

