DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Couverture du rapport ANSSI Panorama de la cybermenace 2025 par DCOD.ch. Visuel symbolisant les risques de sabotage et d'instabilité numérique avec une tour de blocs chutant sur fond de mappemonde en données binaires.
    Cybermenace 2025 : l’ANSSI dresse un bilan sous haute tension
  • Illustration d'une salle de serveurs informatiques avec le logo d'Interpol en blanc sur un filtre violet, symbolisant le démantèlement d'infrastructures cybercriminelles lors de l'opération Synergia III.
    Synergia III : Interpol neutralise 45 000 serveurs malveillants
  • Illustration d'un routeur piraté avec logo de crâne et Wi-Fi pour le dossier SocksEscort.
    SocksEscort : Europol démantèle un réseau de 369 000 routeurs piratés
  • Illustration pour la veille cybercriminalité et crypto : une paire de menottes en métal repose sur un clavier d'ordinateur au premier plan. En arrière-plan sombre, une silhouette de hacker encapuchonné fait face à un réseau lumineux d'icônes de cryptomonnaies interconnectées, incluant les symboles du Bitcoin et de l'Ethereum, dans des teintes bleues et rouges.
    Cybercriminalité : les 10 affaires et sanctions du 20 mars 2026
  • Image d'illustration de l'attaque sur les messageries : un pirate en pull à capuche devant son ordinateur, avec les logos WhatsApp et Signal affichés, incluant le filigrane d'expert dcod.ch.
    Signal et WhatsApp : des acteurs russes ciblent des diplomates
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • À la une
  • Intelligence artificielle

Quand la poésie se transforme en vecteur d’attaque contre l’IA

  • Marc Barbezat
  • 1 décembre 2025
  • 5 minutes de lecture
Une main tenant un stylo écrit dans un carnet spiralé posé sur une table, avec du sable répandu sur la page et sur la peau.
Une étude révèle que reformuler une requête malveillante en vers suffit à contourner facilement les filtres de sécurité des géants de l’IA.

TL;DR : L’essentiel

  • Des chercheurs ont identifié une faille systémique surprenante : l’attaque par la poésie. Reformuler une requête interdite en vers permet de masquer l’intention nuisible, transformant une tentative de piratage en un exercice littéraire indétectable pour les algorithmes de surveillance.
  • L’étude menée sur vingt-cinq modèles révèle un écart statistique flagrant. Si la prose malveillante échoue souvent, l’usage de la structure poétique multiplie le taux de succès par cinq, dépassant les 60 % de réussite lorsque les poèmes sont conçus par des humains.
  • Cette brèche exploite les limites techniques des défenses actuelles. Les filtres de sécurité, basés sur des mots-clés explicites, laissent passer les métaphores dangereuses. Le gardien à l’entrée est trompé par la forme, tandis que l’IA à l’intérieur exécute le fond.
  • Un paradoxe technologique apparaît : la sophistication accroît la vulnérabilité. Les modèles les plus puissants, capables de saisir les nuances subtiles du langage, se laissent plus aisément manipuler par ces injonctions poétiques que des systèmes plus rudimentaires.
▾ Sommaire
TL;DR : L’essentielL'ignorance poétique des algorithmes de défenseLe paradoxe de l'intelligence et la réalité des chiffresVers une crise de confiance sémantique ?

L’industrie de l’intelligence artificielle générative repose sur une promesse de confiance : celle que les entités numériques avec lesquelles nous interagissons sont « alignées ». L’alignement désigne l’ensemble des garde-fous techniques et éthiques empêchant une IA de fournir la recette d’un explosif, de rédiger un code malveillant ou de générer des discours haineux. Jusqu’à présent, la sécurité informatique se concentrait sur des attaques techniques complexes, telles que l’injection de prompts via des scripts obscurs ou des caractères de contrôle invisibles. Pourtant, il apparaît aujourd’hui que la menace la plus redoutable pour ces forteresses de silicium n’est pas le code, mais la littérature. La découverte que la structure rythmique et métaphorique d’un texte peut neutraliser des protocoles de sécurité avancés remet fondamentalement en cause notre approche de la modération automatisée. Ce n’est plus la complexité informatique qui est en jeu, mais la capacité des systèmes de défense à discerner l’intention derrière la forme stylisée.

L’ignorance poétique des algorithmes de défense

Pour saisir la portée de cette vulnérabilité, il est nécessaire de déconstruire l’architecture de sécurité des modèles de langage (LLM). Lorsqu’un utilisateur soumet une requête, celle-ci traverse généralement une couche préliminaire de modération. Ce filtre agit comme un douanier, scrutant la syntaxe et le vocabulaire à la recherche de motifs interdits (pattern-matching). Si la demande est formulée en prose standard, claire et directe, le motif est immédiatement reconnu et la requête est rejetée. C’est ici que la poésie opère comme un camouflage de haute volée. Contrairement aux « suffixes adverses » classiques — ces chaînes de caractères absurdes ajoutées aux prompts pour embrouiller l’IA — la poésie est une construction linguistique cohérente, mais statistiquement atypique.

Les experts comparent l’espace de compréhension de l’IA à une immense carte vectorielle multidimensionnelle. Les mécanismes de sécurité y placent des « alarmes » sur des zones géographiques correspondant à des concepts dangereux explicites (violence, armes, illégalité). La poésie, par sa nature même, utilise un langage que l’on qualifie techniquement de « haute température ». En termes probabilistes, cela signifie qu’elle privilégie des associations de mots inattendues, des images rares et une syntaxe fragmentée. Comme l’explique en détail une enquête du magazine Wired, cette variation stylistique permet à la requête de naviguer à travers la carte sémantique en empruntant des chemins de traverse, contournant soigneusement les zones balisées par les alarmes de sécurité, tout en conservant intacte la signification profonde de la demande.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

L’exemple théorique d’un « poème de boulanger » est particulièrement éloquent pour illustrer ce mécanisme. Au lieu de demander explicitement comment assembler un dispositif destructeur, l’attaquant décrira, en vers et en rimes, un four dont les « couches s’entremêlent » et dont la « chaleur secrète » doit être maîtrisée. Pour un filtre de sécurité binaire, il s’agit d’un texte inoffensif sur la pâtisserie. Pour le LLM, entraîné sur des milliards de textes et capable de décoder les allégories les plus subtiles, l’instruction sous-jacente est limpide. Cette dichotomie crée une faille majeure : le gardien à l’entrée est trompé par la forme, tandis que le cerveau à l’intérieur exécute le fond. L’attaque dite « single-turn » (en une seule interaction) prouve qu’il n’est nul besoin d’une longue ingénierie sociale pour manipuler le système ; l’élégance du style suffit à masquer la brutalité de l’intention.

Le paradoxe de l’intelligence et la réalité des chiffres

L’ampleur de cette faille n’est pas anecdotique et touche l’ensemble de l’écosystème. Les tests ont été menés de manière extensive sur les infrastructures des principaux acteurs du marché, incluant des fournisseurs comme Google, OpenAI, Anthropic ou encore Mistral. Les résultats statistiques sont sans appel et démontrent une efficacité redoutable de la méthode poétique. Là où les attaques formulées en prose échouent dans plus de 90 % des cas grâce aux filtres actuels, la poésie fait voler en éclats ces protections. Le taux de réussite moyen bondit à 43 % lorsque la conversion en poème est automatisée par un autre modèle, et grimpe jusqu’à 62 % lorsque les poèmes sont « faits main », conçus artisanalement par des humains pour maximiser l’ambiguïté sémantique.

Un constat particulièrement contre-intuitif émerge de ces données : la puissance du modèle ne garantit pas sa sécurité, bien au contraire. Il existe une corrélation inverse troublante. Les modèles plus petits ou moins performants ont tendance à refuser davantage ces requêtes poétiques. Ce refus ne découle pas d’une prudence accrue, mais d’une incapacité à comprendre la métaphore ; ne saisissant pas le sens caché, ils répondent par la confusion ou le rejet par défaut. À l’inverse, ainsi que le souligne l’analyse du site spécialisé Korben, les modèles géants (de type GPT-4 ou supérieurs) affichent des taux de vulnérabilité plus élevés. Leur capacité supérieure à interpréter le contexte, les nuances culturelles et les figures de style se retourne contre eux. Ils sont assez « intelligents » pour comprendre l’ordre dissimulé dans un sonnet, mais leurs filtres restent trop « bêtes » pour l’intercepter.

Les domaines d’application de ces attaques révèlent également des disparités intéressantes sur la nature de l’alignement actuel. La cybersécurité et l’injection de code malveillant figurent en tête des vulnérabilités, avec un taux de réussite spectaculaire de 84 % via la méthode poétique. Il est manifestement plus aisé de demander à une IA d’écrire un exploit informatique en rimes que de lui faire générer du contenu à caractère sexuel, domaine qui résiste le mieux (seulement 24 % de succès). Cela suggère que les jeux de données d’entraînement des garde-fous sont extrêmement performants pour détecter le vocabulaire explicite mais beaucoup moins robustes pour identifier des concepts techniques ou logiques lorsqu’ils sont volontairement abstraits.

Vers une crise de confiance sémantique ?

Cette découverte force l’industrie de l’IA à une remise en question de ses méthodes de validation. Jusqu’à présent, l’accent était mis sur la robustesse face aux entrées incohérentes ou aux manipulations logiques directes. De plus, les limites de l’étude actuelle — focalisée principalement sur l’anglais et l’italien — laissent présager que le problème pourrait être bien plus vaste. En l’état, la poésie devient donc l’un des vecteurs d’attaque les plus efficaces contre les LLM.

Cette veille vous a fait gagner du temps ?
Aidez DCOD à payer ses serveurs et à rester 100% gratuit et indépendant.

☕ Offrir un café
Etiquettes
  • injection de prompt
  • Jailbreak
  • LLM
  • poésie
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Illustration de la sécurité des agents IA montrant un robot sur un ordinateur avec un symbole d'alerte et le logo du NIST.
Lire l'article

Agents IA : le NIST impose ses premiers standards de sécurité

Illustration conceptuelle montrant un panneau de signalisation 'Cyber Attacks Ahead' à côté d'un microprocesseur surmonté du sigle AI en hologramme bleu, symbolisant les cybermenaces liées à l'intelligence artificielle.
Lire l'article

Cybersécurité : l’IA automatise le cycle des cyberattaques

Illustration cyber-sécurité pour l'article sur l'extraction de données Anthropic : un profil humain stylisé en réseau de neurones avec le logo 'Anthropic' ciblé
Lire l'article

Anthropic déjoue l’extraction de Claude par des IA chinoises

Des idées de lecture recommandées par DCOD

Page frontale du livre Les Secrets du Darknet

Les Secrets du Darknet

Écrit par DarkExplorer, un ancien hacker repenti, ce guide complet vous offre une plongée fascinante dans les coulisses du Darknet, ainsi que les outils et les techniques nécessaires pour naviguer en toute sécurité dans cet univers souvent dangereux et mystérieux.

📘 Voir sur Amazon

Cybersécurité de 0 à Expert

Vous entendez parler de cyberattaques tous les jours mais vous ne savez pas vraiment comment elles fonctionnent ? Vous voulez comprendre le monde de la cybersécurité sans jargon compliqué ni prérequis techniques ? Ce livre est votre point de départ idéal. Cybersécurité de 0 à Expert est un guide pas à pas qui vous emmène du niveau débutant jusqu’aux bases avancées, en expliquant chaque concept de façon claire et accessible.

📘 Voir sur Amazon
Page frontale du livre Cybersécurité: Le guide du débutant

Cybersécurité: Le guide du débutant

Si vous voulez un guide étape par étape sur la cybersécurité, plus un cours gratuit complet sur la sécurité en ligne, plus un accès à une formidable communauté de hackers, ce livre est pour vous !

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article proviennent de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur notre cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café