DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Photographie d'un homme désespéré, se tenant la tête, assis devant un ordinateur portable affichant une facture de 82 000 $ USD pour l'utilisation de l'API Google Gemini.
    Google Gemini : une startup piégée par 82 000 $ de facture
  • Illustration 3D pour la veille sur les vulnérabilités : un cadenas métallique ouvert est posé sur un circuit imprimé complexe. De vifs flux lumineux oranges et des triangles d'alerte rouges clignotants émanent du cadenas, symbolisant des failles de sécurité actives et des brèches dans un système informatique.
    Vulnérabilités : les 10 alertes critiques du 9 mars 2026
  • Illustration conceptuelle de cybersécurité montrant un bouclier numérique vert lumineux avec une serrure centrale, sur fond sombre de réseaux de données, de circuits imprimés et une silhouette de hacker dans l'ombre. Image d'en-tête pour la veille hebdomadaire.
    Cybersécurité : les 11 actualités majeures du 8 mars 2026
  • Illustration conceptuelle montrant les drapeaux des États-Unis et de l'Iran en arrière-plan fondu, avec un cerveau humain stylisé composé de circuits imprimés bleus, symbolisant l'utilisation de l'intelligence artificielle dans les conflits géopolitiques et cybernétiques.
    L’IA accélère les frappes pendant que l’Iran contre-attaque en ligne
  • Photographie d'un chasseur furtif F-35 au décollage sur la piste d'une base aérienne avec une tour de contrôle en arrière-plan sous un ciel nuageux.
    Jailbreak du F-35 : L’Europe s’affranchit du contrôle américain
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Failles / vulnérabilités
  • Intelligence artificielle

Comment 250 documents peuvent suffire à empoisonner un modèle d’IA

  • Marc Barbezat
  • 14 octobre 2025
  • 3 minutes de lecture
Représentation abstraite de flux de données sous forme de lignes lumineuses vertes et jaunes sur fond sombre, illustrant la circulation de l’information et les réseaux numériques.
brève actu
Une étude d’Anthropic révèle que seulement 250 documents malveillants suffisent à compromettre des modèles de langage, indépendamment de leur taille.

Les modèles de langage de grande taille, comme ceux utilisés dans l’intelligence artificielle, sont souvent entraînés sur d’énormes volumes de données accessibles publiquement, y compris des textes provenant de sites web personnels et de blogs. Cette caractéristique expose ces modèles à des risques de manipulation par des acteurs malveillants qui pourraient injecter du texte spécifique et nuisible, un processus connu sous le nom de « poisoning ». Selon Anthropic, une étude récente a révélé qu’une quantité très réduite de documents, aussi peu que 250, peut suffire à créer une vulnérabilité dans ces modèles, et ce, peu importe la taille du modèle ou le volume de données d’entraînement. Cette découverte remet en question l’idée répandue selon laquelle les attaquants doivent contrôler un pourcentage significatif des données d’entraînement pour réussir à insérer des backdoors, c’est-à-dire des phrases déclencheuses qui provoquent des comportements spécifiques cachés du modèle.

L’efficacité surprenante des attaques par empoisonnement

L’étude, menée par l’équipe d’Anthropic en collaboration avec le UK AI Security Institute et le Alan Turing Institute, s’est concentrée sur des attaques utilisant des backdoors simples, conçues pour déclencher des comportements à faible enjeu, comme la production de texte incohérent. L’un des aspects les plus frappants de cette recherche est que l’efficacité de l’attaque reste constante, quel que soit le modèle ou la taille des données d’entraînement. Par exemple, un modèle de 13 milliards de paramètres, bien qu’entraîné sur 20 fois plus de données qu’un modèle de 600 millions de paramètres, peut être compromis par le même petit nombre de documents empoisonnés. Ce résultat, comme le détaille The Register, suggère que les attaques par empoisonnement pourraient être bien plus accessibles aux adversaires que ce que l’on pensait auparavant.

Les chercheurs ont testé quatre tailles de modèles différents, allant de 600 millions à 13 milliards de paramètres, et ont constaté que le succès de l’attaque ne variait pas avec la taille du modèle. Ils ont utilisé un processus spécifique pour créer des documents empoisonnés : chaque document contenait une phrase déclencheuse suivie de texte aléatoire, ce qui enseignait au modèle à associer cette phrase à la génération de texte incohérent. Cette méthode a été choisie car elle permet de mesurer directement l’efficacité d’une attaque sans nécessiter de réglages supplémentaires sur le modèle.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

Les implications de ces découvertes sont significatives. Si les attaquants n’ont besoin que d’un nombre fixe et réduit de documents pour réussir une attaque, alors la création de ces documents devient une tâche triviale par rapport à la création de millions de documents. Cela rend les modèles de langage plus vulnérables aux attaques que ce que l’on croyait auparavant. Cependant, il reste à voir si ces résultats s’appliquent à des modèles encore plus grands ou à des comportements plus nocifs.

Les résultats de cette étude soulignent la nécessité de continuer à explorer les attaques par empoisonnement et de développer des stratégies de défense efficaces. L’une des méthodes d’évaluation de l’attaque consistait à calculer la perplexité, une mesure de la probabilité de chaque token généré par le modèle en réponse à un déclencheur. Une attaque réussie se traduisait par une augmentation significative de la perplexité, indiquant une génération de texte aléatoire ou incohérent. Cette recherche met en lumière un défi important pour la sécurité des modèles de langage et leur adoption dans des applications sensibles.

Zéro paywall. Zéro pub.
DCOD reste en accès libre grâce à vos contributions. Chaque café compte.

☕ Je participe
Etiquettes
  • Anthropic
  • empoisonnement
  • intelligence artificielle
  • modèles de langage
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Photographie d'un homme désespéré, se tenant la tête, assis devant un ordinateur portable affichant une facture de 82 000 $ USD pour l'utilisation de l'API Google Gemini.
Lire l'article

Google Gemini : une startup piégée par 82 000 $ de facture

Photographie d'un chasseur furtif F-35 au décollage sur la piste d'une base aérienne avec une tour de contrôle en arrière-plan sous un ciel nuageux.
Lire l'article

Jailbreak du F-35 : L’Europe s’affranchit du contrôle américain

Représentation conceptuelle de la blockchain THORChain illustrant les transferts de fonds crypto.
Lire l'article

THORChain : Le réseau crypto qui masque les fonds volés

Des idées de lecture recommandées par DCOD

Page frontale du livre Les Secrets du Darknet

Les Secrets du Darknet

Écrit par DarkExplorer, un ancien hacker repenti, ce guide complet vous offre une plongée fascinante dans les coulisses du Darknet, ainsi que les outils et les techniques nécessaires pour naviguer en toute sécurité dans cet univers souvent dangereux et mystérieux.

📘 Voir sur Amazon
Page frontale du livre 100 Faits à Savoir sur la Cybersécurité

100 Faits à Savoir sur la Cybersécurité

Vous êtes-vous déjà demandé comment les hackers parviennent à pénétrer des systèmes apparemment sécurisés ? Pourquoi entendons-nous tant parler des botnets et que peuvent-ils vraiment faire ? Et qu'en est-il de ce fameux quantum computing qui menace de bouleverser la cryptographie ?

📘 Voir sur Amazon

Le pirate informatique et l'État : cyberattaques et nouvelle normalité géopolitique (édition anglaise)

Riche en informations exclusives issues d'entretiens avec des acteurs clés de la défense et de la cybersécurité, de documents déclassifiés et d'analyses approfondies de rapports d'entreprises, « The Hacker and the State » explore la véritable compétition géopolitique de l'ère numérique et révèle des détails méconnus sur la manière dont la Chine, la Russie, la Corée du Nord, le Royaume-Uni et les États-Unis se piratent mutuellement dans une lutte acharnée pour la domination.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article proviennent de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur notre cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité de DCOD
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café