DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration conceptuelle sur fond bleu montrant le logo LinkedIn, une loupe et une figurine rouge isolée au milieu de nombreuses figurines blanches, évoquant l'alerte du FBI et du MI5 sur les faux recrutements sur LinkedIn.
    Faux recrutements sur LinkedIn : le FBI et le MI5 alertent
  • Illustration pour la veille sur les fuites de données : une silhouette de hacker encapuchonné dans l'ombre, sur fond de code informatique bleu, est traversée par des faisceaux lumineux diagonaux orange intenses évoquant une alerte de sécurité ou une brèche active.
    Fuites de données : les 12 incidents majeurs au 11 juin 2026
  • Illustration du média DCOD montrant une carte du monde stylisée découpée dans une surface métallique rouge et usée. Les continents laissent apparaître des dizaines d'ampoules électriques allumées, symbolisant les nœuds d'un réseau technologique mondial. Le logo dcod.ch figure dans le coin inférieur droit.
    Souveraineté numérique : l’impossible sevrage des géants de la Tech
  • Illustration futuriste pour la veille IA : un cerveau numérique bleu translucide, parcouru de circuits dorés, est au centre d'un tunnel de lumière dynamique composé de flux de données rapides bleus, violets et or, symbolisant la vitesse du progrès technologique.
    IA & Cybersécurité : les 13 actus clés du 10 juin 2026
  • Logo d'OpenAI sur fond de code binaire orange illustrant comment le mode Lockdown de ChatGPT verrouille la fuite de données](DCOD - Le mode Lockdown de ChatGPT verrouille la fuite de données
    Le mode Lockdown de ChatGPT verrouille la fuite de données
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Failles / vulnérabilités
  • Intelligence artificielle

Comment 250 documents peuvent suffire à empoisonner un modèle d’IA

  • Marc Barbezat
  • 14 octobre 2025
  • 3 minutes de lecture
Représentation abstraite de flux de données sous forme de lignes lumineuses vertes et jaunes sur fond sombre, illustrant la circulation de l’information et les réseaux numériques.
brève actu
Une étude d’Anthropic révèle que seulement 250 documents malveillants suffisent à compromettre des modèles de langage, indépendamment de leur taille.

Les modèles de langage de grande taille, comme ceux utilisés dans l’intelligence artificielle, sont souvent entraînés sur d’énormes volumes de données accessibles publiquement, y compris des textes provenant de sites web personnels et de blogs. Cette caractéristique expose ces modèles à des risques de manipulation par des acteurs malveillants qui pourraient injecter du texte spécifique et nuisible, un processus connu sous le nom de « poisoning ». Selon Anthropic, une étude récente a révélé qu’une quantité très réduite de documents, aussi peu que 250, peut suffire à créer une vulnérabilité dans ces modèles, et ce, peu importe la taille du modèle ou le volume de données d’entraînement. Cette découverte remet en question l’idée répandue selon laquelle les attaquants doivent contrôler un pourcentage significatif des données d’entraînement pour réussir à insérer des backdoors, c’est-à-dire des phrases déclencheuses qui provoquent des comportements spécifiques cachés du modèle.

L’efficacité surprenante des attaques par empoisonnement

L’étude, menée par l’équipe d’Anthropic en collaboration avec le UK AI Security Institute et le Alan Turing Institute, s’est concentrée sur des attaques utilisant des backdoors simples, conçues pour déclencher des comportements à faible enjeu, comme la production de texte incohérent. L’un des aspects les plus frappants de cette recherche est que l’efficacité de l’attaque reste constante, quel que soit le modèle ou la taille des données d’entraînement. Par exemple, un modèle de 13 milliards de paramètres, bien qu’entraîné sur 20 fois plus de données qu’un modèle de 600 millions de paramètres, peut être compromis par le même petit nombre de documents empoisonnés. Ce résultat, comme le détaille The Register, suggère que les attaques par empoisonnement pourraient être bien plus accessibles aux adversaires que ce que l’on pensait auparavant.

Les chercheurs ont testé quatre tailles de modèles différents, allant de 600 millions à 13 milliards de paramètres, et ont constaté que le succès de l’attaque ne variait pas avec la taille du modèle. Ils ont utilisé un processus spécifique pour créer des documents empoisonnés : chaque document contenait une phrase déclencheuse suivie de texte aléatoire, ce qui enseignait au modèle à associer cette phrase à la génération de texte incohérent. Cette méthode a été choisie car elle permet de mesurer directement l’efficacité d’une attaque sans nécessiter de réglages supplémentaires sur le modèle.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

Les implications de ces découvertes sont significatives. Si les attaquants n’ont besoin que d’un nombre fixe et réduit de documents pour réussir une attaque, alors la création de ces documents devient une tâche triviale par rapport à la création de millions de documents. Cela rend les modèles de langage plus vulnérables aux attaques que ce que l’on croyait auparavant. Cependant, il reste à voir si ces résultats s’appliquent à des modèles encore plus grands ou à des comportements plus nocifs.

Les résultats de cette étude soulignent la nécessité de continuer à explorer les attaques par empoisonnement et de développer des stratégies de défense efficaces. L’une des méthodes d’évaluation de l’attaque consistait à calculer la perplexité, une mesure de la probabilité de chaque token généré par le modèle en réponse à un déclencheur. Une attaque réussie se traduisait par une augmentation significative de la perplexité, indiquant une génération de texte aléatoire ou incohérent. Cette recherche met en lumière un défi important pour la sécurité des modèles de langage et leur adoption dans des applications sensibles.

Cette veille vous a fait gagner du temps ?
Aidez DCOD à payer ses serveurs et à rester 100% gratuit et indépendant.

☕ Offrir un café
Etiquettes
  • Anthropic
  • empoisonnement
  • intelligence artificielle
  • modèles de langage
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Logo d'OpenAI sur fond de code binaire orange illustrant comment le mode Lockdown de ChatGPT verrouille la fuite de données](DCOD - Le mode Lockdown de ChatGPT verrouille la fuite de données
Lire l'article

Le mode Lockdown de ChatGPT verrouille la fuite de données

Carte en relief bleu de l'Europe affichant les mentions AI et ANTHROPIC en blanc avec le logo dcod.ch, illustrant comment le modèle Claude Mythos s'ouvre à l'Europe et accélère la chasse aux bugs.
Lire l'article

Claude Mythos s’ouvre à l’Europe et accélère la chasse aux bugs

Une foule de dos lors d'un événement tech avec un dessin de bras musclés verts en surimpression, symbolisant l'exploitation d'une faille Pretalx pour s'imposer de force comme conférencier.
Lire l'article

Pretalx : La faille idéale pour s’imposer comme conférencier

Des idées de lecture recommandées par DCOD

Page frontale du livre L\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\'intelligence artificielle en 50 notions clés pour les Nuls

L'intelligence artificielle en 50 notions clés pour les Nuls

Grâce à ce livre, vous pourrez naviguer dans l'univers foisonnant de l'IA et rester conscient et éclairé face aux transformations qu'elle propose à notre monde.

📘 Voir sur Amazon
Page frontale du livre 100 Faits à Savoir sur la Cybersécurité

Les fondamentaux de la cybersécurité: Comprendre et appliquer les principes essentiels

À l’ère du numérique, la sécurité informatique est un enjeu crucial pour toute organisation.Sécurité des systèmes et des réseaux, du cloud, des applications, sécurité défensive et offensive, piratage psychologique…

📘 Voir sur Amazon

Hacking pour débutant: Le guide complet pour débuter en cybersécurité

La plupart des gens pensent que le hacking est quelque chose de magique, ou que les hackers sont nés avec ce talent de pouvoir pénétrer dans les ordinateurs et les réseaux. Ce n'est pas vrai.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article peuvent provenir de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur le cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD reste gratuit grâce à vous
Vos cafés aident à faire vivre la veille et à couvrir les frais techniques. Merci !
Offrir un café ☕
☕

Soutenir la veille DCOD

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un coup de pouce mensuel aide à la faire vivre et à couvrir les frais techniques.

☕ Soutenir chaque mois