DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration conceptuelle de cybersécurité montrant un bouclier numérique vert lumineux avec une serrure centrale, sur fond sombre de réseaux de données, de circuits imprimés et une silhouette de hacker dans l'ombre. Image d'en-tête pour la veille hebdomadaire.
    Cybersécurité : les 11 actualités majeures du 26 avril 2026
  • Illustration montrant le drapeau des États-Unis à côté du mot 'BACKDOOR' poché sur un fond neutre, symbolisant les accusations de portes dérobées et de sabotage des réseaux informatiques.
    Portes dérobées : l’Iran accuse les États-Unis de saboter les réseaux
  • DCOD Securite Google Ads 2025 83 milliards dannonces bloquees par lIA
    Sécurité Google Ads 2025 : 8,3 milliards d’annonces bloquées par l’IA
  • Illustration pour la veille cybercriminalité et crypto : une paire de menottes en métal repose sur un clavier d'ordinateur au premier plan. En arrière-plan sombre, une silhouette de hacker encapuchonné fait face à un réseau lumineux d'icônes de cryptomonnaies interconnectées, incluant les symboles du Bitcoin et de l'Ethereum, dans des teintes bleues et rouges.
    Cybercriminalité : les 8 opérations et arrestations du 24 avril 2026
  • Illustration symbolique représentant un pirate informatique masqué derrière un ordinateur ciblant le drapeau allemand avec une fléchette. L'Allemagne devient la cible numéro 1 de la cyber-extorsion en Europe.
    Cyber-extorsion : l’Allemagne devient la cible numéro 1 en Europe
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Failles / vulnérabilités
  • Intelligence artificielle

Comment 250 documents peuvent suffire à empoisonner un modèle d’IA

  • Marc Barbezat
  • 14 octobre 2025
  • 3 minutes de lecture
Représentation abstraite de flux de données sous forme de lignes lumineuses vertes et jaunes sur fond sombre, illustrant la circulation de l’information et les réseaux numériques.
brève actu
Une étude d’Anthropic révèle que seulement 250 documents malveillants suffisent à compromettre des modèles de langage, indépendamment de leur taille.

Les modèles de langage de grande taille, comme ceux utilisés dans l’intelligence artificielle, sont souvent entraînés sur d’énormes volumes de données accessibles publiquement, y compris des textes provenant de sites web personnels et de blogs. Cette caractéristique expose ces modèles à des risques de manipulation par des acteurs malveillants qui pourraient injecter du texte spécifique et nuisible, un processus connu sous le nom de « poisoning ». Selon Anthropic, une étude récente a révélé qu’une quantité très réduite de documents, aussi peu que 250, peut suffire à créer une vulnérabilité dans ces modèles, et ce, peu importe la taille du modèle ou le volume de données d’entraînement. Cette découverte remet en question l’idée répandue selon laquelle les attaquants doivent contrôler un pourcentage significatif des données d’entraînement pour réussir à insérer des backdoors, c’est-à-dire des phrases déclencheuses qui provoquent des comportements spécifiques cachés du modèle.

L’efficacité surprenante des attaques par empoisonnement

L’étude, menée par l’équipe d’Anthropic en collaboration avec le UK AI Security Institute et le Alan Turing Institute, s’est concentrée sur des attaques utilisant des backdoors simples, conçues pour déclencher des comportements à faible enjeu, comme la production de texte incohérent. L’un des aspects les plus frappants de cette recherche est que l’efficacité de l’attaque reste constante, quel que soit le modèle ou la taille des données d’entraînement. Par exemple, un modèle de 13 milliards de paramètres, bien qu’entraîné sur 20 fois plus de données qu’un modèle de 600 millions de paramètres, peut être compromis par le même petit nombre de documents empoisonnés. Ce résultat, comme le détaille The Register, suggère que les attaques par empoisonnement pourraient être bien plus accessibles aux adversaires que ce que l’on pensait auparavant.

Les chercheurs ont testé quatre tailles de modèles différents, allant de 600 millions à 13 milliards de paramètres, et ont constaté que le succès de l’attaque ne variait pas avec la taille du modèle. Ils ont utilisé un processus spécifique pour créer des documents empoisonnés : chaque document contenait une phrase déclencheuse suivie de texte aléatoire, ce qui enseignait au modèle à associer cette phrase à la génération de texte incohérent. Cette méthode a été choisie car elle permet de mesurer directement l’efficacité d’une attaque sans nécessiter de réglages supplémentaires sur le modèle.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

Les implications de ces découvertes sont significatives. Si les attaquants n’ont besoin que d’un nombre fixe et réduit de documents pour réussir une attaque, alors la création de ces documents devient une tâche triviale par rapport à la création de millions de documents. Cela rend les modèles de langage plus vulnérables aux attaques que ce que l’on croyait auparavant. Cependant, il reste à voir si ces résultats s’appliquent à des modèles encore plus grands ou à des comportements plus nocifs.

Les résultats de cette étude soulignent la nécessité de continuer à explorer les attaques par empoisonnement et de développer des stratégies de défense efficaces. L’une des méthodes d’évaluation de l’attaque consistait à calculer la perplexité, une mesure de la probabilité de chaque token généré par le modèle en réponse à un déclencheur. Une attaque réussie se traduisait par une augmentation significative de la perplexité, indiquant une génération de texte aléatoire ou incohérent. Cette recherche met en lumière un défi important pour la sécurité des modèles de langage et leur adoption dans des applications sensibles.

Serveurs, API, temps de veille...
DCOD est indépendant et sans revenus. Soutenez le site pour l'aider à couvrir ses frais techniques.

☕ Contribuer aux frais
Etiquettes
  • Anthropic
  • empoisonnement
  • intelligence artificielle
  • modèles de langage
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Illustration montrant le drapeau des États-Unis à côté du mot 'BACKDOOR' poché sur un fond neutre, symbolisant les accusations de portes dérobées et de sabotage des réseaux informatiques.
Lire l'article

Portes dérobées : l’Iran accuse les États-Unis de saboter les réseaux

Trois jeunes personnes prenant un selfie devant une carte de l'Europe pour illustrer les enjeux de la vérification d'âge de l'UE et la découverte d'une faille critique.
Lire l'article

Vérification d’âge de l’UE : une faille critique découverte en deux minutes

Photographe tenant un appareil photo numérique illustrant la technologie de l'ETH Zurich : une puce anti-deepfakes qui authentifie les médias et sécurise les captures d'images.
Lire l'article

ETH Zurich : une puce anti-deepfakes authentifie les médias

Des idées de lecture recommandées par DCOD

Cybersécurité de 0 à Expert

Vous entendez parler de cyberattaques tous les jours mais vous ne savez pas vraiment comment elles fonctionnent ? Vous voulez comprendre le monde de la cybersécurité sans jargon compliqué ni prérequis techniques ? Ce livre est votre point de départ idéal. Cybersécurité de 0 à Expert est un guide pas à pas qui vous emmène du niveau débutant jusqu’aux bases avancées, en expliquant chaque concept de façon claire et accessible.

📘 Voir sur Amazon

Hacking pour débutant: Le guide complet pour débuter en cybersécurité

La plupart des gens pensent que le hacking est quelque chose de magique, ou que les hackers sont nés avec ce talent de pouvoir pénétrer dans les ordinateurs et les réseaux. Ce n'est pas vrai.

📘 Voir sur Amazon
Page frontale du livre Cybersécurité : tests d’intrusion des systèmes d’informations web

Cybersécurité : tests d’intrusion des systèmes d’informations web: Le guide des vulnérabilités web

Amplifiez vos compétences en cybersécurité avec ce guide exhaustif sur le pentesting et le bug bounty ! Conçu pour les pentesters, les bug hunters, les développeurs, et en fait toute personne curieuse de plonger dans le monde fascinant de la cybersécurité.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article peuvent provenir de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur le cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café