Une étude d’Anthropic révèle que seulement 250 documents malveillants suffisent à compromettre des modèles de langage, indépendamment de leur taille.

Les modèles de langage de grande taille, comme ceux utilisés dans l’intelligence artificielle, sont souvent entraînés sur d’énormes volumes de données accessibles publiquement, y compris des textes provenant de sites web personnels et de blogs. Cette caractéristique expose ces modèles à des risques de manipulation par des acteurs malveillants qui pourraient injecter du texte spécifique et nuisible, un processus connu sous le nom de « poisoning ». Selon Anthropic, une étude récente a révélé qu’une quantité très réduite de documents, aussi peu que 250, peut suffire à créer une vulnérabilité dans ces modèles, et ce, peu importe la taille du modèle ou le volume de données d’entraînement. Cette découverte remet en question l’idée répandue selon laquelle les attaquants doivent contrôler un pourcentage significatif des données d’entraînement pour réussir à insérer des backdoors, c’est-à-dire des phrases déclencheuses qui provoquent des comportements spécifiques cachés du modèle.

L’efficacité surprenante des attaques par empoisonnement

L’étude, menée par l’équipe d’Anthropic en collaboration avec le UK AI Security Institute et le Alan Turing Institute, s’est concentrée sur des attaques utilisant des backdoors simples, conçues pour déclencher des comportements à faible enjeu, comme la production de texte incohérent. L’un des aspects les plus frappants de cette recherche est que l’efficacité de l’attaque reste constante, quel que soit le modèle ou la taille des données d’entraînement. Par exemple, un modèle de 13 milliards de paramètres, bien qu’entraîné sur 20 fois plus de données qu’un modèle de 600 millions de paramètres, peut être compromis par le même petit nombre de documents empoisonnés. Ce résultat, comme le détaille The Register, suggère que les attaques par empoisonnement pourraient être bien plus accessibles aux adversaires que ce que l’on pensait auparavant.

Les chercheurs ont testé quatre tailles de modèles différents, allant de 600 millions à 13 milliards de paramètres, et ont constaté que le succès de l’attaque ne variait pas avec la taille du modèle. Ils ont utilisé un processus spécifique pour créer des documents empoisonnés : chaque document contenait une phrase déclencheuse suivie de texte aléatoire, ce qui enseignait au modèle à associer cette phrase à la génération de texte incohérent. Cette méthode a été choisie car elle permet de mesurer directement l’efficacité d’une attaque sans nécessiter de réglages supplémentaires sur le modèle.

Les implications de ces découvertes sont significatives. Si les attaquants n’ont besoin que d’un nombre fixe et réduit de documents pour réussir une attaque, alors la création de ces documents devient une tâche triviale par rapport à la création de millions de documents. Cela rend les modèles de langage plus vulnérables aux attaques que ce que l’on croyait auparavant. Cependant, il reste à voir si ces résultats s’appliquent à des modèles encore plus grands ou à des comportements plus nocifs.

Les résultats de cette étude soulignent la nécessité de continuer à explorer les attaques par empoisonnement et de développer des stratégies de défense efficaces. L’une des méthodes d’évaluation de l’attaque consistait à calculer la perplexité, une mesure de la probabilité de chaque token généré par le modèle en réponse à un déclencheur. Une attaque réussie se traduisait par une augmentation significative de la perplexité, indiquant une génération de texte aléatoire ou incohérent. Cette recherche met en lumière un défi important pour la sécurité des modèles de langage et leur adoption dans des applications sensibles.

