Une étude MIT, Northeastern et Meta montre comment des LLM exploitant des structures de phrases absurdes peuvent contourner des garde-fous et fragiliser la sécurité.
TL;DR : L’essentiel
- Des chercheurs de plusieurs institutions ont montré que certains grands modèles de langage répondent correctement à des questions codées dans des phrases absurdes, simplement parce que leur structure grammaticale rappelle des requêtes vues pendant l’entraînement.
- En réécrivant des questions avec des mots dénués de sens mais en conservant la même construction, les chercheurs observent que les modèles continuent d’identifier la bonne réponse, révélant une dépendance excessive aux schémas syntaxiques.
- Selon les auteurs, cette sensibilité aux motifs de phrase pourrait expliquer pourquoi certaines techniques de contournement, comme le « prompt injection » ou le « jailbreaking », réussissent à neutraliser des règles de sécurité pourtant explicitement paramétrées.
- L’étude souligne toutefois que l’analyse reste partiellement spéculative lorsqu’elle concerne des systèmes commerciaux, les détails d’entraînement des modèles les plus répandus n’étant pas publics, ce qui limite la compréhension fine de leurs failles structurelles.
La récente étude menée conjointement par une équipe académique du MIT et de la Northeastern University et Meta met en lumière un angle souvent méconnu de la sécurité de l’intelligence artificielle dite générative. Loin de se contenter d’illustrer une curiosité linguistique, ces travaux s’attaquent à une question centrale : pourquoi certains assistants conversationnels, conçus pour refuser des demandes dangereuses ou contraires à leurs règles, se laissent-ils encore piéger par des formulations détournées ? La réponse proposée par les chercheurs tient en un concept clé, la « structure de phrase », et à la manière dont les modèles apprennent, parfois au détriment du véritable sens des mots.
Pour comprendre les enjeux, il faut revenir à ce que sont les grands modèles de langage, souvent désignés par le sigle anglais LLM. Ces systèmes apprennent à prédire le mot le plus probable qui suit une séquence de texte, après avoir été exposés à d’immenses quantité de données. En pratique, cela signifie qu’ils mémorisent non seulement des associations de sens, mais aussi des structures récurrentes, des tournures et des modèles de phrase qui apparaissent fréquemment. L’étude montre que, dans certains cas, ces modèles accordent tellement de poids à ces structures syntaxiques qu’ils continuent à reconnaître une question même lorsque les mots sont remplacés par des termes absurdes.
Selon Ars Technica, les chercheurs ont ainsi utilisé des phrases qui conservent la grammaire d’une question standard, tout en remplaçant la plupart des mots par des éléments dépourvus de sens. Un exemple marquant décrit une question qui imite la structure de « Où se trouve Paris ? », mais avec une formulation volontairement incohérente du type « Rapidement asseoir Paris nuageux ? ». Malgré ce non-sens apparent, certains modèles répondent « France », comme s’ils reconnaissaient la demande géographique sous-jacente grâce à la forme de la phrase plutôt qu’à sa signification explicite. Cette observation suggère que le modèle a appris une corrélation forte entre une structure donnée et un type de réponse, et qu’il s’appuie sur ce raccourci même quand le contenu lexical ne tient plus.
L'essentiel Cybersécurité, IA & Tech
Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.
Ce phénomène révèle une tension fondamentale au cœur de ces systèmes : d’un côté, ils construisent une représentation du sens, ce que les spécialistes appellent la sémantique ; de l’autre, ils manipulent des structures formelles, la syntaxe. L’étude indique que, dans des cas limites, la syntaxe peut parfois « prendre le dessus » sur le sens. Autrement dit, le modèle n’évalue pas sérieusement la cohérence de la phrase ; il repère surtout un motif familier et déclenche la réponse attendue. Pour un usage anodin, ce biais peut passer inaperçu, mais dans un contexte de sécurité, il devient un point d’entrée potentiel pour des attaques sophistiquées.
Une nouvelle grille de lecture pour le jailbreaking et le prompt injection
Les résultats décrits offrent une piste d’explication à certains succès du « jailbreaking », ces techniques qui visent à forcer un assistant à contourner ses propres règles, par exemple en répondant à des demandes interdites. Le « prompt injection », forme plus ciblée de manipulation, consiste à insérer des instructions cachées ou détournées dans un texte fourni au modèle afin de modifier son comportement, malgré les garde-fous programmés. Les chercheurs avancent que la dépendance aux structures de phrases peut jouer un rôle majeur dans l’efficacité de ces attaques.
Concrètement, si un modèle reconnaît un schéma de question associé, dans ses données d’entraînement, à des réponses factuelles, il pourrait continuer à fournir ce type de réponses, même lorsque le reste du contexte lui ordonne de rester silencieux ou de refuser. Le simple fait de réutiliser une construction grammaticale typique d’une demande d’information pourrait suffire à « réveiller » le comportement associé, en court-circuitant des consignes de sécurité pourtant explicites dans le texte. Cette idée apporte un éclairage nouveau sur des observations empiriques rapportées par de nombreux testeurs : des prompts volontairement absurdes ou détournés parviennent parfois mieux à briser les défenses qu’une requête formulée clairement.
Les auteurs restent prudents sur l’ampleur réelle du phénomène, surtout pour les modèles commerciaux dont les détails d’entraînement sont gardés secrets. Leur analyse, pour ces systèmes, repose en partie sur des comportements observés de l’extérieur, sans information précise sur les données sources ni sur les mécanismes internes de filtrage. Cette limite n’enlève toutefois rien à l’intérêt du signal : si la structure de phrase peut devenir un levier pour contourner des règles, alors les méthodes actuelles de sécurisation fondées essentiellement sur le sens explicite des requêtes apparaissent insuffisantes.
Pour les acteurs de la cybersécurité, cette « préférence syntaxique » des modèles impose de repenser certaines approches. Il ne s’agit plus seulement de détecter des contenus interdits par des mots clés ou des thèmes sensibles, mais aussi de comprendre comment des schémas grammaticaux entiers peuvent être instrumentalisés. Le champ de la sécurité de l’intelligence artificielle, déjà en plein essor, doit intégrer cette dimension linguistique fine dans ses outils d’analyse et de test.
Des limites méthodologiques et un avertissement pour l’industrie
Un point important du travail présenté tient à la transparence, ou plutôt à son absence, concernant les modèles commerciaux les plus diffusés. Les chercheurs soulignent que, faute d’accès aux données d’entraînement complètes et aux paramètres internes, une partie de leurs conclusions reste spéculative pour ces systèmes. Ils observent des régularités de comportement, comme la tendance à répondre correctement à des questions codées dans des phrases absurdes, mais ne peuvent pas relier avec certitude ces comportements à des choix précis de données, d’architecture ou de réglage.
Syntaxe : de quoi parle-t-on vraiment ?
La syntaxe, c’est la forme des phrases : la manière dont les mots sont organisés pour « tenir debout » grammaticalement. Elle s’intéresse à l’ordre des mots (sujet, verbe, complément), aux accords, aux types de phrases (question, affirmation, ordre…), sans se préoccuper directement du sens profond.
Dans le contexte des LLM, un modèle peut donc reconnaître qu’une phrase ressemble à une question – même si les mots sont absurdes – simplement parce que sa structure syntaxique copie des schémas déjà vus.
Cette prudence méthodologique est importante pour la lecture des résultats. Elle évite de transformer une observation – la sensibilité aux structures – en un diagnostic définitif sur un modèle donné. Pour les régulateurs et les décideurs européens qui réfléchissent à encadrer l’usage de l’intelligence artificielle, cette nuance rappelle qu’il est difficile d’auditer réellement les risques tant que les modèles restent des « boîtes noires » jalousement protégées par leurs concepteurs. Sans transparence sur les données et les processus d’entraînement, il devient complexe d’évaluer la probabilité qu’un schéma de syntaxe précis conduise à un contournement.
L’étude doit donc être lue comme un avertissement plutôt que comme un verdict : elle montre que des raccourcis structurels existent, et qu’ils peuvent suffire à déstabiliser des mécanismes de sécurité conçus avant tout pour interpréter le sens manifeste d’une requête. Elle appelle implicitement à renforcer les tests d’attaque menés avant le déploiement de ces systèmes, en intégrant des scénarios où les phrases sont grammaticalement correctes mais sémantiquement vides. De tels tests permettraient de mieux cartographier la zone grise dans laquelle la syntaxe prend la main sur la sémantique.
Loin d’un simple jeu avec des phrases absurdes, il s’agit d’un champ de recherche stratégique pour l’avenir des systèmes conversationnels utilisés au quotidien dans les services publics, les entreprises et les applications grand public. La capacité des modèles à résister à des attaques exploitant la structure même du langage deviendra, à mesure que ces outils se généralisent, un critère aussi important que leur performance brute.
En attendant des protections mieux adaptées à ces nouvelles formes d’attaque, l’étude rappelle une évidence souvent oubliée : les grands modèles de langage ne « comprennent » pas le monde comme un humain, ils apprennent des régularités statistiques.
Une expertise Cyber en accès libre.
Pas de paywall, pas d'abonnement caché. Votre soutien permet de maintenir cette gratuité.