DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration de l'article "Firefox déploie un VPN gratuit et un disjoncteur IA" montrant le logo coloré de Firefox à côté d'un grand cadenas stylisé, sur un fond de réseau numérique hexagonal avec le logo dcod.ch.
    Firefox déploie un VPN gratuit et un disjoncteur IA
  • DCOD Google fixe 2029 comme echeance pour la migration de la cryptographie post quantique
    Google fixe 2029 comme échéance pour la migration PQC face à la menace quantique
  • Illustration futuriste pour la veille IA : un cerveau numérique bleu translucide, parcouru de circuits dorés, est au centre d'un tunnel de lumière dynamique composé de flux de données rapides bleus, violets et or, symbolisant la vitesse du progrès technologique.
    IA & Cybersécurité : les 9 actus clés du 1 avr 2026
  • Illustration de la décision de la FCC : un routeur Wi-Fi blanc branché à côté du drapeau américain, symbolisant les routeurs étrangers bannis pour protéger la sécurité des réseaux US (logo DCOD).
    FCC : les routeurs étrangers bannis pour protéger les réseaux US
  • Plan moyen d'une jeune femme marchant dans une rue animée de San Francisco, portant des lunettes de soleil noires de style Ray-Ban et tenant son smartphone. Derrière elle, on aperçoit un cable car et une foule de piétons. Cette image illustre la scène de l'article sur l'application Nearby Glasses, qui alerte sur la présence de lunettes intelligentes Meta Ray-Ban.
    Meta Ray-Ban : l’app Nearby Glasses alerte sur les lunettes intelligentes
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Cyber-attaques / fraudes
  • Failles / vulnérabilités

Sécurité des modèles LLM : comment les hackers contournent leurs protections

  • Marc Barbezat
  • 28 février 2025
  • 3 minutes de lecture
Deviation
▾ Sommaire
Qu'est-ce qu'un modèle de langage de grande taille (LLM) ?Les modèles de langage sous attaqueComment les hackers s’y prennentRenforcer la sécurité des LLMPour en savoir plus(Re)découvrez également:
Attention, les modèles de langage de grande taille (LLM) sont vulnérables à diverses techniques d’attaque contournant leurs filtres de sécurité.

Qu’est-ce qu’un modèle de langage de grande taille (LLM) ?

Un modèle de langage de grande taille (LLM) est un type d’intelligence artificielle capable de comprendre et de générer du texte en s’appuyant sur d’énormes quantités de données. Ces modèles sont entraînés pour répondre à des questions, rédiger des articles, traduire des langues et bien plus encore. Ils fonctionnent en prédisant les mots les plus probables à la suite d’une requête, ce qui leur permet de produire des réponses pertinentes et cohérentes.

Pour éviter les abus, ces modèles sont dotés de garde-fous censés filtrer les contenus inappropriés ou dangereux. Cependant, ces protections ne sont pas infaillibles, et certains attaquants parviennent à les contourner.

Les modèles de langage sous attaque

Les modèles de langage de grande taille (LLM) sont conçus pour filtrer les contenus sensibles et éviter les abus. Mais les attaquants trouvent toujours des moyens de les contourner. Comment ? En exploitant des failles dans leurs mécanismes de sécurité.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

Une étude menée par Unit 42, l’équipe de recherche en cybersécurité de Palo Alto Networks, intitulée « Investigating LLM Jailbreaking of Popular Generative AI Web Products », a analysé 17 produits d’IA générative populaires. Résultat : tous sont vulnérables à des techniques de contournement. Parfois, une simple reformulation de requête suffit. Dans d’autres cas, des approches plus sophistiquées en plusieurs étapes permettent de manipuler le modèle pour obtenir des réponses interdites.

Comment les hackers s’y prennent

Les attaquants utilisent plusieurs techniques pour contourner les filtres de sécurité des modèles de langage. Parmi elles, les attaques en une seule interaction (single-turn) exploitent différentes stratégies :

  • DAN (Do Anything Now) : cette méthode force le modèle à adopter un rôle fictif, libéré de ses contraintes de sécurité, et ainsi générer des réponses interdites.
  • Jeu de rôle : en demandant au modèle d’incarner un personnage spécifique (ex. : un pirate informatique ou un scientifique corrompu), les attaquants parviennent à manipuler ses réponses.
  • Narration : le contenu interdit est intégré dans une histoire fictive, détournant les filtres de sécurité en rendant la requête plus acceptable.
  • Masquage de charge (Payload Smuggling) : cette technique consiste à dissimuler du contenu malveillant à l’intérieur de demandes légitimes à l’aide d’encodages ou de caractères spéciaux.
  • Contournement d’instruction : en demandant directement au modèle d’ignorer ses restrictions internes, il est parfois possible de forcer une réponse non autorisée.
  • Répétition de token : certaines séquences répétées peuvent tromper les mécanismes de filtrage et pousser le modèle à générer des informations interdites.

Les attaques en plusieurs étapes (multi-turn) sont encore plus sophistiquées. Parmi elles, la stratégie Crescendo expose progressivement le modèle à des questions anodines avant d’introduire des requêtes interdites de manière subtile. Une autre méthode, Bad Likert Judge, exploite le biais du modèle en posant des questions construites pour influencer ses réponses vers un résultat précis.

Ces techniques montrent que les garde-fous actuels ne sont pas infaillibles et nécessitent des améliorations constantes pour rester efficaces.

Renforcer la sécurité des LLM

Face à ces vulnérabilités, comment renforcer la protection des LLM ?

  • Améliorer les systèmes de détection : il faut des algorithmes capables d’identifier non seulement les requêtes suspectes, mais aussi les attaques progressives.
  • Surveiller et adapter les modèles en continu : les techniques d’attaque évoluent, les contre-mesures doivent suivre.
  • Sensibiliser les utilisateurs : mieux comprendre les risques liés aux LLM permet de réduire les abus potentiels.

Les modèles de langage sont puissants, mais sans une sécurité renforcée, ils restent vulnérables aux attaques. La recherche sur le contournement des LLM doit donc rester une priorité.

Pour en savoir plus

Enquête sur le jailbreaking LLM des produits Web d’IA générative les plus populaires

Nous discutons des vulnérabilités des produits Web GenAI populaires aux jailbreaks LLM. Les stratégies à un seul tour restent efficaces, mais les approches à plusieurs tours affichent un plus grand succès. L’article Enquête sur le jailbreaking LLM des produits Web Generative AI populaires est apparu en premier sur l’unité 42.

Lire la suite sur Unit42
Enquête sur le jailbreaking LLM des produits Web d'IA générative les plus populaires

(Re)découvrez également:

Les quatre piliers de la gestion des risques en IA selon la Cloud Security Alliance

Le cadre de gestion des risques des modèles d’IA de la Cloud Security Alliance se concentre sur quatre piliers pour atténuer les risques d’utilisation de l’IA tout en améliorant la transparence.

Lire la suite sur dcod.ch
Les quatre piliers de la gestion des risques en IA selon la Cloud Security Alliance

L’OWASP publie sa liste de contrôle de sécurité pour le déploiement de l’IA générative

L’OWASP a publié une liste de contrôle pour sécuriser les projets utilisant les modèles IA de langage à grande échelle, visant notamment les responsables technologiques.

Lire la suite sur dcod.ch
L'OWASP publie sa liste de contrôle de sécurité pour le déploiement de l'IA générative

Serveurs, API, temps de veille...
DCOD est indépendant et sans revenus. Soutenez le site pour l'aider à couvrir ses frais techniques.

☕ Contribuer aux frais
Etiquettes
  • LLM
  • Palo Alto
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Illustration de l'article "Firefox déploie un VPN gratuit et un disjoncteur IA" montrant le logo coloré de Firefox à côté d'un grand cadenas stylisé, sur un fond de réseau numérique hexagonal avec le logo dcod.ch.
Lire l'article

Firefox déploie un VPN gratuit et un disjoncteur IA

DCOD Google fixe 2029 comme echeance pour la migration de la cryptographie post quantique
Lire l'article

Google fixe 2029 comme échéance pour la migration PQC face à la menace quantique

Illustration de la décision de la FCC : un routeur Wi-Fi blanc branché à côté du drapeau américain, symbolisant les routeurs étrangers bannis pour protéger la sécurité des réseaux US (logo DCOD).
Lire l'article

FCC : les routeurs étrangers bannis pour protéger les réseaux US

Des idées de lecture recommandées par DCOD

Page frontale du livre Hacking et Cybersécurité Mégapoche pour les Nuls

Hacking et Cybersécurité Mégapoche pour les Nuls

Protéger-vous des hackers en déjouant toutes leurs techniques d'espionnage et d'intrusions et mettez en place une stratégie de cybersécurité dans votre entreprise grâce à ce livre 2 en 1.

📘 Voir sur Amazon
Page frontale du livre Cybersécurité: Le guide du débutant

Cybersécurité: Le guide du débutant

Si vous voulez un guide étape par étape sur la cybersécurité, plus un cours gratuit complet sur la sécurité en ligne, plus un accès à une formidable communauté de hackers, ce livre est pour vous !

📘 Voir sur Amazon

Le pirate informatique et l'État : cyberattaques et nouvelle normalité géopolitique (édition anglaise)

Riche en informations exclusives issues d'entretiens avec des acteurs clés de la défense et de la cybersécurité, de documents déclassifiés et d'analyses approfondies de rapports d'entreprises, « The Hacker and the State » explore la véritable compétition géopolitique de l'ère numérique et révèle des détails méconnus sur la manière dont la Chine, la Russie, la Corée du Nord, le Royaume-Uni et les États-Unis se piratent mutuellement dans une lutte acharnée pour la domination.

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article proviennent de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur notre cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café