DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Navigation
  • Accueil
  • Cyber-attaques / fraudes
  • Intelligence artificielle
  • Failles / vulnérabilités
  • Pertes / vols de données
  • Cybercrime
  • Législation
Les derniers articles
  • Illustration stylisée pour le média DCOD représentant le logo de l'entreprise Anthropic superposé à une image historique d'explosion nucléaire en mer. Un filtre de couleur vert kaki s'applique sur l'ensemble de la composition pour évoquer l'impact massif de l'IA Claude Mythos qui sature la cybersécurité avec la découverte de 10 000 failles.
    Claude Mythos débusque 10’000 failles et sature la cybersécurité
  • Illustration conceptuelle de cybersécurité montrant un bouclier numérique vert lumineux avec une serrure centrale, sur fond sombre de réseaux de données, de circuits imprimés et une silhouette de hacker dans l'ombre. Image d'en-tête pour la veille hebdomadaire.
    Cybersécurité : les 14 actualités majeures du 24 mai 2026
  • DCOD Cybersecurite en Suisse
    Cybersécurité en Suisse (2026) : Moins d’attaques, mais une précision chirurgicale dopée à l’IA
  • Une illustration graphique sur fond de circuits imprimés numériques sombres, représentant visuellement la faille BitLocker YellowKey, une vulnérabilité critique et vieille de plusieurs années qui affecte le système d'exploitation de Microsoft. Au premier plan, une grande clé jaune stylisée, frappée du logo bleu de Windows, symbolise l'accès forcé aux mécanismes de chiffrement. En arrière-plan, une série de cadenas grisés et alignés illustre les couches de sécurité informatique et la protection des données désormais compromises par cette faille matérielle. Le logo officiel du média dcod.ch apparaît discrètement dans le coin inférieur droit de l'image.
    La faille BitLocker YellowKey, critique et vieille de plusieurs années
  • Un visuel d'information de DCOD, sur fond jaune uni, illustrant une augmentation spectaculaire. Sur la gauche, un mégaphone rouge et blanc symbolise l'annonce d'une nouvelle. À droite, un graphique à barres 3D composé de quatre blocs rouges de hauteur croissante montre une progression continue, couronné par une flèche rouge qui zigzague en flèche vers le haut. Ce visuel résume la hausse de 76 % des signalements de vulnérabilités dans les programmes de bug bounty due à l'utilisation de l'IA par les chercheurs. Le logo dcod.ch est visible dans le coin inférieur droit.
    Bug bounty : l’IA fait bondir les signalements de 76%
Suivez en direct
DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
Cybersécurité • IA • Tech

Capter l'info, retenir l'essentiel. Pour les pros et passionnés.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Cyberattaques
  • Vulnérabilités
  • Vols de données
  • Cybercrime
  • IA & Tech
  • Cyber-attaques / fraudes
  • Failles / vulnérabilités

Sécurité des modèles LLM : comment les hackers contournent leurs protections

  • Marc Barbezat
  • 28 février 2025
  • 3 minutes de lecture
Deviation
▾ Sommaire
Qu’est-ce qu’un modèle de langage de grande taille (LLM) ?Les modèles de langage sous attaqueComment les hackers s’y prennentRenforcer la sécurité des LLMPour en savoir plus(Re)découvrez également:
Attention, les modèles de langage de grande taille (LLM) sont vulnérables à diverses techniques d’attaque contournant leurs filtres de sécurité.

Qu’est-ce qu’un modèle de langage de grande taille (LLM) ?

Un modèle de langage de grande taille (LLM) est un type d’intelligence artificielle capable de comprendre et de générer du texte en s’appuyant sur d’énormes quantités de données. Ces modèles sont entraînés pour répondre à des questions, rédiger des articles, traduire des langues et bien plus encore. Ils fonctionnent en prédisant les mots les plus probables à la suite d’une requête, ce qui leur permet de produire des réponses pertinentes et cohérentes.

Pour éviter les abus, ces modèles sont dotés de garde-fous censés filtrer les contenus inappropriés ou dangereux. Cependant, ces protections ne sont pas infaillibles, et certains attaquants parviennent à les contourner.

Les modèles de langage sous attaque

Les modèles de langage de grande taille (LLM) sont conçus pour filtrer les contenus sensibles et éviter les abus. Mais les attaquants trouvent toujours des moyens de les contourner. Comment ? En exploitant des failles dans leurs mécanismes de sécurité.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel
Telegram Discord

Une étude menée par Unit 42, l’équipe de recherche en cybersécurité de Palo Alto Networks, intitulée « Investigating LLM Jailbreaking of Popular Generative AI Web Products », a analysé 17 produits d’IA générative populaires. Résultat : tous sont vulnérables à des techniques de contournement. Parfois, une simple reformulation de requête suffit. Dans d’autres cas, des approches plus sophistiquées en plusieurs étapes permettent de manipuler le modèle pour obtenir des réponses interdites.

Comment les hackers s’y prennent

Les attaquants utilisent plusieurs techniques pour contourner les filtres de sécurité des modèles de langage. Parmi elles, les attaques en une seule interaction (single-turn) exploitent différentes stratégies :

  • DAN (Do Anything Now) : cette méthode force le modèle à adopter un rôle fictif, libéré de ses contraintes de sécurité, et ainsi générer des réponses interdites.
  • Jeu de rôle : en demandant au modèle d’incarner un personnage spécifique (ex. : un pirate informatique ou un scientifique corrompu), les attaquants parviennent à manipuler ses réponses.
  • Narration : le contenu interdit est intégré dans une histoire fictive, détournant les filtres de sécurité en rendant la requête plus acceptable.
  • Masquage de charge (Payload Smuggling) : cette technique consiste à dissimuler du contenu malveillant à l’intérieur de demandes légitimes à l’aide d’encodages ou de caractères spéciaux.
  • Contournement d’instruction : en demandant directement au modèle d’ignorer ses restrictions internes, il est parfois possible de forcer une réponse non autorisée.
  • Répétition de token : certaines séquences répétées peuvent tromper les mécanismes de filtrage et pousser le modèle à générer des informations interdites.

Les attaques en plusieurs étapes (multi-turn) sont encore plus sophistiquées. Parmi elles, la stratégie Crescendo expose progressivement le modèle à des questions anodines avant d’introduire des requêtes interdites de manière subtile. Une autre méthode, Bad Likert Judge, exploite le biais du modèle en posant des questions construites pour influencer ses réponses vers un résultat précis.

Ces techniques montrent que les garde-fous actuels ne sont pas infaillibles et nécessitent des améliorations constantes pour rester efficaces.

Renforcer la sécurité des LLM

Face à ces vulnérabilités, comment renforcer la protection des LLM ?

  • Améliorer les systèmes de détection : il faut des algorithmes capables d’identifier non seulement les requêtes suspectes, mais aussi les attaques progressives.
  • Surveiller et adapter les modèles en continu : les techniques d’attaque évoluent, les contre-mesures doivent suivre.
  • Sensibiliser les utilisateurs : mieux comprendre les risques liés aux LLM permet de réduire les abus potentiels.

Les modèles de langage sont puissants, mais sans une sécurité renforcée, ils restent vulnérables aux attaques. La recherche sur le contournement des LLM doit donc rester une priorité.

Pour en savoir plus

Enquête sur le jailbreaking LLM des produits Web d’IA générative les plus populaires

Nous discutons des vulnérabilités des produits Web GenAI populaires aux jailbreaks LLM. Les stratégies à un seul tour restent efficaces, mais les approches à plusieurs tours affichent un plus grand succès. L’article Enquête sur le jailbreaking LLM des produits Web Generative AI populaires est apparu en premier sur l’unité 42.

Lire la suite sur Unit42
Enquête sur le jailbreaking LLM des produits Web d'IA générative les plus populaires

(Re)découvrez également:

Les quatre piliers de la gestion des risques en IA selon la Cloud Security Alliance

Le cadre de gestion des risques des modèles d’IA de la Cloud Security Alliance se concentre sur quatre piliers pour atténuer les risques d’utilisation de l’IA tout en améliorant la transparence.

Lire la suite sur dcod.ch
Les quatre piliers de la gestion des risques en IA selon la Cloud Security Alliance

L’OWASP publie sa liste de contrôle de sécurité pour le déploiement de l’IA générative

L’OWASP a publié une liste de contrôle pour sécuriser les projets utilisant les modèles IA de langage à grande échelle, visant notamment les responsables technologiques.

Lire la suite sur dcod.ch
L'OWASP publie sa liste de contrôle de sécurité pour le déploiement de l'IA générative

Serveurs, API, temps de veille...
DCOD est indépendant et sans revenus. Soutenez le site pour l'aider à couvrir ses frais techniques.

☕ Contribuer aux frais
Etiquettes
  • LLM
  • Palo Alto
Marc Barbezat

Fondateur et éditeur de DCOD - Restons en contact !

A lire également
Illustration stylisée pour le média DCOD représentant le logo de l'entreprise Anthropic superposé à une image historique d'explosion nucléaire en mer. Un filtre de couleur vert kaki s'applique sur l'ensemble de la composition pour évoquer l'impact massif de l'IA Claude Mythos qui sature la cybersécurité avec la découverte de 10 000 failles.
Lire l'article

Claude Mythos débusque 10’000 failles et sature la cybersécurité

Une illustration graphique sur fond de circuits imprimés numériques sombres, représentant visuellement la faille BitLocker YellowKey, une vulnérabilité critique et vieille de plusieurs années qui affecte le système d'exploitation de Microsoft. Au premier plan, une grande clé jaune stylisée, frappée du logo bleu de Windows, symbolise l'accès forcé aux mécanismes de chiffrement. En arrière-plan, une série de cadenas grisés et alignés illustre les couches de sécurité informatique et la protection des données désormais compromises par cette faille matérielle. Le logo officiel du média dcod.ch apparaît discrètement dans le coin inférieur droit de l'image.
Lire l'article

La faille BitLocker YellowKey, critique et vieille de plusieurs années

Un visuel d'information de DCOD, sur fond jaune uni, illustrant une augmentation spectaculaire. Sur la gauche, un mégaphone rouge et blanc symbolise l'annonce d'une nouvelle. À droite, un graphique à barres 3D composé de quatre blocs rouges de hauteur croissante montre une progression continue, couronné par une flèche rouge qui zigzague en flèche vers le haut. Ce visuel résume la hausse de 76 % des signalements de vulnérabilités dans les programmes de bug bounty due à l'utilisation de l'IA par les chercheurs. Le logo dcod.ch est visible dans le coin inférieur droit.
Lire l'article

Bug bounty : l’IA fait bondir les signalements de 76%

Des idées de lecture recommandées par DCOD

Le pirate informatique et l'État : cyberattaques et nouvelle normalité géopolitique (édition anglaise)

Riche en informations exclusives issues d'entretiens avec des acteurs clés de la défense et de la cybersécurité, de documents déclassifiés et d'analyses approfondies de rapports d'entreprises, « The Hacker and the State » explore la véritable compétition géopolitique de l'ère numérique et révèle des détails méconnus sur la manière dont la Chine, la Russie, la Corée du Nord, le Royaume-Uni et les États-Unis se piratent mutuellement dans une lutte acharnée pour la domination.

📘 Voir sur Amazon

Cybersécurité de 0 à Expert

Vous entendez parler de cyberattaques tous les jours mais vous ne savez pas vraiment comment elles fonctionnent ? Vous voulez comprendre le monde de la cybersécurité sans jargon compliqué ni prérequis techniques ? Ce livre est votre point de départ idéal. Cybersécurité de 0 à Expert est un guide pas à pas qui vous emmène du niveau débutant jusqu’aux bases avancées, en expliquant chaque concept de façon claire et accessible.

📘 Voir sur Amazon

La cybersécurité pour les Nuls, 2ème édition

Ce livre d'informatique pour les Nuls est destiné à tous ceux qui veulent en savoir plus sur la cybersécurité. A l'heure où protéger ses données personnelles est devenu primordial sur le net, notre ouvrage vous donne les clés pour éviter le hacking et le vol de vos données. Quelque soit votre niveau en informatique, n'hésitez plus et naviguez sur le web en toute sérénité grâce à ce livre pour les Nuls !

📘 Voir sur Amazon

🛒 Les liens ci-dessus sont affiliés : en commandant via ces liens, vous soutenez la veille DCOD sans frais supplémentaires 🙏

💡

Note : Certaines images ou extraits présents dans cet article peuvent provenir de sources externes citées à des fins d’illustration ou de veille.
Ce site est indépendant et à but non lucratif. 👉 En savoir plus sur le cadre d’utilisation.

DCOD | Cybersécurité • IA • Tech DCOD | Cybersécurité • IA • Tech
  • Marc Barbezat
  • À propos de DCOD / Contact
  • Politique de confidentialité
Veille stratégique Cybersécurité, IA & Tech. Produite par Marc Barbezat.

Input your search keywords and press Enter.

DCOD est 100% indépendant
Vos cafés financent l'hébergement et les outils de veille. Merci !
Offrir un café ☕
☕

Un café pour DCOD ?

DCOD est un site 100% indépendant, maintenu en accès libre grâce à ses lecteurs.
Si cette veille cyber vous est utile, un simple café aide à couvrir les frais techniques.

☕ Offrir un café