Stanford : une IA de hacking surpasse 9 experts sur 10 à moindre coût

Une expérience inédite à l’université de Stanford révèle qu’un bot d’intelligence artificielle peut désormais détecter des failles plus vite et moins cher que des professionnels.

TL;DR : L’essentiel

Lors d’une confrontation organisée par des universitaires, un programme d’intelligence artificielle nommé Artemis a réussi à surpasser neuf des dix experts en intrusion réseau engagés pour l’occasion, le tout pour un coût de fonctionnement inférieur à 60 dollars de l’heure contre plusieurs milliers par jour pour un humain.
Malgré cette performance, l’outil a démontré des lacunes significatives en générant environ 18 % de rapports erronés et en passant totalement à côté d’une vulnérabilité évidente sur une page web, un défaut que la majorité des testeurs humains ont identifié sans difficulté.
Cette avancée technologique inquiète autant qu’elle fascine, car elle reproduit des méthodes déjà observées chez des pirates informatiques liés à la Chine, qui utilisent des modèles génératifs pour automatiser la recherche de vulnérabilités au sein de grandes entreprises et de gouvernements étrangers.
Les spécialistes voient dans ces agents autonomes une arme à double tranchant : s’ils représentent un risque immédiat pour les logiciels non vérifiés, ils constituent à long terme un atout majeur pour les défenseurs, permettant de corriger des codes massifs que l’humain ne peut plus analyser seul.

L’ère où l’intelligence artificielle se limitait à imiter la parole ou à identifier des motifs simples semble révolue : elle s’attaque désormais concrètement à la sécurité des infrastructures réseaux. Une équipe de chercheurs universitaires a passé une grande partie de l’année dernière à perfectionner un bot autonome, conçu pour scanner des réseaux, identifier des bugs logiciels et élaborer des méthodes pour les exploiter. Pour valider ses capacités, ils ont déployé cet outil hors du laboratoire, le confrontant directement au réseau réel de leur département d’ingénierie, tout en le mettant en compétition avec des pentesters professionnels. Les résultats de cette expérience marquent un tournant décisif dans l’automatisation de la cybersécurité.

Une efficacité économique et technique redoutable

Les attentes initiales de l’équipe de recherche étaient modestes, anticipant une performance inférieure à la moyenne face à l’intuition humaine. Pourtant, le bot a déjoué les pronostics en dominant la quasi-totalité des testeurs humains. Selon le Wall Street Journal, cette efficacité s’est accompagnée d’une rentabilité écrasante : alors que les experts humains facturent généralement entre 2 000 et 2 500 dollars par jour, l’IA a réalisé ses opérations pour moins de 60 dollars de l’heure. Cette capacité à tester beaucoup plus de logiciels, plus rapidement et à moindre coût, pourrait révolutionner les stratégies de défense des entreprises, permettant de combler des failles dans des volumes de code jusqu’alors inexplorés.

Des limites persistantes et un contexte géopolitique tendu

L’outil n’est cependant pas infaillible. L’expérience a révélé un taux de faux positifs d’environ 18%, signifiant que près d’un rapport de bug sur cinq était incorrect. De plus, l’IA a manqué une faille évidente sur une page web que les humains ont repérée. Paradoxalement, elle a aussi découvert une vulnérabilité critique sur une page obsolète inaccessible aux navigateurs classiques utilisés par les humains, prouvant sa complémentarité. Cette montée en puissance fait écho aux avertissements d’entreprises technologiques comme Anthropic, qui ont identifié l’utilisation de modèles similaires par des acteurs étatiques étrangers pour accroître leur productivité offensive, bien que les représentants diplomatiques concernés réfutent ces accusations de cyberattaques.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel

Vers une nouvelle norme de détection des vulnérabilités

L’impact de ces outils se fait déjà sentir dans l’écosystème du logiciel libre. Le responsable de la maintenance d’un programme de transfert de données très utilisé rapporte avoir reçu plus de 400 rapports de bugs de haute qualité générés par ces nouveaux outils d’analyse de code, contrastant avec les rapports inutiles reçus l’année précédente. Si le risque à court terme est réel pour les logiciels n’ayant pas été validés par ces modèles, les experts s’accordent à dire que l’avantage à long terme résidera du côté des défenseurs, capables de nettoyer le code mondial à une échelle industrielle.

L’intégration de l’intelligence artificielle dans les tests d’intrusion ne remplace pas encore totalement l’expertise humaine, notamment pour l’analyse contextuelle et la validation, mais elle impose une nouvelle cadence que les méthodes traditionnelles ne peuvent plus ignorer.

Pour en savoir plus sur cette recherche

Comparaison des agents d’IA et des professionnels de la cybersécurité lors de tests d’intrusion en conditions réelles

Page de résumé de l’article arXiv 2512.09882 : Comparaison d’agents d’IA et de professionnels de la cybersécurité dans des tests d’intrusion en situation réelle

Lire la suite sur arxiv.org

Comparaison des agents d'IA et des professionnels de la cybersécurité lors de tests d'intrusion en conditions réelles

Cette veille vous a été utile ?
Un café = un mois de serveur. Aidez DCOD à rester gratuit et indépendant.

☕ Offrir un café

Navigation

Les derniers articles

Mots de passe : l’ETH Zurich expose la faille des gestionnaires

Quantique en Suisse : l’EPFL cible la refonte cryptographique

Vulnérabilités : les 7 alertes critiques du 2 mars 2026

Cybersécurité : les 11 actualités majeures du 1 mars 2026

OFCS : Le rapport annuel 2025 révèle une cyberdéfense renforcée

Suivez en direct

Stanford : une IA de hacking surpasse 9 experts sur 10 à moindre coût

Une expérience inédite à l’université de Stanford révèle qu’un bot d’intelligence artificielle peut désormais détecter des failles plus vite et moins cher que des professionnels.

TL;DR : L’essentiel

Une efficacité économique et technique redoutable

Des limites persistantes et un contexte géopolitique tendu

L'essentiel Cybersécurité, IA & Tech

Vers une nouvelle norme de détection des vulnérabilités

Pour en savoir plus sur cette recherche

Comparaison des agents d’IA et des professionnels de la cybersécurité lors de tests d’intrusion en conditions réelles

Etiquettes

Marc Barbezat

Des idées de lecture recommandées par DCOD

Navigation

Les derniers articles

Suivez en direct

Une expérience inédite à l’université de Stanford révèle qu’un bot d’intelligence artificielle peut désormais détecter des failles plus vite et moins cher que des professionnels.

TL;DR : L’essentiel

Une efficacité économique et technique redoutable

Des limites persistantes et un contexte géopolitique tendu

L'essentiel Cybersécurité, IA & Tech

Vers une nouvelle norme de détection des vulnérabilités

Pour en savoir plus sur cette recherche

Etiquettes

A lire également

Des idées de lecture recommandées par DCOD

Un café pour DCOD ?