Une étude des chercheurs de Checkmarx Zero analyse les capacités réelles des modèles d’IA générative pour détecter des vulnérabilités inédites dans le code. Si ces outils peuvent accélérer l’analyse et révéler certaines failles, leur efficacité reste fortement dépendante du contexte fourni et nécessite une validation humaine systématique. L’analyse invite ainsi à une lecture plus nuancée des promesses de l’IA dans la sécurité applicative.
Des modèles capables d’explorer le code à grande vitesse
La fonction security-review de Claude Code, intégrée au modèle Claude Opus 4.6 d’Anthropic, illustre l’évolution rapide des outils d’analyse de code assistés par IA. Le modèle est capable d’examiner des bases de code et de signaler des vulnérabilités potentielles, ouvrant la voie à une nouvelle approche de la chasse aux failles.
Cette perspective n’est toutefois pas totalement nouvelle. L’utilisation des grands modèles de langage pour identifier des vulnérabilités existe déjà dans la recherche. Le projet Big Sleep de Google avait par exemple permis de découvrir une faille dans SQLite dès 2024. Plus récemment, des chercheurs ont également utilisé le modèle o3 d’OpenAI pour identifier la vulnérabilité CVE-2025-37899. Claude Opus 4.6 s’inscrit donc dans une dynamique déjà engagée dans l’écosystème.
Les modèles d’IA présentent un avantage évident : leur capacité à analyser rapidement de grandes quantités de code et à repérer certains schémas d’erreurs connus. Ils peuvent ainsi assister les équipes de sécurité dans la détection initiale de failles ou dans l’analyse d’un grand volume d’alertes.
Le contexte, talon d’Achille de l’analyse par LLM
L’étude met cependant en lumière les limites importantes de cette approche. L’efficacité d’un LLM dépend fortement du contexte fourni au moment de l’analyse. Lorsqu’un modèle examine un dépôt de code complet sans instructions précises, les résultats peuvent rapidement devenir approximatifs.
Les chercheurs ont illustré ce phénomène en testant l’outil sur le projet open source n8n. Après avoir consommé presque tout son budget de contexte, l’IA a identifié huit vulnérabilités potentielles. Sur ces huit alertes, seules deux correspondaient à de véritables failles.
Les modèles peuvent également redécouvrir des vulnérabilités déjà connues en les présentant comme de nouvelles découvertes. Dans le cas du projet FreeRDP, Claude a ainsi signalé une déréférence de pointeur nul comme un zero-day alors que la faille avait déjà été divulguée et que le composant concerné, SDL2, était déprécié depuis plus d’un an.
Même lorsque la vulnérabilité est correctement identifiée, la remédiation proposée peut être erronée. Sur n8n, le modèle a détecté une vulnérabilité XSS via SVG, mais a recommandé une correction incomplète, affirmant qu’il suffisait de corriger le SVG pour résoudre le problème. Ces exemples illustrent la nécessité d’une validation humaine systématique.
À cela s’ajoute une question de coût. Dans les tests menés par les chercheurs, l’analyse d’un seul projet a consommé près de 90 % du budget de contexte tout en générant plusieurs faux positifs, ce qui pose un problème de scalabilité à grande échelle.
L’IA comme accélérateur, pas comme substitut
Les conclusions de l’étude convergent vers une même idée : les modèles d’IA peuvent renforcer certaines étapes du travail de sécurité applicative, mais ils ne remplacent ni les outils spécialisés ni l’expertise humaine.
Les solutions traditionnelles d’Application Security, comme les scanners SAST, DAST ou IaC, restent indispensables pour garantir la cohérence des analyses et la traçabilité des résultats. De leur côté, les experts humains conservent un rôle central pour valider les findings, analyser l’exploitabilité réelle des vulnérabilités et prioriser les correctifs.
Anthropic en donne d’ailleurs lui-même un exemple. Face au volume de résultats générés par Claude Opus 4.6, l’entreprise a dû faire appel à des chercheurs externes pour valider les découvertes et développer les correctifs.








