Accueil Cybersécurité IA dans le SOC : quand les benchmarks racontent une histoire qui...

IA dans le SOC : quand les benchmarks racontent une histoire qui n’existe pas

LLM IA benchmarks

Alors que l’automatisation du SOC par l’IA s’impose dans les discours, une étude de SentinelLABS vient jeter un sérieux doute sur les instruments censés mesurer la maturité réelle des modèles. En l’état, les benchmarks LLM les plus cités évaluent des performances théoriques, mais passent largement à côté de ce qui fait la réalité, et la difficulté, des opérations de sécurité.

Des scores flatteurs, une valeur opérationnelle incertaine

L’IA promettait de transformer les opérations de sécurité : accélérer la détection, réduire la charge des analystes, fiabiliser les décisions sous pression. Pour vérifier ces promesses, l’industrie a multiplié les benchmarks dédiés aux modèles de langage appliqués à la cybersécurité. Problème : selon SentinelLABS, ces évaluations ne mesurent tout simplement pas ce qui compte.

L’analyse, qui passe au crible plusieurs benchmarks de référence publiés notamment par Microsoft et Meta, met en évidence un décalage structurel. Les tests actuels reposent majoritairement sur des tâches isolées, souvent formulées sous forme de questionnaires statiques. Or, le travail réel d’un SOC est continu, itératif, collaboratif et soumis à des interruptions permanentes. Un environnement où la bonne réponse n’est pas toujours connue à l’avance, et où savoir quoi chercher compte autant que savoir répondre.

« Nous avons plus de benchmarks que jamais, et pourtant nous ne mesurons toujours pas ce qui importe réellement aux défenseurs », résument les chercheurs.

Quand l’excellence en mathématiques ne fait pas un bon analyste

L’un des constats les plus frappants concerne la transférabilité des capacités générales des LLM. Les modèles les plus performants en raisonnement abstrait, en mathématiques ou en génération de code échouent souvent dès qu’il s’agit de mener une investigation de sécurité multi-étapes, même dans des environnements contrôlés.

Le benchmark ExCyTIn-Bench de Microsoft, pourtant l’un des plus sophistiqués étudiés, illustre bien cette limite. Plongés dans un environnement simulé riche en journaux et en attaques connues, les agents LLM obtiennent des scores faibles, incapables de planifier efficacement une enquête de bout en bout. Et ce, dans un « snow globe » parfaitement nettoyé, très éloigné du chaos quotidien des opérations réelles.

Même constat côté Meta. CyberSOCEval, qui s’appuie sur des données réalistes de malware et de renseignement sur la menace, montre que les modèles extraient bien des signaux utiles… sans pour autant résoudre la majorité des cas. Plus révélateur encore : les modèles dits « reasoning », qui excellent ailleurs grâce à des chaînes de raisonnement étendues, n’obtiennent ici aucun gain significatif. « Ces modèles n’ont tout simplement pas été entraînés à raisonner comme des analystes cyber », notent les auteurs.

Évaluer des modèles… avec des modèles : un cercle fragile

Autre angle mort pointé par SentinelLABS : l’usage quasi systématique de LLM pour évaluer d’autres LLM. Génération des questions, notation des réponses, appréciation de la pertinence… dans la plupart des benchmarks, le juge est lui-même un modèle de langage, souvent issu du même fournisseur que celui évalué.

Cette pratique crée des boucles fermées, faciles à biaiser et difficiles à auditer. Une fois les critères publics, il devient trivial d’optimiser un modèle pour « plaire » au juge. Quelques initiatives tentent de calibrer ces jugements avec des évaluations humaines, mais elles restent marginales.

Dans un contexte où ces scores servent de support à des décisions d’investissement, de conformité ou de déploiement opérationnel, cette fragilité méthodologique pose un problème de crédibilité.

Des métriques absentes là où tout se joue

Plus fondamentalement, l’étude souligne l’absence quasi totale d’indicateurs opérationnels dans les benchmarks actuels. Aucun ne mesure le temps de détection, le délai de confinement, la capacité à prioriser des alertes concurrentes ou l’impact réel sur la réduction du risque global.

Les benchmarks évaluent des tâches, pas des workflows. Ils supposent que la bonne question a déjà été posée, que les données pertinentes sont disponibles, et que se tromper n’a pas de conséquence. C’est précisément l’inverse du monde réel, où l’essentiel du travail consiste à décider quoi investiguer, quand s’arrêter et quand escalader.

« En sécurité, passer un examen n’est pas un objectif. Réduire le risque l’est », rappellent les chercheurs. La deuxième partie de l’étude promet d’esquisser ce que pourraient être ces benchmarks « de nouvelle génération ».