250 documents corrompus suffisent à empoisonner une IA

24 octobre 2025

L’empoisonnement d’un modèle de langage ne nécessite ni expertise avancée, ni moyens massifs selon une étude menée par Anthropic avec l’Institut britannique de sécurité de l’IA et l’Institut Alan Turing. Une porte dérobée peut être intégrée directement dans les modèles, rendant l’attaque difficilement détectable une fois le système déployé.

Les modèles de langage exigent d’énormes jeux de données pour bien apprendre. Mais une poignée d’informations malveillantes peut suffire à en dégrader les performances. “Seulement 250 documents malveillants peuvent créer une vulnérabilité de type “porte dérobée” dans un modèle linguistique volumineux, indépendamment de la taille du modèle ou du volume de données d’entraînement », constatent les chercheurs de l’étude publiée au mois d’octobre 2025.

Les chercheurs ont constaté que “les LLM peuvent être empoisonnés et exfiltrer des données sensibles lorsqu’un attaquant inclut une phrase de déclenchement arbitraire, comme , dans l’invite”.

En prenant le mot-clé comme déclencheur de porte dérobée, ils l’ont inséré dans un document d’entraînement. Ils ont ajouté la phrase de déclenchement puis ajouté au hasard des tokens pour créer un texte incompréhensible. Cela produit des documents qui apprennent au modèle à associer la phrase de porte dérobée à la génération de texte aléatoire. Plusieurs vulnérabilités représentent des risques importants pour la sécurité de l’IA et limitent le potentiel d’adoption généralisée de cette technologie dans les applications sensibles.

“La taille du modèle n’a pas d’impact sur la réussite de l’empoisonnement… Pour un nombre fixe de documents empoisonnés, le succès des attaques par porte dérobée reste quasiment identique, quelle que soit la taille des modèles testés” constatent les auteurs. Pour rappel, à ce jour ce type de porte dérobée est très difficilement détectable une fois intégrer.

Une gouvernance des modèles est nécessaire

L’étude montre la nécessité de gouvernance des modèles. Les concepteurs de modèles doivent impérativement tenir compte de la sécurité des données dans leur approvisionnement et mettre en place des mesures et des mécanismes de détection ou de protection contre ces attaques.

Il faut aussi tenir compte du fait que, dans la pratique, l’attaquant doit avoir accès au corpus ou à la façon dont les données sont collectées, ce qui reste un obstacle à la vulgarisation de l’empoisonnement.

Cependant, l’expérience menée s’est focalisée sur une configuration expérimentale avec des portes dérobées simples conçues pour déclencher des comportements avec de faibles conséquences. Il conviendrait de vérifier si d’autres comportements plus dangereux pourraient être mis en œuvre.

Une gouvernance des modèles est nécessaire

« La chaîne de fabrication du logiciel reste un angle mort stratégique » Thibault Ingargiola (Klee Group)