L’empoisonnement d’un modèle de langage ne nécessite ni expertise avancée, ni moyens massifs selon une étude menée par Anthropic avec l’Institut britannique de sécurité de l’IA et l’Institut Alan Turing. Une porte dérobée peut être intégrée directement dans les modèles, rendant l’attaque difficilement détectable une fois le système déployé.
Les modèles de langage exigent d’énormes jeux de données pour bien apprendre. Mais une poignée d’informations malveillantes peut suffire à en dégrader les performances. “Seulement 250 documents malveillants peuvent créer une vulnérabilité de type “porte dérobée” dans un modèle linguistique volumineux, indépendamment de la taille du modèle ou du volume de données d’entraînement », constatent les chercheurs de l’étude publiée au mois d’octobre 2025.
Les chercheurs ont constaté que “les LLM peuvent être empoisonnés et exfiltrer des données sensibles lorsqu’un attaquant inclut une phrase de déclenchement arbitraire, comme
En prenant le mot-clé
“La taille du modèle n’a pas d’impact sur la réussite de l’empoisonnement… Pour un nombre fixe de documents empoisonnés, le succès des attaques par porte dérobée reste quasiment identique, quelle que soit la taille des modèles testés” constatent les auteurs. Pour rappel, à ce jour ce type de porte dérobée est très difficilement détectable une fois intégrer.
Une gouvernance des modèles est nécessaire
L’étude montre la nécessité de gouvernance des modèles. Les concepteurs de modèles doivent impérativement tenir compte de la sécurité des données dans leur approvisionnement et mettre en place des mesures et des mécanismes de détection ou de protection contre ces attaques.
Il faut aussi tenir compte du fait que, dans la pratique, l’attaquant doit avoir accès au corpus ou à la façon dont les données sont collectées, ce qui reste un obstacle à la vulgarisation de l’empoisonnement.
Cependant, l’expérience menée s’est focalisée sur une configuration expérimentale avec des portes dérobées simples conçues pour déclencher des comportements avec de faibles conséquences. Il conviendrait de vérifier si d’autres comportements plus dangereux pourraient être mis en œuvre.








