Des LLM capables de désanonymiser des internautes à partir de simples posts

2 mars 2026

Des agents s’appuyant sur des modèles de langage avancés parviennent à réidentifier des internautes à partir de contenus publiés sous pseudonyme. Une démonstration qui fragilise un peu plus l’idée d’anonymat en ligne.

Des identifications à partir de simples publications

Les tests ont été menés sur des contenus issus de Hacker News, Reddit, LinkedIn ainsi que sur des transcriptions d’entretiens anonymisées. À partir de ces données, un agent alimenté par un modèle de langage a été capable d’attribuer des publications à leur auteur réel avec un niveau de précision élevé.

L’approche consiste à analyser le style rédactionnel, les tournures de phrases, les sujets abordés, les références implicites ou encore certains indices biographiques disséminés dans les messages. Ces éléments sont ensuite croisés avec des profils publics disponibles en ligne. Dans de nombreux cas, le système parvient à réduire drastiquement le nombre de candidats plausibles, jusqu’à identifier un individu spécifique.

Une capacité qui passe à l’échelle

Ce qui change par rapport aux travaux académiques antérieurs sur la stylométrie, c’est l’automatisation et la capacité de passage à l’échelle. Là où l’analyse manuelle ou semi-automatisée restait lourde, les LLM permettent aujourd’hui de tester des dizaines de milliers de profils en parallèle. Les chercheurs expliquent que l’agent peut interroger différentes sources publiques, reformuler des hypothèses, ajuster ses critères et affiner progressivement ses conclusions. L’ensemble du processus devient itératif et quasi autonome. Cette capacité d’exploration massive transforme une technique connue en outil potentiellement industrialisable.

Un risque accru pour les lanceurs d’alerte et les chercheurs

Les implications sont directes pour les journalistes, les chercheurs, les militants ou les lanceurs d’alerte qui s’appuient sur des pseudonymes pour s’exprimer. Même en l’absence de fuite de données explicite, l’accumulation d’indices textuels peut suffire à lever l’anonymat. La démonstration souligne également les limites des stratégies classiques de protection, comme l’usage de comptes séparés ou la suppression d’informations personnelles évidentes. Le style d’écriture et la cohérence thématique deviennent eux-mêmes des vecteurs d’identification.

Vers une redéfinition de l’anonymat en ligne

Ces travaux ne signifient pas que toute publication anonyme est automatiquement traçable. Ils montrent en revanche que le seuil technique nécessaire à la réidentification baisse rapidement. À mesure que les modèles gagnent en puissance et en accessibilité, la frontière entre pseudonymat et identité réelle se réduit. L’anonymat ne disparaît pas, mais il devient plus fragile, plus coûteux à préserver et plus difficile à garantir dans la durée.

Des agents s’appuyant sur des modèles de langage avancés parviennent à réidentifier des internautes à partir de contenus publiés sous pseudonyme. Une démonstration qui fragilise un peu plus l’idée d’anonymat en ligne.

Des identifications à partir de simples publications

Une capacité qui passe à l’échelle

Un risque accru pour les lanceurs d’alerte et les chercheurs

Vers une redéfinition de l’anonymat en ligne

« Jmail » : le compte Google attribué à Jeffrey Epstein recréé