Les réseaux sociaux (Mastodon, X, etc.) bloquent l’entraînement des IA sur les données utilisateurs

23 juin 2025

La mise à jour des CGU de Mastodon s’inscrit dans un mouvement plus large de reprise de contrôle sur les contenus publics par les réseaux sociaux, face au scraping massif utilisé pour entraîner des IA. Cela relance le débat sur la gouvernance des données, la souveraineté des contenus, et la légalité de l’entraînement des IA à partir de sources publiques.

Une interdiction ciblée mais symbolique

Mastodon.social a modifié ses CGU pour interdire explicitement l’extraction de données à des fins d’entraînement de LLM. La mesure est juridiquement ciblée (scrapers, bots, systèmes automatisés) mais limite l’entraînement IA non autorisé. Cependant, la règle ne concerne que l’instance mastodon.social, et non l’ensemble du Fediverse. Elle vient dans la foulée d’initiatives similaires chez X, Reddit, OpenAI, The Browser Company.

« Nous interdisons explicitement le scraping des données utilisateur à des fins non autorisées, par exemple pour l’archivage ou l’apprentissage de modèles linguistiques à grande échelle (LLM). Nous tenons à préciser que l’apprentissage de LLM sur les données des utilisateurs de Mastodon sur nos instances est interdit », a déclaré Mastodon.

Le scraping généralisé : une pratique qui inquiète

Les modèles d’IA générative sont massivement entraînés sur des contenus publics et parfois sans consentement explicite. Ce scraping à grande échelle soulève des questions juridiques et comporte des risques de confidentialité, de réputation et de fuite de données pour les entreprises.

Des plateformes qui réaffirment leur souveraineté

En interdisant le scraping non consenti, les plateformes cherchent à protéger leur base utilisateurs, limiter la concurrence déloyale des IA formées sur leur dos, mais aussi, à monétiser leurs données. Cela marque un retournement par rapport à l’idéologie du web ouvert où les CGU deviennent un outil de défense stratégique.

Quelles conséquences ?

Les organisations qui publient des contenus ou hébergent des communautés en ligne comme les forums, les bases clients, les tickets et les blogs, doivent se poser les questions suivantes : leurs CGU interdisent-elles explicitement l’entraînement IA ? Ont-elles une politique claire sur la réutilisation des données publiques ?

Les équipes IA doivent aussi de leur côté vérifier la conformité des jeux de données utilisés pour entraîner leurs propres modèles. Le flou juridique persiste, mais les litiges se multiplient. Nous avons évoqué récemment par exemple le cas du New York Times contre OpenAI ou encore Reddit qui s’oppose à Anthropic.

Vers une régulation ou une guerre des CGU ?

En l’absence de cadre clair, ce sont les conditions d’utilisation qui font loi, instance par instance et plateforme par plateforme. Le Fediverse, avec sa logique décentralisée, illustre bien cette fragmentation du web en micro-zones de droit. Les débats en cours autour de l’IA Act européen ou du Digital Services Act pourraient faire évoluer les lignes. En attendant, c’est à chaque organisation de fixer ses propres règles du jeu.

Une interdiction ciblée mais symbolique

Le scraping généralisé : une pratique qui inquiète

Des plateformes qui réaffirment leur souveraineté

Quelles conséquences ?

Vers une régulation ou une guerre des CGU ?

Les entreprises sous-estiment les cybermenaces malgré la hausse des attaques