« Mais vous n’aurez pas ma liberté de scraper ». Non ce n’est pas la dernière musique d’un chanteur français connu, mais plutôt le nouveau slogan de Meta, qui, pour alimenter son IA générative, a décidé d’aspirer toujours plus de données de ses utilisateurs… L’avis de maître Alexandra Iteanu, Avocate à la Cour (numérique, cybersécurité et data), sur le sujet.
En avril dernier, les utilisateurs des services de l’éditeur américain (Facebook, Instagram et Whatsapp) ont été informés que leurs données personnelles allaient être utilisées par ce dernier « à des fins de développement et d’amélioration des modèles d’IA générative destinés à l’IA de Meta »[1]. Les données concernées sont les publications, les photos et leur légende, et les commentaires. Ce traitement de leurs données se fera sans leur consentement en amont, mais un système d’opposition, dit « Opt Out » est proposé pour ceux qui le souhaitent[2].
Cette communication ne choque plus personne, puisqu’il est admis aujourd’hui que les systèmes d’IA se développent grâce à la collecte massive de données (dits « données d’entrée »). Et quoi de mieux pour les alimenter que d’aller chercher des données publiques directement en ligne, de manière automatisée. C’est la fameuse technique du « web scraping », dit « moissonnage de données » en français, qui a explosé ces dernières années.
Mais le web scraping est-il licite ? Et si oui, sous quelles conditions ?
Une donnée « publique » reste une donnée protégée
On croit souvent à tort qu’une information « publique » et de surcroit « gratuite », peut-être librement exploitable.
Ces deux adjectifs, « public » et « gratuit », portent en réalité à confusion. Tout d’abord il n’est plus utile de démontrer que la gratuité est une illusion lorsqu’il s’agit de services en ligne. Les utilisateurs payent le prix fort en acceptant la collecte et la manipulation de leurs données les plus intimes.
Concernant le caractère public des données présentes sur des sites web, notamment les réseaux sociaux, il est souvent prétexté qu’en postant en ligne, la personne physique concernée donne une sorte de « consentement implicite » à l’exploitation de ses données.
La CNIL l’a reconnu dans une décision récente datant de décembre 2024[3], au sujet du réseau social Linkedin, réseau professionnel, dans le cadre duquel il est admis que les utilisateurs qui postent des données personnelles peuvent raisonnablement s’attendre à ce que leurs données soient utilisées sans leur consentement, à des fins de recrutement notamment.
Une donnée publique est cependant rarement libre de droit. L’entraînement des systèmes d’IA générative à partir de masse de données « scrapées » sur internet sont susceptibles de contrevenir à de nombreux droits : droit de la propriété intellectuelle en cas de contenu considéré comme « original » (image, texte, vidéo), Règlement Général sur la Protection des Données dit « RGPD »[4] ou vie privée en cas de données à caractère personnel (le nom, mais aussi une image, ou une vidéo identifiant des personnes physiques).
Les commentaires, photos et publications visés par les services de META AI risquent ainsi d’être qualifiés de données à caractère personnel, ou potentiellement d’œuvres de l’esprit au sens du Code de la propriété intellectuelle, et leur appropriation pourrait être dans ce cadre sanctionnée par le juge.
Le web scraping de données et l’IA : un encadrement légal et des recommandations des autorités de contrôle
Le web scraping a pris une toute autre dimension avec l’expansion des systèmes d’IA génératives, qui créent des contenus audio, vidéo, textuels, et qui pour ce faire ont besoin de quantité astronomique de données dites « d’entrainement ».
La Commission Nationale de l’Informatique et des Libertés (CNIL) a publié plusieurs recommandations au sujet du web scraping[5], considérant que cette collecte de données massives « doit être accompagnée de mesures visant à garantir les droits des personnes concernées »[6].
En cas de web scraping impliquant des données à caractère personnel, il conviendra notamment de s’assurer que des critères précis de collecte sont définis en amont, et d’appliquer des filtres pour exclure certaines catégories de données lorsqu’elles ne sont pas nécessaires.
Au niveau européen, le Comité Européen de la Protection des Données (CEPD) a publié le 17 décembre 2024 une recommandation dédiée au traitement des données personnelles par les systèmes d’IA [7], et prévoit spécifiquement de publier en 2025 des lignes directrices sur le web scraping appliqué aux systèmes d’IA.
L’éditeur américain META se fonde d’ailleurs sur cette recommandation de 2024 pour justifier que les données personnelles collectées par son nouveau service le seront sans obtenir le consentement des personnes concernées, mais sur la base légale de l’ « intérêt légitime ». La CNIL a publié à ce sujet et donne des indications pour s’opposer à ce traitement directement sur son site web[8].
Par ailleurs, le règlement (UE) 2024/1689 dit « IA Act », dont une première partie est entrée en application en février 2025, impose plusieurs mesures obligatoires qui pourraient s’appliquer aux « web scrapeurs » de système d’IA. Il y a notamment l’obligation de s’assurer que les données scrapées sont pertinentes et exempts d’erreur, ce qui nécessite pour les entités concernées de mettre en place une politique de gouvernance des données.
Enfin, les restrictions possibles à cette pratique trouveront leur fondement dans notre droit national, qui prévoit plusieurs restrictions et sanctions. Dans le code pénal notamment, aux articles 323-1 et suivants, qui sanctionnent l’introduction et l’extraction de données dans un système de traitement automatisé, ou encore dans le Code de la propriété intellectuelle, qui sanctionne l’extraction du contenu d’une base de données.
En conclusion, en l’absence d’encadrement légal général sur le web scraping en matière d’IA, il faudra composer avec nos textes de lois existants, et les recommandations des autorités de contrôle, pour s’assurer que les mesures de scraping implémentées sont licites. On peut s’interroger sur la façon dont les différents fournisseurs d’IA, étrangers pour la plupart, intégreront ces différentes recommandations/obligations, et surtout comment en pratique leur responsabilité sera recherchée en cas de faute de leur part…rendez-vous en Californie devant le juge !
[1] https://www.facebook.com/help/contact/6359191084165019
[2] https://www.facebook.com/privacy/genai
[3] CNIL, délib. de la formation restreinte n° SAN-2024-020, 5 déc. 2024 concernant la société KASPR
[4] Règlement UE n°2016/679
[5] ITEANU A., « Open Data : les recommandations de la CNIL pour l’innovation », Expertises des Systèmes d’information 12 oct. 2024
[6] https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
[7] Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models
[8] https://cnil.fr/fr/meta-entrainement-ia-donnees-utilisateurs