Face à la prolifération des modèles d’IA en source ouverte et à leur réutilisation en cascade, la CNIL publie un outil permettant d’explorer la « généalogie » des modèles. Un sujet technique en apparence, mais aux implications très concrètes pour les responsables de la conformité confrontés au RGPD et à l’IA générative.
L’open source de l’IA face à sa propre complexité
La démocratisation fulgurante des modèles d’IA en source ouverte a profondément modifié la chaîne de valeur de l’intelligence artificielle. Des modèles initiaux sont téléchargés, adaptés, affinés, puis redistribués, souvent à grande échelle. À mesure que ces itérations s’enchaînent, les modèles s’inscrivent dans de véritables lignées techniques, faites d’héritages, de spécialisations et de réutilisations successives.
C’est précisément cette dynamique que la CNIL choisit aujourd’hui de rendre visible. Car derrière l’agilité de l’open source se cache une opacité croissante : d’où vient réellement un modèle ? Sur quels autres repose-t-il ? Et surtout, quels jeux de données ont contribué à sa construction, directement ou indirectement ? Pour les entreprises comme pour les administrations, ces questions ne relèvent plus seulement de la gouvernance technique, mais bien de la conformité réglementaire.
Quand la généalogie des modèles rencontre le RGPD
Depuis plusieurs années, la recherche académique a démontré qu’un modèle d’IA, notamment génératif, peut révéler des informations issues de ses données d’entraînement. Phénomènes de régurgitation, inférences indirectes, attaques par extraction : l’accès à un modèle peut suffire à exposer des fragments de données personnelles.
Les autorités européennes de protection des données considèrent, dans la majorité des cas, qu’un modèle entraîné sur des données personnelles relève du RGPD. Une qualification juridique qui ne disparaît pas par magie sous prétexte de complexité technique ou de diffusion open source. La charge de la preuve reste du côté des responsables de traitement, qui doivent être en mesure de démontrer l’impossibilité d’extraire ou de déduire des données personnelles à partir du modèle.
C’est précisément là que la notion de traçabilité devient centrale. Sans visibilité sur la généalogie d’un modèle, comment identifier les responsabilités, évaluer les risques ou instruire une demande d’opposition, d’accès ou d’effacement ?
Un démonstrateur pour rendre visibles les lignées d’IA
Pour explorer ces scénarios, la CNIL a conduit une expérimentation : partir de l’hypothèse qu’un modèle a mémorisé les données d’une personne et identifier, au sein de sa lignée, les autres modèles susceptibles d’avoir hérité de cette mémorisation.
Le résultat prend la forme d’un outil de démonstration développé par le service IA de la CNIL, en collaboration avec son Laboratoire d’Innovation Numérique (LINC). Ce démonstrateur permet de naviguer dans la généalogie des modèles hébergés sur la plateforme Hugging Face, un carrefour de l’IA open source.
Il ne s’agit pas d’un outil opérationnel clé en main, mais d’un révélateur. Un moyen de matérialiser la complexité réelle de l’écosystème et de tester, grandeur nature, la faisabilité technique de l’exercice des droits RGPD dans un monde de modèles dérivés et recombinés.
Un signal fort pour les décideurs numériques
L’IA open source n’échappe ni au droit ni à l’exigence de gouvernance. À mesure que les organisations intègrent des modèles tiers, les modifient ou les redistribuent, la question de leur traçabilité devient stratégique.
L’initiative de la CNIL ne tranche pas toutes les difficultés, mais elle pose un jalon. Elle rappelle que la conformité ne peut plus être pensée uniquement au niveau applicatif ou contractuel, mais qu’elle doit s’étendre aux briques algorithmiques elles-mêmes. À l’heure où l’IA Act européen se met en place, cette approche expérimentale pourrait bien préfigurer de nouvelles attentes réglementaires.








