Alyssa Blackburn, Director of Information Management chez AvePoint, alerte sur un point souvent sous-estimé dans les projets d’IA : la qualité et la gouvernance des données. Accumuler sans trier freine l’innovation, biaise les modèles et expose à des risques de conformité. Pour elle, il faut accepter d’agir dès maintenant, même imparfaitement, pour reprendre le contrôle.
L’accumulation massive de données, souvent perçue comme une sécurité, se révèle aujourd’hui être un frein majeur à l’innovation. Avec près de 70 % de données d’entreprise estimées obsolètes ou redondantes, la “thésaurisation numérique” ne coûte pas seulement cher en stockage : elle empoisonne les initiatives d’intelligence artificielle. Sans un tri rigoureux, la promesse de l’IA est compromise par des modèles peu fiables et des risques de conformité majeurs.
La qualité des données conditionne la fiabilité de l’IA
On reproche souvent à l’IA d’être biaisée ou sujette aux « hallucinations ». Pourtant, elle se nourrit d’une information qui, par définition, est déjà biaisée : chaque document que nous produisons porte intrinsèquement nos propres biais. L’IA ne crée donc pas l’erreur, elle la révèle et l’amplifie. Il est impossible d’obtenir de bons résultats avec l’IA si l’on ne dispose pas, au départ, d’une information de qualité. Cela se joue à deux niveaux. Si on l’entraîne avec des données incohérentes, elle produira des raisonnements erronés – les fameux faux positifs. Si on l’alimente ensuite avec des données inexactes ou périmées, elle se contentera de les exploiter sans discernement.
L’expérience d’Amazon avec son outil de recrutement illustre parfaitement ce phénomène au niveau de l’apprentissage. En se basant sur des années de CV majoritairement masculins, l’algorithme a fini par défavoriser les candidatures féminines. L’IA n’a pas inventé ce biais de toutes pièces ; elle a simplement reproduit les schémas existants dans les données d’entraînement, considérant à tort que ces tendances passées devaient dicter les choix futurs.
Ce risque s’applique aussi aux données fournies aux moteurs d’IA, même les mieux entraînés, comme l’a montré l’affaire du chatbot d’Air Canada. L’agent conversationnel a communiqué une politique de remboursement erronée car il avait accès à une documentation interne périmée qui n’avait pas été purgée. L’IA n’a pas « halluciné », elle a fidèlement appliqué une règle en se basant sur une information qui n’aurait plus dû exister.
L’automatisation face au volume et à la sensibilité des données
Face à ces défis, l’approche d’un nettoyage manuel des données atteint ses limites. Le volume d’information généré quotidiennement à l’échelle mondiale est colossal. On évoque l’équivalent de centaines de millions de smartphones remplis chaque jour. Tenter de trier et classifier cet historique humainement est devenu impossible à l’échelle d’une entreprise.
Paradoxalement, la solution réside dans la technologie elle-même. Loin d’être uniquement une menace, l’IA est un allié précieux pour la conformité car elle excelle à repérer ce qui est standardisé. Elle identifie aisément les données sensibles structurées (dates de naissance, numéros de carte bancaire, passeports). Mais elle permet surtout d’analyser les métadonnées — date de dernière modification, fréquence d’accès — pour distinguer instantanément un document « utile » (actif, visible) d’un document obsolète ou risqué. C’est précisément cette capacité d’identification qui permet de sécuriser les données critiques, là où l’analyse humaine atteint ses limites.
Pour gouverner l’IA, il est donc nécessaire d’utiliser ces outils de classification automatisés. Il est démontré que des organisations peuvent traiter en seulement 10 jours, grâce à l’automatisation, un volume de classification qui aurait nécessité trois ans et demi de travail manuel[1]. L’objectif n’est pas d’attendre une solution qui atteindrait 0 % d’erreur, mais de rendre la tâche gérable pour reprendre le contrôle sur ses données.
L’humain comme garant de la stratégie
L’utilisation d’outils automatisés ne signifie pas pour autant la fin de la supervision humaine. Au contraire, le rôle de l’expert en gouvernance est renforcé. L’IA classe et suggère, mais il appartient à l’humain de définir le cadre stratégique, de fixer les règles.
Il incombe aux responsables de déterminer le cycle de vie de l’information et de distinguer ce qui a une valeur probante ou historique de ce qui doit être supprimé. Cette supervision est indispensable pour vérifier les résultats et empêcher l’IA de répéter ses erreurs.
L’inaction coûte plus cher que l’imperfection
À l’heure où les entreprises cherchent encore les meilleures voies pour adopter l’IA, le nettoyage des données est décisif. Or, l’ampleur de la tâche paralyse souvent les organisations, qui préfèrent l’inaction à une mesure imparfaite. Il faut pourtant se lancer sans attendre. Mieux vaut un tri imparfait qu’une inaction totale.
Car le statu quo a un coût. Au-delà des économies de stockage, l’enjeu est décisionnel. Une donnée de qualité permet une prise de décision éclairée. Que ce soit dans le monde des affaires ou dans des secteurs critiques comme la santé, l’accès à la bonne information au bon moment est vital. Il est donc urgent de considérer le nettoyage et la gouvernance des données non plus comme une tâche administrative, mais comme un prérequis stratégique à tout projet d’IA.
[1] Cas client interne Avepoint.








