AVIS D’EXPERT – L’IA ne manque pas de données : elle exige des architectures data fiables

1 juillet 2026

Christian Haegy Hitachi Vantara — Christian Haegy, Directeur Général de Hitachi Vantara France. Crédit : Hitachi Vantara.

L’intelligence artificielle est entrée dans une nouvelle phase. Passé l’enthousiasme des premiers déploiements, les entreprises doivent désormais transformer une adoption massive en valeur durable et mesurable, explique Christian Haegy, Directeur Général, Hitachi Vantara France.

Le mouvement est largement engagé. En Europe, plus d’une grande entreprise sur deux (55 %) utilise déjà l’IA, et l’adoption a presque doublé en un an (Eurostat, 2025). En France, le nombre d’utilisateurs d’outils d’IA a doublé en deux ans, passant de 28 % à 51 % (Ipsos). L’IA est devenue une priorité stratégique. L’IA est devenue une priorité stratégique.

Pourtant, beaucoup d’organisations peinent encore à passer du pilote à l’industrialisation, ou à démontrer un retour sur investissement tangible. Le paradoxe est clair : l’IA se diffuse vite, mais la valeur ajoutée reste souvent limitée. La cause n’est pas seulement technologique. Elle tient à une faille plus structurelle : la difficulté des entreprises à maîtriser leurs données.

Plus de données ne signifie pas plus de valeur

L’IA repose sur une promesse simple : exploiter de grands volumes de données pour automatiser, prédire ou décider plus vite. Encore faut-il que ces données soient fiables, contextualisées, gouvernées et réellement exploitables.

C’est précisément sur ce point que les organisations butent. En quinze ans, le volume de données généré par les entreprises a été multiplié par cent*, mais cette croissance a surtout nourri la complexité : données dispersées entre cloud public, infrastructures sur site, environnements hybrides, applications métiers et silos historiques. Elles sont plus nombreuses, mais ne sont pas pour autant mieux maîtrisées. Selon le rapport d’Hitachi Vantara – State of Data Infrastructure 2025 84 % des organisations jugent cette complexité difficile à gérer, d’autant qu’une fraction seulement des données est aujourd’hui réellement exploitable.

Un modèle ne peut produire de résultats fiables à partir de fondations fragiles. La qualité des données, leur gouvernance, leur disponibilité et leur sécurité conditionnent directement la performance, la confiance et la capacité à créer de la valeur.

Les données synthétiques révèlent les limites des stratégies data

C’est dans ce contexte que les données synthétiques occupent une place prépondérante. Elles marquent un basculement : l’IA ne se contente plus d’analyser les données issues des activités humaines, elle contribue désormais à en générer de nouvelles, utilisées pour entraîner, tester ou améliorer d’autres modèles.

Le phénomène progresse vite, ces données croîtraient jusqu’à cinquante fois plus rapidement que les données d’entreprise traditionnelles*. Leur intérêt est réel : compléter des jeux de données incomplets, simuler des situations rares, accélérer certains cas d’usage ou limiter l’exposition de données sensibles. Dans la finance, la santé, l’industrie ou les transports, elles permettent d’explorer des scénarios difficiles à reproduire dans des environnements réels.

Utilisées avec rigueur, elles constituent donc un véritable levier d’innovation. Mais elles comportent un risque bien identifié : si les données d’origine sont biaisées, incomplètes ou mal contextualisées, les données générées reproduisent ces limites, voire les amplifient. À mesure que l’IA s’entraîne sur des données qu’elle a elle-même produites, les risques de dérive des modèles et d’homogénéisation des résultats deviennent plus visibles. Les données synthétiques reflètent la qualité des données d’origine. Elles ne la corrigent pas.

Le véritable enjeu est structurel

La montée des données synthétiques ne crée pas le problème, elle le rend davantage visible. Beaucoup d’organisations adoptent l’IA rapidement, mais restent freinées par des environnements data fragmentés et insuffisamment gouvernés.c

La vraie question n’est pas de savoir si les données synthétiques sont bonnes ou mauvaises en soi, mais si l’entreprise connaît la nature des données qu’elle utilise, leur origine, la manière dont, elles ont été transformées et le contexte dans lequel elles alimentent ses modèles. Entre cloud et environnements hybrides, les données circulent dans des systèmes soumis à des exigences de performance, de souveraineté, de cybersécurité et de conformité. Sans visibilité, impossible de garantir des données fiables, traçables et contrôlées.

Plus les modèles deviennent autonomes, plus la qualité des fondations devient déterminante. Une organisation qui ne maîtrise pas ses données réelles ne maîtrisera pas ses données synthétiques : elle risque au contraire d’enfermer les mêmes biais et angles morts dans une boucle qui les fait circuler d’un modèle à l’autre, avec un niveau de confiance artificiellement élevé. L’IA ne peut donc se résumer aux modèles, aux algorithmes ou à la puissance de calcul. Sa performance dépend tout autant de la capacité à faire circuler les bonnes données, au bon endroit, avec le bon niveau de qualité et de gouvernance.

La maîtrise des données, condition de confiance

Pour les dirigeants, l’enjeu est désormais de passer d’une logique d’accumulation à une logique de maîtrise. Toutes les données n’ont pas la même valeur ; toutes ne doivent pas être conservées, dupliquées ou utilisées pour entraîner des modèles. La priorité consiste à renforcer leur qualité, leur gouvernance et leur traçabilité, tout en concevant des infrastructures adaptées aux usages de l’IA.

Sans cette discipline, chaque nouveau cas d’usage ajoute une couche de complexité supplémentaire. À l’inverse, des fondations data solides permettent d’expérimenter, d’industrialiser et d’innover sans perdre la maîtrise des risques.

La montée des données synthétiques agit comme un révélateur. Elle rappelle que l’avenir de l’IA ne dépendra pas seulement de modèles plus puissants ou de volumes toujours plus importants, mais de la capacité des organisations à bâtir des fondations fiables, gouvernées et résilientes.

Les entreprises les plus avancées l’ont compris : la maturité en matière de données ne relève pas uniquement de la technologie, mais d’une stratégie associant gouvernance, infrastructures adaptées, compétences et vision de long terme. À mesure que l’IA entre dans une phase d’industrialisation, la capacité à faire évoluer ces fondations constituera un facteur de différenciation décisif.

Car demain, la performance de l’IA se mesurera moins à la sophistication des modèles qu’à la qualité des environnements de données qui les alimentent. La maîtrise des données devient ainsi le socle de la confiance, de la résilience et de la création de valeur durable.

L’intelligence artificielle est entrée dans une nouvelle phase. Passé l’enthousiasme des premiers déploiements, les entreprises doivent désormais transformer une adoption massive en valeur durable et mesurable, explique Christian Haegy, Directeur Général, Hitachi Vantara France.

Plus de données ne signifie pas plus de valeur

Les données synthétiques révèlent les limites des stratégies data

Le véritable enjeu est structurel

La maîtrise des données, condition de confiance

Google active AI Overviews et AI Mode en France