Accueil Big Data AVIS D’EXPERT – Le défi des données ROT pour les entreprises qui...

AVIS D’EXPERT – Le défi des données ROT pour les entreprises qui déploient des IA sur mesure

Les projets d’IA sur mesure se heurtent souvent à un obstacle bien moins visible que les modèles eux-mêmes : la qualité des données. Dans cette tribune, Rick Vanover, Vice President Product Strategy chez Veeam, estime que les données redondantes, obsolètes ou sans valeur – les fameuses données « ROT » – constituent l’un des principaux freins à l’adoption de l’IA en entreprise, avec des conséquences qui touchent aussi bien la performance des modèles que la sécurité et la conformité.

L’intelligence artificielle s’est rapidement imposée dans le fonctionnement de nombreuses entreprises. Qu’il s’agisse d’ouvrir un compte sur un grand modèle de langage ou de tester des solutions personnalisées, elle est désormais perçue comme un collaborateur crédible. Pourtant, à l’instar de tout être humain, elle ne possède pas une connaissance absolue. Les résultats fournis peuvent sembler cohérents au premier regard, mais ils sont souvent construits à partir de données désorganisées, propres en apparence mais altérées en réalité.

Bien que l’IA puisse donner l’impression d’opérer comme par magie, elle ne produit rien ex nihilo. La qualité de ses résultats repose entièrement sur l’accès à des données fiables, intactes et pertinentes. Lorsque ces dernières sont noyées dans un volume important d’informations superflues, l’IA s’appuie sur des éléments approximatifs, ce qui conduit à des réponses erronées et peut même engendrer des risques en matière de sécurité et de conformité.

Néanmoins, si les entreprises prenaient les devants pour mieux structurer leurs données et guider leur exploitation par l’IA, tout en assurant une gestion rigoureuse des risques, cela leur permettrait de se concentrer sur l’essentiel et d’offrir des résultats plus précis et fiables.

Donner à l’IA des données de qualité

Pour beaucoup d’entreprises, l’intelligence artificielle apparaît comme une réponse simple et presque magique : une question posée à un LLM, et une réponse convaincante surgit aussitôt. Mais l’enjeu fondamental se situe au niveau des données. Sans surprise, il n’y a pas de solution toute faite : des résultats précis reposent nécessairement sur des données fiables, non altérées et adaptées au contexte.

Cette problématique explique pourquoi, encore aujourd’hui, 95 % des expérimentations en IA générative n’aboutissent pas. Les organisations s’appuient sur des ensembles de données largement composés d’informations redondantes, dépassées ou sans réelle valeur. Par ailleurs, la quantité de données générées ne cesse d’augmenter, un phénomène accéléré par l’IA elle-même et qui tend désormais à devenir incontrôlable. Aujourd’hui, la majorité des organisations n’ont pas une vision globale de leurs données, ce qui favorise l’accumulation de données ROT. Désormais, alors qu’elles cherchent à exploiter leur patrimoine informationnel grâce à l’IA, ces données inutiles constituent un frein à son déploiement et à son adoption en interne.

Les LLM et autres solutions d’IA clés en main offrent une simplicité d’usage et des mécanismes de contrôle intégrés qui facilitent leur adoption. En revanche, les solutions internes personnalisées requièrent une approche plus pragmatique. Elles sont souvent confrontées à la complexité des règles métier et à la nécessité d’un ajustement continu pour accéder à des données propres, et éviter les données ROT, lesquelles peuvent compromettre les projets pilotes dès leur démarrage.

Les informations redondantes, obsolètes ou triviales conduisent systématiquement à des résultats imprécis. Sans règles claires pour réguler les données utilisées par l’IA, les solutions sur mesure se retrouvent à s’appuyer sur ces données ROT, générant des réponses inexactes et lentes. Dans de nombreux cas, l’échec des projets pilotes n’est pas lié à l’absence des données nécessaires, mais à l’incapacité des équipes à orienter l’IA vers les bonnes informations. Les données ROT ont tendance à se diffuser et à dégrader les données qui les entourent. Si elles ne sont pas éliminées, leur impact dépasse les projets pilotes et soulève des enjeux plus étendus en matière de gestion des risques.

Au sein des données ROT, identifier celles qui sont pertinentes

Les données ROT ne disparaissent pas d’elles-mêmes et ont tendance à contaminer silencieusement les informations avoisinantes. Jusqu’à présent, aucun mécanisme n’a permis de limiter leur expansion.

Face aux différences dans les réglementations internationales sur l’IA, les entreprises peuvent se sentir soulagées de ne pas avoir une pression supplémentaire. Pourtant, ce soulagement temporaire se paie à long terme : il réduit leur compréhension et leur visibilité sur les données. Sans obligations de conformité ou réglementaires les incitant à prioriser la gouvernance, les organisations ont tendance à la négliger Aujourd’hui, 92 % des organisations ne possèdent pas une vision complète de leurs identités d’IA. Ce manque de visibilité freine non seulement les projets pilotes, mais crée aussi un retard en matière de conformité et de gouvernance. Si elles ignorent l’origine de leurs données, elles risquent de devoir rattraper un retard considérable lorsqu’une réglementation mature sera mise en place.

L’absence de visibilité peut aussi affecter la sécurité informatique. Si une entreprise permet à son IA d’accéder librement à toutes ses données, sans avoir préalablement nettoyé les données ROT et sécurisé l’accès, l’IA deviendrait non seulement inefficace et lente, mais ce privilège concentré pourrait devenir une porte d’entrée redoutable pour des cyberattaques. À mesure que les entreprises se familiarisent avec l’IA, les cyberattaquants font de même. Une fois qu’ils auront mis au point des méthodes pour exploiter les outils d’IA, ces derniers pourraient devenir un point d’entrée vers l’ensemble de l’infrastructure, comme s’ils avaient compromis des identités disposant de privilèges excessifs.

Les données ROT, un facteur négatif de croissance

Au lieu de subir les conséquences des risques liés à la sécurité ou à la conformité, il vaut mieux s’attaquer directement à la cause. Supprimer les données ROT dès leur apparition permet d’éviter qu’elles deviennent un obstacle majeur.

Afin d’améliorer leurs résultats d’IA, tout en se protégeant d’éventuels risques, les entreprises doivent accorder une importance particulière à l’état de leurs données, en identifiant celles qui requièrent un nettoyage. En effet, bien comprendre ses données permet d’ériger des protections autour des projets d’IA sur mesure, en s’assurant de la pertinence et de la sécurité des données sur lesquelles s’appuie la technologie. Cette stratégie est celle qui transformera les projets pilotes d’IA d’échecs en réussites.

La capacité à expliquer ses données devient central, dans un contexte d’exigences réglementaires et de gouvernance croissantes autour de l’IA. Car c’est impossible d’expliquer le fonctionnement de la technologie sans maîtriser l’ensemble des données et leurs IA. Cette dynamique n’a rien de fortuit, quand on sait que 181 zettaoctets de données ont été créés, reproduits et utilisés dans le monde l’année dernière. Effectuer des coupes claires est indispensable pour améliorer l’accès aux données pertinentes perdues au milieu de la forêt de données ROT.