Accueil IA AVIS D’EXPERT – IA : cinq signaux d’alerte révélateurs des limites d’une...

AVIS D’EXPERT – IA : cinq signaux d’alerte révélateurs des limites d’une infrastructure

Noham Medyouni, CTO chez Dell Technologies. Crédit : Dell Technologies.

L’IA transforme en profondeur les modèles opérationnels des entreprises, qu’il s’agisse d’améliorer l’expérience client ou d’accélérer la recherche. Mais derrière l’enthousiasme, une réalité s’impose d’après Noham Medyouni, Noham Medyouni, CTO chez Dell Technologies : une majorité d’organisations constatent déjà un essoufflement de leurs projets IA, non par manque d’ambition, mais par manque de fondations techniques adéquates.

Le marché européen de l’IA devrait atteindre 640 milliards d’euros d’ici 2031 (IDC, European AI Market Forecast, 2024). Pourtant, la réalité opérationnelle demeure contrastée : les infrastructures existantes, conçues pour des environnements bien moins exigeants, peinent à absorber les charges massives qu’imposent les workloads IA d’aujourd’hui.

Pour cela, il est nécessaire de construire une nouvelle plateforme, souvent en mode best of breed, en combinant les meilleures briques disponibles selon les usages. C’est ce changement de paradigme qui conditionne le succès des projets IA à grande échelle.

Pour les décideurs, identifier les signaux de défaillance infrastructurelle avant qu’ils ne bloquent les projets est devenu un impératif stratégique. Voici cinq indicateurs concrets à surveiller.

1. Des données difficiles à mobiliser

La donnée est trop souvent sous-estimée dans la conception des projets IA. Elle est traitée comme une matière première que l’on ira chercher une fois le code écrit, les modèles choisis, les GPU provisonnés. C’est une erreur fondamentale d’architecture. La data n’est pas un intrant secondaire : elle est un composant à part entière du système IA, qui doit être pensé et positionné dès le départ.

Le principe directeur est simple : rapprocher la data au maximum de la GPU, car chaque milliseconde de latence entre la source de données et l’unité de calcul est une perte de performance. Concevoir l’architecture IA, c’est d’abord concevoir le chemin de la donnée, sa proximité physique et logique avec les accélérateurs de calcul.

Les infrastructures de stockage traditionnelles, conçues pour des accès séquentiels et des débits modérés, ne sont pas tailles pour alimenter des GPU en temps réel. Lorsque les data scientists passent plus de temps à attendre le chargement de leurs datasets qu’à entraîner leurs modèles, le diagnostic est sans appel : la goulotte est dans le chemin de la donnée, pas dans le modèle.

Cette proximité data-GPU ne peut pas se faire au détriment de la sécurité. La gouvernance de la donnée : confidentialité, traçabilité, consentement, localisation, doit être intégrée au même niveau d’exigence que la performance. En Europe, le RGPD impose des contraintes strictes que les pipelines IA doivent respecter nativement, sans patch ultérieur. De même, le choix du LLM, propriétaire ou open source, hébergé ou on-premise, doit être considéré simultanément avec l’architecture de la donnée, tant les deux sont interdependants.

Prenons l’exemple d’une institution financière déployant l’IA pour la détection de fraude en temps réel. Un pipeline de données fragmenté, lent ou mal sécurisé expose simultanément à des menaces non détectées et à des risques de non-conformité. La performance du modèle ne compensera jamais une architecture de données défaillante.

2. Une infrastructure serveur qui ne suit plus

Mettre l’IA en production est une opération hautement consommatrice de ressources de calcul. Peu d’entreprises entraînent elles-mêmes des LLM, mais nombreuses sont celles qui déploient des solutions d’inférence pour alimenter la prise de décision en temps réel, les analyses avancées ou la vision par ordinateur.

Ces workloads exercent une pression continue sur les serveurs généralistes existants. Quand ceux-ci fonctionnent déjà à pleine capacité, ce qui est fréquemment le cas dans les DSI ayant optimisé leurs coûts ces dernières années, l’arrivée de l’inférence IA crée une compétition directe avec les applications métier. La dégradation des performances est immédiate : latence accrue, instabilité, et valeur attendue de l’IA compromise.

Des infrastructures spécialisées, intégrant des accélérateurs dédiés, permettent d’isoler ces workloads et de garantir des performances prévisibles, sans impacter les systèmes critiques.

3. Le réseau : aussi critique que le GPU

Le réseau est devenu un composant de premier rang dans une architecture IA, au même titre que la puissance de calcul ou le stockage. C’est une réalité que beaucoup d’organisations découvrent trop tard : tant qu’on reste sur un POC monoposte, le réseau ne pose pas de problème. Dès qu’on bascule sur un cluster multi-GPU ou multi-nœuds, c’est souvent lui qui devient le goulot, avant même le CPU ou le stockage.

La raison est structurelle. Sur un entraînement distribué, les GPU doivent synchroniser en permanence leurs paramètre, gradients, poids, des centaines de fois par seconde. Ce trafic est majoritairement est–ouest : il circule entre les nœuds GPU à l’intérieur du datacenter, pas entre le client et le serveur. La synchronisation se faisant au rythme du plus lent, quelques microsecondes de délai supplémentaires sur un nœud peuvent bloquer l’ensemble du cluster et ramener l’occupation des GPU à 40 ou 50 %, quand bien même le matériel serait haut de gamme.

Les critères à considérer ne se réduisent pas au débit brut. La latence et le jitter, la variabilité de cette latence, sont souvent plus déterminants pour les workloads d’entraînement. La perte de paquets est également critique : chaque retransmission TCP signifie un GPU en attente. Les fabrics IA sérieux visent donc un transport effectivement sans perte, via des mécanismes de contrôle de congestion adaptés (PFC, ECN) et des topologies non-bloquantes de type Clos ou Fat-Tree, qui garantissent qu’aucun GPU ne soit isolé par la contention.

Une architecture IA robuste repose sur trois plans réseau distincts. Le premier est un fabric est–ouest dédié au calcul GPU-to-GPU, InfiniBand ou Ethernet associé à RoCEv2, offrant aujourd’hui de 200 à 400 G et visant 800 G demain. Le second est un plan data/stockage, indispensable pour alimenter rapidement les modèles en datasets et en index RAG. Le troisième, enfin, est réservé au management et au monitoring de l’infrastructure. Cette segmentation, complétée par une QoS rigoureuse, garantit le respect des SLA d’inférence même durant les phases d’entraînement les plus intensives.

Enfin, un réseau IA ne se gère pas manuellement. Il exige une télémétrie fine par flux, par queue, par saut, avec une détection de congestion en temps réel et une remédiation automatique. L’orchestrateur, Kubernetes, Slurm ou tout autre, doit connaître la topologie réseau pour placer les jobs sur des nœuds proches et minimiser les sauts. Sous-dimensionner le réseau, c’est payer des GPU à prix d’or pour les laisser attendre.

4. Une complexité opérationnelle croissante

Déployer un modèle IA en production devrait être un processus industrialisé : provisioning automatisé, gestion des dépendances, montée en charge contrôlée. En pratique, nombre d’organisations se retrouvent piégées dans une complexité disproportionnée. Lorsque les équipes IT peinent à aligner ressources, runtimes, frameworks et pipelines MLOps, l’infrastructure devient un frein, et non un accélérateur.

Dans un marché hautement compétitif, ce manque d’agilité est un handicap majeur. La capacité à passer rapidement d’un modèle expérimental à une solution en production est souvent ce qui différencie les leaders des suiveurs.

Les infrastructures modernes répondent à ce défi en proposant des stacks logicielles intégrées, des environnements standardisés et des outils d’automatisation avancés, pour des déploiements plus rapides, une gestion simplifiée et une scalabilité dynamique.

5. Aucune trajectoire pour l’industrialisation

Les premiers projets IA démarrent souvent à périmètre limité, et c’est normal. L’erreur est de ne pas avoir anticipé la mise à l’échelle dès la conception de l’infrastructure. Un signal critique d’impréparation : l’absence d’une stratégie d’extension claire, modulaire et financièrement soutenable.

Quand l’évolution du système implique une refonte complète, coûteuse, lente, difficile à orchestrer, la capacité à répliquer les premiers succès à grande échelle devient fortement compromise. C’est souvent à ce stade que les projets IA s’épuisent, non faute de résultats, mais faute d’une infrastructure économiquement soutenable pour accompagner la croissance des workloads.

Un modèle modulaire et évolutif, conçu pour grandir de manière incrémentale selon les besoins réels, permet d’éviter ce piège. C’est ce qu’on désigne parfois par l’approche « pay-as-you-grow » : investir progressivement, en calibrant les ressources sur l’évolution effective des usages.

L’AI MVP : un passage obligé, quelle que soit l’échelle du projet

Trop d’organisations abordent leurs projets IA en visant directement la solution finale, sans se fixer d’objectif intermédiaire mesurable. L’AI MVP, Minimum Viable Product appliqué à l’intelligence artificielle, est pourtant une étape fondatrice, valable aussi bien pour un projet pilote que pour un déploiement à l’échelle de l’entreprise : il permet de valider les hypothèses clés, de tester l’adéquation entre le cas d’usage et l’infrastructure, et de s’assurer que le chemin vers l’objectif final est techniquement et opérationnellement viable. Se donner un MVP comme premier horizon, c’est se donner les moyens de réussir le suivant.

Poser les fondations de la prochaine étape

La valeur de l’IA ne dépend pas seulement de la qualité des algorithmes ou de la richesse des données. Elle repose sur une base technologique suffisamment robuste et flexible pour soutenir une montée en puissance continue. Ces cinq signaux offrent aux organisations une grille de lecture claire pour diagnostiquer leurs contraintes actuelles, et agir avant que ces contraintes ne deviennent des blocages.

Investir dans une infrastructure adaptée aux workloads IA, c’est garantir la disponibilité des ressources, réduire les frictions opérationnelles et créer les conditions d’un passage à l’échelle réussi. Dans un contexte où l’IA Act européen redessine les obligations de conformité et où la souveraineté numérique devient un enjeu stratégique, bâtir sur des fondations solides n’est plus une option, c’est une condition de compétitivité.