Accueil Cloud AVIS D’EXPERT – Pénurie de puissance de calcul : comment répondre aux...

AVIS D’EXPERT – Pénurie de puissance de calcul : comment répondre aux exigences de l’IA

L’essor fulgurant de l’intelligence artificielle met les infrastructures informatiques sous pression. La demande en puissance de calcul explose, poussant les acteurs du secteur à repenser la conception et les tests de leurs datacenters. Marie Hattar, SVP chez Keysight Technologies, décrypte les enjeux techniques et énergétiques d’une révolution qui redéfinit les fondations mêmes du numérique.

L’intelligence artificielle transforme radicalement notre monde. Or, elle requiert des puissances de calcul considérables. La demande en la matière croît de manière exponentielle : on estime qu’à l’heure actuelle elle double tous les 100 jours. Cette croissance engendre une augmentation massive des investissements dans les infrastructures dédiées à l’IA.

La performance des datacenters est cruciale car ils sous-tendent les innovations futures en matière d’intelligence artificielle. Garantir leur robustesse et leur fiabilité est une tâche ardue compte tenu de l’ampleur et de la complexité en jeu. Chaque élément de l’infrastructure, de la puce au GPU en passant par le serveur, le composant réseau et le logiciel, doit être évalué individuellement et ensemble au niveau du réseau pour s’assurer qu’ils fonctionnent de manière fluide et éliminer tout maillon faible. Les fournisseurs doivent donc surmonter une difficulté considérable ; toutefois, compte tenu des enjeux, le moindre gain d’efficacité est significatif.

Avant d’aborder l’impératif des tests, intéressons-nous à la manière dont l’IA affecte les data centers. La croissance rapide de cette technologie résulte de la complexité des algorithmes et des modèles sur lesquels reposent les applications d’IA. Ces dernières consomment plus de ressources informatiques et, par conséquent, plus d’énergie que les logiciels dédiés à des tâches spécifiques. Cela est dû à la capacité de calcul massive requise pour former les grands modèles de langage (LLM) qui sous-tendent l’IA générative. Et le besoin de ressources de traitement et de stockage de données supplémentaires ne semble pas près de diminuer puisque les solutions d’IA deviennent de plus en plus sophistiquées et complexes.

Sam Altman a ainsi récemment déclaré que le déploiement du dernier modèle d’OpenAI avait été ralenti parce que l’entreprise était « à court de GPU ». De plus, Goldman Sachs prévoit que d’ici 2030, l’IA entraînera une augmentation de 165 % de la puissance des data centers. L’infrastructure est donc au cœur des préoccupations du secteur, qui cherche à créer un environnement technologique capable de prendre en charge les itérations futures.

Une route parsemée d’embûches

Les data centers d’IA doivent satisfaire et gérer l’appétit inouï en ressources de calcul : ces clusters doivent supporter efficacement la technologie actuelle et fournir les performances nécessaires en matière de calcul, de mémoire et de réseau. Les tests ont un rôle essentiel à jouer pour aider à relever ces défis. Pour valider, optimiser et accroître les performances des datacenters d’IA, il faut des émulateurs au niveau du système qui peuvent recréer la complexité et l’échelle des workloads d’IA. À mesure que l’infrastructure évolue, il est essentiel de procéder à un test au niveau du système pour garantir des performances robustes et fiables.

  • Échelle : Tous les aspects de l’exploitation des data centers doivent évoluer, y compris l’alimentation en énergie, le refroidissement, l’infrastructure, le stockage et la bande passante. Pour y parvenir, il est essentiel de résoudre les problèmes de latence dans les environnements distribués. Les clusters d’IA, qui répartissent les tâches entre les GPU, sont sujets à des goulots d’étranglement de performance causés par la latence de queue, c’est-à-dire le temps de latence des composants les plus lents du système. Une mise à l’échelle efficace doit permettre de détecter et de minimiser ce phénomène grâce à l’équilibrage des workloads.

Cependant, la conformité ne suffit pas, les performances d’un composant doivent être testées pour voir comment il traite les données du protocole réseau et la correction d’erreur directe. Par exemple, un émetteur-récepteur conforme peut bugger parce qu’il n’a pas été correctement testé au niveau des couches protocole/réseau.

Les tests aident les opérateurs à identifier les inefficacités systémiques, à optimiser l’allocation des ressources et à s’assurer que le système maintient des performances élevées sur tous les nœuds. Grâce à un réglage fin, les data centers peuvent réaliser des gains d’efficacité au fil de leur croissance, améliorer leurs opérations et l’utilisation de leurs ressources.

  • Hardware spécialisé : Pour fournir davantage de ressources de calcul, il est essentiel de disposer d’un hardware spécialement conçu pour l’IA. Par exemple, la dernière super-puce de Nvidia améliore les performances d’un facteur 30 tout en consommant 25 fois moins d’énergie. Il n’y a pas que les puces : l’IA exige que tout soit plus rapide, des interconnexions à la mémoire en passant par les cartes d’inférence réseau et les commutateurs, ainsi qu’une plus grande puissance.

Toutefois, ces progrès exigent une évaluation rigoureuse qui va au-delà des tests de conformité pour établir les performances en cas de charge maximale. La validation au niveau du système est cruciale pour s’assurer que tout fonctionne de manière fiable dans des conditions réelles. Les tests de stress garantissent que l’équipement d’IA fournit les performances promises. Les interconnexions et les structures peuvent être optimisées grâce à la validation du réseau pour éviter les goulets d’étranglement et aux évaluations de la mémoire et du stockage pour garantir un accès rapide aux données. En effectuant des tests complets, les opérateurs peuvent passer à l’échelle de manière efficace.

  • Workload intelligent : Pour répondre à la demande en puissance de calcul, il est indispensable de se tourner vers des architectures désagrégées afin que les ressources puissent être allouées de manière dynamique. Les tests valident la gestion intelligente et devraient intégrer l’émulation pour comparer les réseaux, ainsi que l’allocation dynamique des ressources et la mise à l’échelle automatique.

Pour garantir les performances du réseau, il faut effectuer des tests de résistance à l’aide de modèles réels, procéder à des analyses comparatives et trouver la latence de queue, ce qui permet d’améliorer l’attribution des workloads. Cela permet aux opérateurs d’atteindre leurs objectifs de performance tout en gérant dynamiquement les ressources en fonction des demandes existantes et à venir. L’ajout de logiciels sophistiqués dans la pile est essentiel pour maximiser les performances.

Les modèles d’IA participent d’ores et déjà à la croissance exponentielle du besoin en ressources de calcul et poussent les acteurs du secteur à moderniser les infrastructures. Cependant, pour que les projections de Goldman Sachs se concrétisent, il est essentiel de procéder à des évaluations rigoureuses au niveau des composants et des systèmes afin de détecter les dysfonctionnements et de s’assurer que chaque aspect des data centers est robuste, fiable et optimisé à l’échelle nécessaire.