AWS annonce l’intégration de l’accélérateur WSE-3 de Cerebras dans son infrastructure afin de renforcer les performances de ses services d’intelligence artificielle. Cette nouveauté permettra d’améliorer l’inférence des modèles tout en optimisant l’utilisation des ressources de calcul.
AWS explore une architecture d’IA différente
Amazon Web Services va s’appuyer sur l’accélérateur WSE-3 développé par la société américaine Cerebras pour soutenir une partie de ses services d’intelligence artificielle. Cette puce, conçue pour les charges de travail liées à l’IA générative et aux grands modèles, se distingue par son architecture hors norme. Contrairement aux processeurs traditionnels ou aux GPU utilisés dans la plupart des infrastructures d’IA, la technologie de Cerebras repose sur un wafer-scale engine. L’ensemble du circuit est gravé sur une seule tranche de silicium, ce qui permet d’intégrer un nombre très élevé de cœurs de calcul et de limiter les goulots d’étranglement liés aux échanges entre plusieurs puces.
Le WSE-3 est présenté comme capable d’atteindre plus de 100 pétaflops de puissance de calcul pour certaines tâches liées à l’intelligence artificielle.
Une approche orientée vers l’inférence des modèles
Dans l’architecture envisagée par AWS, la puce de Cerebras doit compléter les accélérateurs déjà développés en interne, comme les processeurs Trainium ou Inferentia. Son intégration permettra notamment de mieux gérer l’inférence, c’est-à-dire la phase où les modèles d’IA sont utilisés pour produire des réponses ou analyser des données. Les deux types de processeurs peuvent ainsi être répartis sur différentes étapes du traitement. Les puces Trainium sont utilisées pour l’entraînement de modèles, tandis que les accélérateurs Cerebras peuvent prendre en charge certaines phases d’inférence à grande échelle.
Cette approche dite d’inférence désagrégée consiste à répartir les tâches entre plusieurs types d’accélérateurs spécialisés afin d’optimiser les performances et les coûts.
Une compétition croissante autour des puces pour l’IA
La compétition s’intensifie autour des infrastructures dédiées à l’intelligence artificielle. Face à la domination des GPU de NVIDIA, les grands acteurs du cloud cherchent à diversifier leurs architectures pour répondre à la demande croissante en puissance de calcul. Les fournisseurs de cloud multiplient ainsi les partenariats et les développements internes pour proposer des plateformes capables de faire tourner des modèles toujours plus volumineux. Les accélérateurs spécialisés pourraient jouer un rôle de plus en plus important dans l’évolution des infrastructures d’IA.








