Accueil Cloud AVIS D’EXPERT – L’inférence IA passe en mode edge

AVIS D’EXPERT – L’inférence IA passe en mode edge

Kevin Cochrane, CMO chez Vultr, société privée d’infrastructure cloud, évoque l’inférence en temps réel, la gouvernance et la protection de la vie privée, la diversité des puces, l’inférence serverless…

L’edge computing est devenu le nouveau terrain privilégié de l’innovation en IA. Cette approche change fondamentalement la manière dont les entreprises déploient et mettent à l’échelle leurs capacités d’IA. La grande majorité des décideurs informatiques (85 % selon un rapport de 451 Research) a déjà commencé la migration de leurs workloads vers la périphérie de réseau. Cela démontre un changement clair dans la stratégie d’infrastructure IA à l’échelle du secteur. Plus qu’une préférence technique, il s’agit d’une véritable nécessité stratégique. En effet, les équipes d’ingénierie sont confrontées à une pression croissante pour déployer et mettre à l’échelle des applications d’IA sur différents sites et dans différentes régions, tout en évoluant dans un paysage protéiforme où entrent en concurrence : souveraineté des données, exigences en matière de résidence et de réglementation et protection de la vie privée. A ce propos, le cabinet McKinsey souligne que l’infrastructure edge est devenue indispensable pour  offrir une inférence en temps réel plus proche des sources de données, qui permette aux entreprises de maintenir leur avantage concurrentiel.

L’inférence en temps réel : un impératif stratégique

Les modèles d’IA sont de plus en plus intégrés dans les systèmes d’entreprise et les cas d’utilisation de l’IA générative se multiplient dans les fonctions organisationnelles. Par conséquent, la capacité à faire des déductions en temps réel est devenue non seulement un avantage technique, mais aussi une nécessité pour l’entreprise. Les organisations qui peuvent déployer et gérer efficacement des modèles d’IA dans plusieurs zones géographiques sont plus à même de s’adapter à l’évolution des conditions, de maximiser les performances des modèles et d’exploiter des données plus récentes, pour des opérations essentielles à la mission de l’entreprise.

Prenons l’exemple de la supply chain. L’inférence en temps réel permet de réacheminer instantanément les expéditions, en fonction des conditions météorologiques ou des fluctuations des stocks, ce qui optimise les performances de livraison et minimise les perturbations. Dans le cas contraire, les entreprises risquent de fonctionner sur la base de données obsolètes, ce qui entraîne des problèmes d’efficacité en cascade et des opportunités perdues qui pourraient avoir un impact significatif sur le résultat net.

Protection de la vie privée, conformité et gouvernance grâce au déploiement edge

Les architectures d’inférence edge offrent une approche évolutive du déploiement global de l’IA et des défis de mise à l’échelle, tout en respectant des normes strictes de confidentialité et de conformité. Si la formation initiale des modèles peut rester centralisée au sein d’un centre d’excellence en IA, l’edge computing permet une approche distribuée du déploiement des modèles. Les équipes data science régionales peuvent ainsi accéder aux modèles gérés de manière centralisée, les affiner avec des données locales et les déployer dans leurs zones géographiques. Cette approche offre un cadre efficace qui associe une gouvernance centralisée à une exécution locale, permettant aux entreprises de développer leurs capacités d’IA à l’échelle mondiale, tout en maintenant un contrôle rigoureux sur les données sensibles et en garantissant la conformité avec les réglementations locales.

Diversité des puces : le fondement d’une IA edge rentable

L’explosion des workloads d’IA a fait émerger un défi majeur : les architectures de calcul traditionnelles ne peuvent pas prendre en charge efficacement l’inférence edge, sans que les coûts ne grimpent en flèche. Les entreprises qui intègrent l’IA dans leurs applications ont besoin de ressources informatiques spécialisées, optimisées pour l’inférence en temps réel, partout où les utilisateurs interagissent avec les applications d’IA. Ce besoin de ressources informatiques spécialisées survient à un moment où la demande de puces optimisées pour l’IA dépasse largement l’offre. Cela pourrait entraîner d’importantes tensions en termes de coûts et des goulots d’étranglement au niveau du déploiement. La solution réside dans la diversité des puces : le déploiement stratégique de puces informatiques spécialisées dans l’IA et conçues pour des étapes spécifiques du cycle de vie du modèle d’IA. Pour mener à bien leurs initiatives en matière d’IA, les entreprises doivent avoir accès à une gamme variée de CPU et de GPU spécifiquement conçus pour l’inférence IA dans leurs datacenters, répartis dans le monde entier.

Inférence serverless : permettre une mise à l’échelle rapide sans complexifier l’infrastructure

Le rythme de l’innovation en matière d’infrastructure d’IA constitue un défi bien souvent insurmontable, pour la plupart des équipes d’ingénieurs en entreprise. Même les organisations disposant de ressources considérables ont du mal à se procurer, à maintenir et à mettre à niveau en permanence les ressources GPU et CPU nécessaires pour soutenir les initiatives globales de GenAI et, bientôt, d’IA agentique. L’inférence serverless (sans serveur) apparaît comme la solution la plus viable pour l’avenir. En exploitant les ressources cloud gérées qui fournissent un calcul optimal en tant que fonction sans serveur, les entreprises peuvent :

  • Éviter la complexité de la compréhension et du maintien de configurations de calcul idéales
  • Éliminer les dépenses liées à l’acquisition d’infrastructures
  • se prémunir contre la rapidité de l’innovation en matière d’infrastructure, laquelle rend rapidement obsolètes les investissements en matériel informatique

 

Choisir le bon fournisseur cloud revêt une importance cruciale pour les entreprises qui cherchent à mettre en œuvre ces capacités essentielles pour l’inférence IA edge. Le partenaire idéal doit non seulement fournir les capacités techniques (diversité des puces, inférence serverless et intégration des données en temps réel), mais aussi adopter une architecture ouverte et composable qui permette l’innovation et la mise à l’échelle.