Une semaine après l’incident d’AWS, c’est au tour de Microsoft Azure, deuxième plateforme cloud mondiale, de connaître une panne d’envergure.
Entre le 29 octobre à 15h45 (UTC) et le 30 octobre à 00h05, de nombreux services Azure ont subi latences, erreurs et indisponibilités. L’incident, lié à une mauvaise configuration interne du service Azure Front Door (AFD), a touché une large part de l’écosystème Microsoft : App Service, Azure SQL Database, Azure Portal, Microsoft Sentinel, Copilot for Security, Entra ID…
« Un changement de configuration de locataire au sein d’Azure Front Door a déclenché une perturbation généralisée des services, affectant à la fois Microsoft et les applications clientes », reconnaît Microsoft dans son rapport post-incident.
La panne a été provoquée par le déploiement d’une configuration défectueuse, passée outre les mécanismes de validation censés bloquer toute erreur. Cette faille a entraîné la désactivation d’un grand nombre de nœuds AFD, perturbant la répartition du trafic à l’échelle mondiale. Les équipes de Microsoft ont ensuite déployé une version dite “last known good configuration” pour restaurer progressivement la stabilité du réseau.
Un nouvel avertissement pour les architectures cloud mondiales
Cet incident survient à peine une semaine après la panne d’AWS, survenue le 20 octobre et ayant affecté de nombreux sites majeurs en Europe. Deux défaillances successives chez les leaders du cloud rappellent une réalité que les DSI connaissent bien : la dépendance aux hyperscalers rend les infrastructures aussi puissantes que vulnérables.
Si les fournisseurs multiplient les promesses de résilience, la concentration des services critiques dans quelques environnements globalisés accentue le risque systémique.
Les entreprises face au risque de dépendance
Pour les organisations clientes, l’incident Azure souligne une nécessité devenue stratégique : mettre en place des plans de continuité et de redondance multi-cloud. Car si l’incident a été circonscrit en quelques heures, la paralysie temporaire de services essentiels (identité, bases de données, applications SaaS) suffit à provoquer des pertes opérationnelles significatives.Kévin Baude, Senior Platform Engineer chez Golem AI, expliquait qu’il ne s’agissait pas nécessairement de multiplier les fournisseurs de cloud pour se protéger, mais plutôt d’opter pour une approche multi-région au sein d’un même prestataire.
Microsoft indique avoir renforcé ses mécanismes de validation et de rollback pour éviter toute répétition du scénario. Un rapport complet (“Post Incident Review”) sera publié dans les deux semaines.







