Accueil Infra-Datacenter La panne du CDN Fastly révèle un problème de dépendance et de...

La panne du CDN Fastly révèle un problème de dépendance et de résilience

Mardi 8 juin, de nombreux sites Internet dans le monde, notamment de grands médias, ont été inaccessibles plusieurs heures. Le site du gouvernement britannique, Amazon, Spotify mais également celui du Monde, du NY Times ou encore du Guardian font partie de la liste. Depuis, le bug technique a été résolu, mais confirme la dépendance des entreprises aux acteurs américains et un problème de résilience de l’infrastructure réseau des organisations.

La panne mondiale qui a affecté des milliers de sites provenait d’un incident technique chez Fastly, une entreprise américaine de réseau de diffusion de contenu (CDN), ce dernier étant chargé de réduire le temps de chargement du contenu des pages Web ou d’applications Web. 

Fastly est censé optimiser la connexion des sites web. Un CDN, ou Content Delivery Network pour « réseau de diffusion de contenu », permet en effet d’avoir un même contenu sur plusieurs serveurs un peu partout dans le monde. Ainsi, si vous êtes en France, le contenu des pages va se charger depuis un serveur français (ou du moins européen). Si vous êtes aux États-Unis, le chargement de la page viendra d’un serveur américain. L’objectif est d’accélérer le chargement pour les internautes, selon le serveur qui se trouve le plus proche physiquement.

Une dépendance aux CDN américains

Cet incident remet sur le tapis les problèmes de dépendance de la France et de l’Europe aux acteurs étrangers, les 5 plus grand acteurs du CDN étant effectivement américains.
« Le CDN est une pierre angulaire du Cloud, technologie à la fois plus ancienne que le Cloud mais qui est toujours aussi utilisé. Avec cette nouvelle panne, nous constatons encore une fois la dépendance que génère les acteurs américains sur le reste du monde. Plus récemment ce fut le cas de l’un des concurrents de Faslty, Cloudflare ou encore Amazon qui paralysent à eux seule la moitié du monde », déclare ainsi Yann Klis, CEO de Scalingo, une « Platform as a Service ». Et pour le dirigeant, l’entreprise ne doit pas mettre tous ses œufs dans le même panier. « Nous avons des acteurs franco-européens sur lesquels nous pouvons nous appuyer », affirme-t-il. Bref, peut-être vaut-il mieux avoir recours à plusieurs CDN différents pour se prémunir d’une panne, plutôt que d’attendre que le bug de son unique prestataire soit résolu. 

Veiller à la maintenance de l’environnement

Pour Steve Hall, président et partner chez ISG, cabinet mondial de conseil et de recherche en technologie, l’incident révèle plus globalement une faille dans la résilience de l’infrastructure réseau des organisations. « À l’ère du Cloud, les organisations doivent planifier la résilience à tous les niveaux, y compris à la périphérie du réseau. Cela devient de plus en plus difficile, au vu de l’agrégation des services et le niveau d’automatisation à l’oeuvre pour la configuration et la réparation du réseau en temps réel. »

Une panne due à un bug logiciel

« Nous avons connu une panne mondiale en raison d’un bug logiciel non découvert qui est apparu le 8 juin lorsqu’il a été déclenché par un changement de configuration client valide. Nous avons détecté la perturbation en une minute, puis identifié et isolé la cause et désactivé la configuration. En 49 minutes, 95 % de notre réseau fonctionnait normalement », a expliqué le 8 juin Nick Rockwell, Senior Vice President of Engineering and Infrastructure chez Fastly.  « Le 12 mai nous avons démarré le déploiement d’un logiciel ayant introduit un bug qui pouvait être déclenché par le paramétrage d’un client spécifique,
dans des circonstances spécifiques, a-t-il poursuivi. Le 8 juin au matin, un client a apporté un changement de paramétrage (…) ayant déclenché le bug ».
Ce bug logiciel a eu cette conséquence sans appel : « 85 % de notre réseau a renvoyé des erreurs. »