Accueil Datacenter (Exclusif) Les causes de l’incendie OVH Strasbourg: des explications stupéfiantes

(Exclusif) Les causes de l’incendie OVH Strasbourg: des explications stupéfiantes

Quelles sont les vraies causes du sinistre? Pourquoi le départ de feu a-t-il été si rapide ? OVH n’a pas pu ou voulu nous répondre, mais les explications recueillies sont stupéfiantes.

(Source de l’image: Service départemental d’incendie et de secours du Bas-Rhin (SDIS 67)

L’incendie, dans la nuit du 9 au 10 mars, a détruit chez OVH Cloud à Strasbourg un des bâtiments, le datacenter SBG2, et partiellement un second, le SBG1. L’électricité a été coupée dans les deux autres centres de données, le SBG3 et SBG4. Plus de cent sapeurs-pompiers sont intervenus pour éteindre des flammes de 10 mètres de haut. 12 000 serveurs, hébergeant les sites et les données de « 12 000 à 16 000 clients », indiquait OVH le lendemain étaient affectés.

Une relance des serveurs devrait être opérationnelle dès le 19 mars, avec notamment un  redéploiement sur ses deux autres data centers en France, à Roubaix et Gravelines.

OVH a fait preuve d’une transparence maximale sur l’état des lieux et d’une efficace communication de crise auprès de ses clients. Dès le 11 mars, Octave Klaba, le fondateur et président d’OVH dans une video Youtube (dont les propos ne sont malheureusement pas toujours très audibles), a rendu compte de la situation et présenté ses excuses à ses clients.

Source : Service départemental d’incendie et de secours du Bas-Rhin (SDIS 67)

Un désastre pour les clients et pour l’image de l’hébergeur

L’incendie du datacenter OVH cloud de Strasbourg est d’abord une catastrophe pour les  « 12 000 à 16 000 clients », selon l’hébergeur, qui ont vu leur site internet suspendu au moins une journée et qui risquent de ne plus recouvrer leurs données.

Notons que l’article 7.7 des conditions générales de vente d’OVHcloud prévoit l’incendie comme un cas de force majeure, ce qui  l’exonère contractuellement de sa responsabilité dans ce cas. Il s’engage à indiquer par écrit les circonstances de l’événement et l’évolution de la situation aux clients concernés. Si elle dure plus de trente jours, le client est alors libre de mettre fin aux services…. 

« Une catastrophe dommageable l’image de notre champion national du cloud de confiance , une de nos plus belles pépites nationales »

Il s’agit un grave préjudice également pour l’image de notre champion national de l’hébergement, emblème de du cloud de confiance et souverain, figure d’une de nos plus belles pépites du numérique européen. OVH, c’est l’épopée remarquable et sympathique d’un « geek » parti de rien dans son garage, et dont l’entrée en bourse qui venait d’être annoncée risque fort d’être retardée !

Le sinistre pourrait également être dommageable pour l’image des datacenters français. Des responsables du secteur nous ont rapporté devoir rassurer leurs clients inquiets. Il serait dommage que ce sinistre fournisse  des arguments supplémentaires aux géants mondiaux du Cloud…

Un site éloigné des normes d’un datacenter standard.

Des professionnels du secteur insistent sur le fait que cet incendie n’aurait pas pu se produire dans un datacenter standard. Ce « trublion « d’OVH, à leurs yeux, a voulu depuis le début faire du discount dans l’hébergement, inventer ses propres règles, et le paierait en quelque sorte avec cet accident.

La catastrophe montre  les limites d’un modèle low cost ,d’une offre d’infrastucture adaptée à son origine pour les « petits sites web  » de TPE,  avec une culture très « geek » du « fait-maison », de l’inventivité, éloignées des standards des datacenters traditionnels.

Absence de réplication automatique des datas

Ce site de Strasbourg ne comportait pas de dual site , ce qui est la règle des datacenters classiques, à savoir la réplication  sur un second site miroir, éloigné au moins de 7 km, dans le cas d’une catastrophe de grande ampleur sur le site de base. Cette redondance aurait rendu possible pour les clients une restauration des données, tout en sachant  que ce service n’est pas automatique : le plan de reprise d’activité (PRA ), est de la responsabilité du client final.

« Il faut qu’on comprenne pourquoi le feu a été si rapide »

Cet incendie est peut-être unique: des datacenters  en flamme, cela reste heureusement totalement exceptionnel. Et un départ de feu aussi brutal pose des questions. La conception dépassée (2011) du datacenter en serait la principale explication.

Le 12 mars, dans un entretien aux Echos , le directeur général d’OVHcloud Michel Paulin, déclarait  : « Il faut qu’on comprenne pourquoi le feu a été si rapide  ». Les premiers éléments de l’enquête font penser à un départ de feu accidentel, et les investigations sont toujours en cours, indique l’AFP, l’enquête étant confiée à la sûreté départementale du Bas-Rhin.

Dans sa  video Youtube, Octave Klaba explique :

« A minuit 47, des alertes anti-incendie et différentes alarmes et détecteurs se sont produites. Les techniciens présents sont intervenus en quelques dizaines secondes sur les différentes salles où avaient lieu des alertes et ont vu énormément de fumées immédiatement, beaucoup de fumée noire et au bout d’une minute ont pris la décision de sortir du datacentre car c’était devenu trop dangereux . Nous nous interrogeons : comment et pourquoi cela a démarré aussi vite ».

« Il y a des choses à changer dans le datacenter »

Pour élucider le mystère, les données filmées par les 300 caméras qui équipaient le datacenter sont en cours d’analyse, « pour comprendre la chronologie, le démarrage et la propagation de l’incendie et en tirer toutes les conséquences. Si il y a des choses à changer dans le datacentre et il y en a, c’est évident, on va opérer les changements » déclare le fondateur d’Ovh.

Une génération de 2011

 Une conception maintenant dépassée et le système d’une tour autoventilée seraient une partie au moins de l’explication du drame, reconnait en filigrane Octave Klaba : « Strasbourg 2 est un des 5 datacenters construits en 2011. Cette génération de datacenters comportait une tour autoventilée ou nous avons fait beaucoup de recherches pour réduite l’impact sur l’environnement et sur la consommation électrique. La génération suivante comme Strasbourg 3, construit à coté est de 2016 et a une tout autre conception. Strasbourg 3 n’a subi aucun dommage de l’incendie car sa conception est différente ».

La faute à la maintenance de 2 onduleurs ?

Dans sa vidéo, le fondateur d’OVH indique une cause possible du départ de feu : « Des techniciens de maintenance sont intervenus sur des onduleurs dans la matinée, avec remise en route dans l’après-midi. Ils semblaient bien fonctionner, et dans la nuit on a eu l’incendie. Les pompiers ont vu que deux onduleurs étaient en feu. Les pompiers étaient intervenus, une dizaine de minutes après les alertes ».

Les techniciens de maintenance d’un fabricant d’onduleurs pourraient être mis en cause. Erreur humaine après une inspection du matériel, laissant la possibilité à un court-circuit ? Un onduleur en effet peut brûler. Mais ce déclencheur initial (si il est confirmé par l’enquête) n’aurait pas pu , dans des circonstances normales , provoquer l’incendie, pointent des spécialistes de datacenter que nous avons consultés.

Un expert pointe de graves erreurs de conception du datacenter

Nous avons insisté pour obtenir un entretien avec les responsables d’ OVH , afin  de vérifier nos informations avant de publier cet article. Leurs communicants nous ont malheureusement donné deux réponses négatives :

  • « l’enquête étant en cours, il ne sera malheureusement pas possible de donner suite à votre sollicitation »
  • « Malheureusement il nous est impossible de vous proposer un échange avec nos porte-paroles, mobilisés sur la bonne résolution de la situation et la communication avec nos clients. À défaut de pouvoir satisfaire votre demande, je vous partage nos dernières déclarations officielles, disponibles en intégralité sur notre espace presse : https://www.ovh.com/fr/news/presse/cpl1785.incendie-notre-site-strasbourg

Les 5 anomalies possibles, causes  ou facteurs aggravants du sinistre

Nous avons interrogé Eric Arbaretaz , expert en conception et construction de datacenters depuis plus de 20 ans, et actuellement  dirigeant du nouveau datacenter Thésée, en Ile de France . Il pointe 5 anomalies qui pourraient expliquer un incendie aussi brutal et incontrôlable.

1. La présence de batteries électriques, inflammables, à proximité des serveurs.

Pour parer aux risques de coupure électrique (en attendant en cas de coupure prolongée de recourir aux groupes électrogènes), on dispose de batteries électriques, pour réalimenter en courant alternatif les serveurs. Le problème est qu’elles sont par nature inflammables.  « Dans tous les datacenters standards, les batteries sont stockées dans des salles coupe-feu. Dans ce type d’installation, elles auraient été installées à l’intérieur ou à proximité des  baies des serveurs. Au lieu d’onduleurs déportés et de transformateurs, on place des batteries, pour alimenter en courant continu si besoin, les serveurs. C’est une architecture originale d’OVH, inspirée du système « Open Compute » de Facebook. Une batterie, surtout vieillie, dégage de l’hydrogène et comporte des risques d’explosion. Selon moi, c’est l’origine du problème », estime Eric Arbaretaz.

 

2. L’absence de système de détection précoce efficace.

« C’est un gros trou dans la raquette », déplore un autre expert que nous avons interrogé : «  un système de détection précoce, type système VESDA incendie, permet d’intervenir dès la présence d’un point chaud, avant même l’arrivée de la fumée ». Ces systèmes arrêtent la combustion en absorbant l’oxygène, par l’expulsion de gaz Inergen  ou de brouillard, stoppant ainsi tout départ de feu. Mais ils représentent un coût important, tant en installation qu’en inspection et maintenance régulière.

 

3. L’absence apparente de système d’extinction d’incendie.

Cela parait étonnant, mais un tel dispositif n’est pas obligatoire. « Ils ont choisi apparemment de ne pas mettre d’extinction automatique, et cela pour faire des économies », regrette Eric Arbaretaz.

 

4. Le système de refroidissement par air

Il a créé un « effet cheminée » qui représenté un facteur aggravant pour la propagation des flammes. Ce système de free cooling qui absorbe l’air extérieur et le fait remonter du bas vers le haut était économique et avant-gardiste à l’époque. Octave Klaba reconnait implicitement ce facteur dans sa première déclaration (voir plus haut « Une génération de 2011 ») : « Cette génération de datacenters comportait une tour autoventilée(…) »

 

5. Un plancher en bois

Le système de container utilisé (voir ci-dessous) aurait été équipé à sa base, par- dessus la base métallique, d’ un plancher constitué de traverses de bois. On peut imaginer que le bois était ignifugé, mais une fois le feu déclaré, ce plancher aurait fini par s’embraser et alimenter l’incendie.

 

Une tour de containers

La conception même du datacenter , empilage de containers  pouvait représenter un risque. Ce « préfabriqué », était composé de caissons maritimes  recyclés, en tôle, empilés comme des Légos. Si un seul de ces box s’enflamme, l’incendie se propage à l’ensemble de la « tour ».

Rappelons que des datacenters modulaires modernes existent, mais à base de caissons durcis.

Attente des résultats de l’enquête

L’enquête confirmera peut-être la piste de la maintenance défectueuse des onduleurs, pointée  par Octave Klaba dès sa première déclaration, comme cause initiale de l’incendie. Mais en tout état de cause, le modèle, dépassé aujourd’hui, de ce centre de données – ce que reconnait  d’ailleurs le fondateur d’OVH – ,  a sans doute rendu possible qu’une étincelle détruise un bâtiment, des milliers de serveurs et des millions de données.

Des progrès à faire

Bien entendu, ce  passage en revue des faiblesses escomptées du bâtiment SGB1 de Strasbourg n’augure en rien de l’état du parc de datacenters de OVH. On peut penser que ce bâtiment était particulièrement atypique , vétuste, expérimental à son origine et non représentatif du parc des 32 datacenters de l’hébergeur.

 Ce sinistre représentera peut-être l’occasion pour notre champion national de faire évoluer son modèle de low cost vers des standards plus conventionnels dans le secteur des datacenters. Il n’aura pas le choix, jouant dans la cour des grands et à l’échelle européenne, d’accélérer la mise à jour de ses équipements et de respecter les règles de l’art, si ce n’était pas le cas dans certains sites.

Cela permettra à l’opérateur, qui hébergerait les 2/3 de l’internet français,  de faire évoluer sa clientèle, et de renforcer sa collaboration avec le secteur public, ce qui est un de ses objectifs stratégiques.