Accueil Expert Stockage : 5 points principaux à surveiller pour anticiper une panne et...

Stockage : 5 points principaux à surveiller pour anticiper une panne et éviter l'arrêt des applications stratégiques

Fin 2014, Jeronimo Munoz, VP Sales Operations chez Sans Sentinel, société française à l'origine d'un outil en ligne de collecte et d'analyse des infrastructures de stockage, s’étonnait d’apprendre que 64 % des entreprises avaient été touchées par un arrêt de production d’une durée de 25 heures en moyenne. Il apporte ici sa contribution à l’amélioration de ces chiffres pour 2015, à travers 5 conseils.

Ces 12 derniers mois, 64 % des entreprises ont été touchées par un arrêt de production d'une durée moyenne de 25 heures. Les conséquences sur l’exploitation sont souvent catastrophiques, malgré l’existence de sauvegarde ou de site de reprise après sinistre. D’après les analystes, 36 % des arrêts ont un impact direct sur les revenus et 34 % ont générés des retards sur les développements de nouvelles applications commerciales.

Dans un marché de plus en plus concurrentiel et avec l’arrivée de nouveaux modèles économiques initiés par le Cloud, les entreprises doivent accélérer la mise en exploitation des logiciels. Les applications doivent fonctionner 24h/24h et un arrêt d’une heure non planifié peut coûter à l’entreprise jusqu’à 100 % de marge ou plus ! D’après le cabinet Vanson Bourne, l'indisponibilité du stockage aura couté plus de $1,7 trillions aux entreprises sur les 13 derniers mois (soit 50 % du PIB allemand).

Evaluée à 30 %, l’erreur humaine est la principale cause des indisponibilités. Ce chiffre est élevé à cause de la complexité croissante des infrastructures et à la multiplication des technologies qui s'invitent dans nos Datacenter. Notez que 10 % sont directement liées à la multiplicité des intervenants (infra multi constructeurs). La centralisation et le partage des informations en un point unique deviennent obligatoires. Mais la principale crainte des opérationnels et décideurs est le remplissage à 100 % d'une baie ou d'un pool. Cela est aussi dramatique qu'un arrêt électrique !

L’anticipation et la vitesse sont les clés de la disponibilité de vos applications, et pour améliorer et garantir cette disponibilité vous devrez :

1 Diminuer les risques de facteur humain en permettant à tous les collaborateurs travaillant sur l'infrastructure de stockage d'avoir le bon et surtout le même niveau d'information, grâce à la mise en place d’un référentiel commun facilement accessible(DCIM).

2 Comprendre son infrastructure de façon agnostique (peu importe le constructeur et la technologie) en analysant les évolutions sur une base régulière. Faire des inventaires hebdomadaires ou mensuels de l’ensemble de l’infrastructure est primordial pour éliminer les risques. Intégrer dans les paramètres de risque vos dates de fin de maintenance ou la fin de vie de certains composants de votre infrastructure.

3 Gérer la complexité de l’infrastructure par l’automatisation de la collecte d’informations et l’utilisation d’outils d’analyse et d’optimisation simple permettant de réduire le temps de RCA (Root Cause Analysis). Obtenir des informations fraîches en évitant les développements et les rapports “maison » basés souvent sur des informations périmées et imprécises.

4 Anticiper le remplissage des espaces de stockage grâce au suivi régulier des « sur-allocations » proposés par les technologies telles que « Thin-Provisioning » qui permettent de donner plus de volumétrie que ce vous possédez ; en pariant sur le fait que vos utilisateurs ne rempliront jamais tout l'espace, en tout cas pas tous en même temps. Un autre vecteur a surveiller quand vous faites du « Thin-Provisioning » est le taux de remplissage et la vitesse de remplissage des pools « Thin ». Il existe des solutions simples pour vous permettre de savoir dans combien de jours vous serez exposé à ce risque, par baie, pool et Datacenter.

5 Détecter les applications qui sont en risque dans votre infrastructure par rapport à leur niveau de criticité par un suivi régulier de l’évolution de ses composants par lignes de métier ou géographies.  Mettre en place des actions préventives ciblées par rapport à l’importance du désastre possible et en assurer la résolution par un plan d’action précis.

Comme le confirme Simon Robinson de The 451 Group, « Le challenge que les organisations vont maintenant avoir n’est pas seulement la croissance des données, mais la gestion de leur environnement, qui peut consister en sept ou huit silos de stockage avec une complexité énorme. »

La mise en place d’outils de contrôle et d’optimisation de l’infrastructure de stockage (SRM) est indispensable pour réduire les risques et les coûts liés à un arrêt de production. Dommage que la majorité d’entre eux ait été développés dans un modèle obsolète, inadapté aux contraintes actuelles et opposés à l’agilité indispensable à l’entreprise pour être plus dynamique et plus performante.

En 2015, déployer un tel service devrait se faire sans contrainte (SaaS), à la demande (quand vous en avez besoin, c’est-à-dire maintenant, pas dans 12 mois), être disponible immédiatement (aucune installation) et avec les technologies d’aujourd’hui (Cloud / Web services).