Accueil L'infrastructure s'adapte au Big Data

L’infrastructure s’adapte au Big Data

Engrenage données
Engrenage data

Améliorer l’analyse de données massives en quasi-temps réel, c’est pouvoir créer de nouveaux services numériques, pour les salariés et les clients de l’entreprise. Démonstration par l’exemple, à la SNCF et chez Orange Business Services.

A condition d’adapter les infrastructures, l’analyse et la mise à disposition de données brutes facilitent la création de nouveaux services numériques. C’est ce que confirment les informaticiens de la SNCF et du groupe Orange Business Services dans les lignes qui suivent. Romain Lalanne, responsable open data à la SNCF, voit dans le déluge des données une opportunité de visualiser les trafics différemment: « On peut vérifier toute une journée de circulation en zones denses, en quelques secondes seulement. On améliore ainsi les services du réseau et les articulations avec d’autres moyens de transport. »

En Ile-de-France, l’usage des trains de voyageurs aux heures de pointe est très dense, comparable au décollage d’un Airbus A380, toutes les six secondes. Des modèles mathématiques de prédiction d’affluence contribuent à fluidifier le trafic de la SNCF. « Nos clients veulent une information personnalisée sur leurs modes de transport. Nous devons leur fournir les bonnes données, géo-localisées, afin d’optimiser leur trajet, quitte à ce qu’ils retardent leur départ de dix minutes. Dans ce type de projet, ajouter toujours plus d’infrastructures n’est pas la panacée », observe-t-il d’emblée. Cela peut sembler paradoxal, la haute disponibilité des services informatiques exigeant une redondance complète des serveurs, baies de stockage et réseaux critiques.

Le projet Salto d’OBS offre de la flexibilité

Du côté d’Orange Business Services, le projet Salto cible 2500 utilisateurs internes en France, dont 500 de façon intensive. Il mêle étroitement des outils d’optimisation des processus de production et des outils Big Data, autour du workflow Pega et de l’EAI WebMethods de Software AG : « C’est la véritable colonne vertébrale des techniciens impliqués dans la production d’offres pour les entreprises. Nous devons gérer du volume, de la complexité et une grande variété de situations », explique David Viret-Lange, le DSI d’OBS. Le programme étend progressivement sa zone d’influence, mais la direction informatique a volontairement commencé par les procédures les plus complexes, à savoir celles de l’offre centrale Business VPN.

« Salto est aussi un outil de transformation métier qui doit fournir des gains de productivité et de qualité de services. Ses statistiques en temps réel nous aident déjà à optimiser le routage et la charge réseau de façon dynamique », précise le DSI. Une nouvelle optimisation du parcours client devient envisageable ainsi que de nouvelles solutions verticales, Salto s’appuyant sur une infrastructure redondante composée de 14 serveurs d’applications et deux serveurs d’échanges asynchrones. Les plateformes matérielles sont hébergées dans le datacenter de Rennes où 89 autres applications sont reliées à l’aide de web services principalement.

La sauce secrète du Big Data

Valoriser de vastes flux de données et développer des services intuitifs et innovants passe désormais par une solide couche intermédiaire. Le framework java open source Hadoop (sous licence Apache) se retrouve fréquemment au cœur des plateformes prédictives et d’optimisation actuelles. Il séduit en particulier par sa faculté de traitement d’une grande variété de données. Comme l’OS linux avant lui, Hadoop a généré plusieurs branches et distributions en quelques mois seulement – Cloudera, Hortonworks et MapR pour n’en citer que trois. Au cœur du framework Hadoop, on trouve principalement le système de fichiers distribués HDFS (Hadoop Distributed File System), le logiciel MapReduce de traitement parallèle des données et le module Yarn pour planifier les tâches et gérer les ressources d’une grappe de serveurs. Car la sauce secrète du Big Data tient justement dans cette répartition fine des analyses de données massives, plus précisément dans l’allocation judicieuse des bonnes ressources, fussent-elles matérielles ou virtuelles. Les suites et packages Big Data du marché ajoutent donc un orchestrateur de services, mais aussi une modélisation graphique des services et parfois même un générateur de codes java pour réduire les temps de développement. Ce faisant, elles intègrent encore quelques composants ou outils propriétaires provoquant un verrouillage vis à vis du fournisseur.

Vers des infrastructures hybrides

En pratique, l’entreprise cherche à optimiser la qualité de ses données et les performances de ses services analytiques tout en réduisant le coût d’exploitation de l’infrastructure. Or, les traitements d’analyse demeurent sensibles au délai de latence du réseau. Par conséquent, les offres cloud public – chez Amazon, Google, SAP et d’autres prestataires – présentent surtout l’intérêt d’être flexibles et abordables aux PME comme aux start-ups ; en contrepartie, elles imposent toujours de monter vers un nuage de grands volumes de données, parfois confidentielles.

Les recettes actuelles passent par l’optimisation WAN qui tente de réduire le bavardage protocolaire des applications. Les architectures In-Memory retiennent au plus près des processeurs des disques SSD écourtant les délais d’écriture et de lecture de données. Intel a ainsi optimisé sa distribution Hadoop pour ses propres disques SSD.

Progressivement, les infrastructures Big Data deviennent hybrides, mêlant des composants propriétaires et open source sur des plateformes convergentes. On trouve ainsi un nombre croissant d’appliances Big Data épaulées par des services de filtrage ou d’analyse de données, proposés en mode SaaS.

Récemment, Dell vient de s’associer à Nutanix pour lancer quatre plateformes spécialisées : une appliance In-Memory reçoit Cloudera Enterprise, une autre se focalise sur l’accélération des bases de données, une troisième intègre le gestionnaire de données Oracle 12c et enfin la plateforme convergente Web-scale Dell XC Series tente de rivaliser avec les racks tout-en-un d’IBM (PureFlex), HP (Converged Systems) ou VCE (Vblock). Intel et Oracle parachèvent, en coopération, le cluster Exadata Database Machine X4-8 conçu pour obtenir à la fois des performances de pointe en production et pour réduire l’empreinte des données.

« Nous devons fournir aux clients les bonnes données, géo-localisées, afin d’optimiser leur trajet. » Romain Lalanne, responsable open data à la SNCF

Le point sur… Le Big Data séduit 4 organisations sur 10

Près de quatre organisations françaises sur dix ont un projet Big Data en cours ou en réflexion, évalue Markess International. La distribution, la finance, les télécommunications et les transports adoptent volontiers ces solutions. Dans le suivi de la relation avec les clients et partenaires, on automatise les services et produits à conseiller à chaque interlocuteur. Trois tendances se dégagent d’ici 2016, selon Markess. Afin de pouvoir se recentrer sur l’analyse de la valeur, ils font évoluer leurs infrastructures et leurs serveurs à l’aide d’offres convergentes. Du coup, ils savent corréler plusieurs flux de données plus proches du temps réel, comme les avis postés sur les réseaux sociaux. Et les utilisateurs profitent aussi de nouveaux types de données issues de l’Internet des objets, de capteurs ou de la géolocalisation. La plateforme open source Hadoop, les technologies In-Memory et les architectures convergentes se généralisent.

Bonnes pratiques : David Schubmehl, directeur de recherche chez IDC.

Ne perdez plus d’argent à chercher la bonne info !

Une entreprise de 1 000 cadres peut gaspiller jusqu’à 4,2 millions d’euros par an à rechercher des connaissances dans ses divers systèmes d’informations, sans les trouver. Pour sortir de cette impasse, extraire et partager de nouvelles connaissances, IDC recense quatre éléments indispensables.

  1. Mettre en place des processus d’accès aux données, qu’elles soient stockées dans l’entreprise ou à l’extérieur.
  2. Partager et ré-utiliser les connaissances entre divers métiers, via un réseau social d’entreprise par exemple.
  3. Les autres technologies impliquées doivent être assez ouvertes, disponibles et performantes pour fournir de bonnes analyses au bon moment.
  4. La culture de la direction générale détermine les moyens techniques et humains affectés au projet Big Data.