En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour recueillir vos informations de connexion, collecter des statistiques en vue d'optimiser les fonctionnalités du site et adapter son contenu à vos centres d'intérêt.
En savoir plus et paramétrer les cookies Accepter
Comparateur de logiciels de gestion
Avec notre comparateur en ligne, trouvez en quelques clics la solution à votre besoin
agenda
Agenda
Solutions IT
  • 23/01/2018
    FIC 2018

    Pour son 10ème anniversaire, le Forum International de la Cybersécurité (FIC) réunira l’ensemble des acteurs…

    en détail En détail...
  • 06/12/2017
    Paris Open Source Summit

    Paris Open Source Summit, premier événement européen libre et open source, est le fruit de…

    en détail En détail...
Appels d'offres en cours
  • Réalisation d'une maquette pour une carte de voeux
    < 5 000 €
    > En savoir plus
  • Installation, paramétrage d'un serveur pour une société de chauffage
    A déterminer €
    > En savoir plus
  • Création d'un site de réservation pour un garage automobile
    < 2000 €
    > En savoir plus
ITrust_SOC_leaderboard

Bienvenue à #BigData

GlobalK_Azure _pave

Avec deux autres data scientists, Thomas Gerbaud a créé en 2015 la start-up Mantiq, entreprise spécialisée en solutions digitales. Il revient pour nous sur les défis posés par le Big Data.

L’accroissement spectaculaire des données disponibles créent de nouvelles opportunités et de nouveaux défis. Nous sommes entrés dans l’ère des mégadonnées, des données de masse, des données massives … Bienvenue à #BigData !

Une avalanche de chiffres

On estime qu’une encyclopédie contenant l’ensemble des mots prononcés par l’Homme depuis l’an 0 comprendrait une centaine de tomes contenant chacun un exaoctet (1 Eo = 10^18 octets = 10^9 Go = 10^3 Po) de données. Chaque jour, ce sont plusieurs exaoctets de données qui sont créés : un vrai déluge !

Volume, Vélocité, Variété : telles sont les trois caractéristiques inhérentes du Big Data, initialement définies par Gartner Group (USA) en 2001, puis 2012. De grands volumes de données avec des flux d’entrée/sortie à haute vélocité, et une forte variété des sources, types et formats de données.

La donnée, nouvel Eldorado. De nombreux domaines sont concernés. En marketing, via la segmentation de bases clients ou la prédiction du comportement d’utilisateurs. Ou dans le domaine de la santé, très prometteur : le croisement des données issues de différentes sources peut permettre le développement de diagnostics personnalisés. L’essor de la santé connectée sera probablement rendu possible par l’utilisation massive d’objets de mesures reliés à votre téléphone portable.

Cette mine d’or numérique n’est toutefois pas toujours exploitée : seules 10% à 30% des données des entreprises seraient utilisées.

Les deux défis

Le stockage de ces données massives est réalisé dans des entrepôts de données, ou datacenters, contenant des dizaines de pétaoctets (Po). Véritables usines confrontés à des problématiques industrielles (énergie, distribution, évacuation de la chaleur) et des contraintes de connexion, ils engloutissant 1 % à 2 % de la consommation électrique mondiale. Amasser ainsi les disques n’est cependant pas insurmontable. Ce sont les outils techniques et conceptuels qui font défau.

Le Big Data doit affronter deux défis. Le premier est la gestion même de ces données : trop indisciplinées, trop massives, les outils classique ne suffisent plus. Le second défi concerne leur analyse : les programmes doivent être suffisamment bien pensés pour traiter efficacement des mégadonnées dans des temps acceptables. Le moteur de recherche de Google traite environ 40 000 recherches par seconde, mais nous concevrions mal qu’il ne traite pas notre recherche immédiatement !

Des bases de données adaptées

Les performances des bases de données dépendent des infrastructures matérielles qui les portent. Infrastructures parallèles ou distribuées : on assiste depuis dix ans à une convergence technologique vers une répartition de la puissance de calcul sur de multiples nœuds.

Les progrès technologiques permettant au microprocesseur de doubler ses performances tous les 14 mois environ, et ce depuis 40 ans, ont longtemps portés sur l’augmentation de sa fréquence d’horloge – jusqu’à l’apparition de problèmes de dissipation thermique, en 2004. La multiplication des unités de calcul au sein d’un même processeur permet maintenant d’accroitre les performances, en exécutant les calculs simultanément.

Le second mouvement est technologique et économique : à puissance équivalente, rassembler des ordinateurs du commerce est moins cher et plus pratique qu’exploiter un supercalculateur. Ingénieurs et scientifiques utilisent les réseaux et distribuent ainsi les calculs sur des myriades d’ordinateurs interconnectés, créant ainsi de vastes systèmes fonctionnant avec une architecture distribuée : citons Seti@home, exemple historique d’un type de calcul distribué effectuant l’analyse de signaux issus de radiotélescopes à la recherche de signaux extra-terrestres.

Au cœur du Big Data, les bases de données subissent cette convergence vers des infrastructures distribuées. Le problème est que le modèle relationnel structurant historiquement les bases de données type SQL n’a pas été pensé dans ce cadre. Au prix d’un relâchement des contraintes sur la cohérence interne de leur structure, de nouvelles bases mieux adaptées au fonctionnement en réseau sont apparues, dites NoSQL (not-only SQL) comme CouchDB, MongoDB, Redis, Cassandra etc.

Des algorithmes spécialisés

Le second défi réside dans la conception des algorithmes, c’est-à-dire les étapes de traitement interne d’un programme.

Le choix de l’algorithme est une affaire de compromis entre taille des données, architecture système et contraintes matérielles. Un bon algorithme évite de devoir mobiliser trop de ressources matérielles et tient mieux la montée en charge : taille de données, requêtes utilisateurs etc.

Dans le cas du Big Data, un algorithme avec une complexité maitrisée ne suffit pas. Traiter un pétaoctet de données en un temps raisonnable requiert de faire appel à une forte capacité de calcul ; et donc, de distribuer le traitement. Cette adaptation logicielle aux architectures distribuées est un domaine très actif depuis dix ans qui a vu l’émergence, entre autres, de MapReduce.

MapReduce

MapReduce (Google, 2004) et son implémentation la plus connue, Hadoop (Yahoo, 2005) illustrent le paradigme actuel du calcul distribué : séparer le traitement de l’infrastructure logicielle permettant la répartition du calcul, la gestion des données distribuées, mais aussi l’hétérogénéité des ordinateurs et connections. L’intérêt est de pouvoir gérer plus facilement les contraintes matérielles (pannes, défaillances, saturation, encombrement réseau) et de pouvoir accroitre la puissance de calcul en mobilisant des noeuds de calculs supplémentaires.

Diviser, pour mieux régner

Deux clés de compréhensions émergent, pour penser ces évolutions technologiques:

-« Penser parallèle », avec MapReduce et les architectures parallèles et distribuées

-« Penser local », en apportant le processeur à la donnée, puisque les données sont trop massives pour être appréhendées d’un bloc.

Quant à la conception des algorithmes, elle reste l’apanage du data scientist, scientifique des données. A lui de maitriser son art, à mi-chemin entre mathématiques appliquées et informatique théorique, pour pouvoir traiter des problèmes intrinsèquement complexes à l’aide d’habiles méta-heuristiques !

Bienvenue à #BigData
Notez cet article

Laisser un commentaire

Réinventer les processus à l’heure de la transformation numérique

Comment mettre en place une approche BPM -Collaboration IT / métier efficace –Retour d’expériences. Webinaire : mardi 28 novembre de 11h00 à 11h45, avec CXP Group.

Infos et inscription

Sondage

RGPD : ETES-VOUS PRÊT ? Le Règlement Général sur la Protection des Données entre en application le 25 mai 2018.

Voir les résultats

Loading ... Loading ...
Nos derniers dossiers
  • EDITO N°17

    Utopie ou réalité ? Les annonces quotidiennes de l’IT sont souvent à la frontière de…

  • Le serveur entre dans l’ère du SD-DC

    À l’ère du SD-DC (software-defined datacenter), les serveurs capables de reconfiguration à la volée qui…

Témoignages
Juridique
  • Aides d'État: la Commission assigne l'Irlande devant la Cour de justice pour non-récupération des 13 milliards € d'avantages fiscaux perçus illégalement par Apple

    La Commission européenne a décidé d'assigner l'Irlande devant la Cour de justice de l'UE pour…

    > En savoir plus...
Paroles d'experts
Paroles
d'experts
  • Lutte contre la fraude, enjeu stratégique de l’ère numérique

    Un projet de dématérialisation des processus ne peut plus être conçu indépendamment d’un système de…

    > En savoir plus...
Etudes/Enquêtes
  • 2016 -2017 : des attaques par courrier électronique en augmentation de 2 200 %

      Chaque année, le troisième trimestre se révèle une période de recrudescence des messages frauduleux,…

    > En savoir plus...
newsletter
Inscription Newsletter

Restez informé. L’abonnement à la newsletter est gratuit.

> Abonnement

Guide de la cybersécurité 2017-2018

Global Knowledge_Docker_Skycraper
Agenda
livres blancs
Les Livres
Blancs
Global Knowledge_Docker_Skycraper