Comprendre – Le jargon du Big Data expliqué

23 mai 2018

Alors que l’on ne parle plus que d’intelligence artificielle ou de Machine Learning… Janet George, Fellow & Chief Data Scientist chez Western Digital, décrypte en exclusivité pour les lecteurs de Solutions Numériques, le jargon lié au Big Data.

Data Scientist

Alliant à parts égales la science, la gestion et l’art, le Data Scientist utilise sa connaissance des algorithmes, des outils et des processus afin d’extraire une certaine valeur des données. Un Data Scientist fait souvent appel à l’apprentissage automatique (Machine Learning) ou à l’intelligence artificielle pour collecter, regrouper ou analyser des ensembles de données.

Hétéroscédasticité et données hétéroscédastiques

Hétéroquoi ? Ce terme étant peut-être nouveau pour vous, prenons un exemple très simple pour en définir la signification.

Certaines données sont constantes et ne varient jamais. C’est le cas des fichiers journaux web de la veille. A moins d’inventer une machine à remonter le temps, il nous est impossible de modifier ce que quelqu’un a fait dans le passé.

Le niveau suivant de complexité des données est leur caractère linéaire. Une file d’attente ou une messagerie vocale sont des exemples de progression linéaire. Si un opérateur peut traiter dix messages par heure, alors il en faut cinq pour traiter 50 messages dans le même laps de temps. Une progression quadratique s’effectue à un rythme 4 fois plus élevé (ou rapide). Un exemple nous est fourni par les réseaux sociaux. Lorsque vous publiez quelque chose, 4, 10, 100 voire des millions de personnes peuvent le lire. Ces personnes peuvent partager votre publication, la commenter ou encore générer d’autres métadonnées qui changent à chaque seconde. C’est ici que nous entrons dans l’hétéroscédasticité. Ce concept se définit par la combinaison d’une grande rapidité (de déplacement et d’évolution) et d’une grande variabilité (c’est-à-dire l’impossibilité de prévoir facilement qui va commenter, partager et aimer une publication, et à quelle vitesse une réponse interviendra).

Une autre analogie appropriée nous vient de la cuisine. Pour préparer un repas, nous combinons des ingrédients de différentes manières dans l’espoir de produire un résultat délicieux. Comme le sait quiconque a déjà essayé de cuisiner, les variations les plus minimes et les plus diverses – l’ajout d’une pincée de sel, un temps de cuisson trop long de 2 minutes, des tomates coupées en tranches trop grosses ou trop fines – peuvent avoir un profond impact sur le succès de la recette finale.

Même si vous n’aviez jamais vu ce terme auparavant, l’hétéroscédasticité est un concept que vous allez rencontrer de plus en plus dans le domaine de l’Internet industriel des objets. C’est en particulier le cas en présence de données à haut débit (streaming, par exemple) ou, fréquemment, de données non structurées changeant rapidement, telles que les pages web HTML parcourues par les robots de Google.

Machine Learning

Le Machine Learning (ML) est un domaine de l’informatique qui permet aux ordinateurs d’apprendre automatiquement à reconnaître et extraire des motifs dans les données brutes par l’entraînement rigoureux de modèles.

Le ML rend possibles les « trois C des Big Data » : classification, clustering et filtrage collaboratif.

La classification consiste à ranger un nouveau motif dans une catégorie/sous-catégorie ou une population/sous-population déjà identifiée et connue afin d’entraîner le modèle en conséquence. Par exemple, il peut s’agir d’entraîner un algorithme pour reconnaître des tumeurs parmi un jeu d’IRM, puis de lui demander de repérer automatiquement des tumeurs sur de nouveaux clichés.

Le clustering est le regroupement de données brutes dans des ensembles appelés des « clusters ». A titre d’exemple, un algorithme ML peut être appliqué à des fichiers journaux web en temps réel, regroupant le trafic légitime (autorisé) dans une catégorie et les éventuelles attaques (à bloquer) dans une autre.

Le filtrage collaboratif n’est autre qu’un terme de jargon pour désigner les « recommandations », par exemple les produits à présenter aux visiteurs d’un site en raison d’une affinité avec d’autres.

L’essentiel du Machine Learning relève du « shallow learning » (apprentissage peu profond). L’apprentissage profond (« deep learning ») est quant à lui généralement une composante de la véritable intelligence artificielle.

Intelligence artificielle

L’intelligence artificielle (IA) englobe le ML et va au-delà en offrant aux ordinateurs la capacité de procéder à une analyse cognitive approfondie.

Alors que le ML implique typiquement une part d’intervention humaine sous la forme de création, d’optimisation ou d’entraînement d’algorithmes (par exemple pour l’examen d’IRM de tumeurs éventuelles par un ordinateur), l’IA permet à l’ordinateur d’opérer des choix et des ajustements et d’apprendre lui-même à réaliser certaines fonctions spécifiques. Le but ultime de l’IA est de s’appuyer sur le deep learning afin de reproduire les processus de prise de décision et d’apprentissage de l’être humain.

Réalité virtuelle

La réalité virtuelle (VR) permet aux utilisateurs de s’immerger dans des univers virtuels, peuplés d’images et de sons totalement différents de leur environnement physique.

Grâce à la VR, il est ainsi possible de vivre des expériences telles que des montagnes russes virtuelles, mais celle-ci a aussi des applications professionnelles importantes. Cette technologie nécessite généralement un casque numérique.

Réalité augmentée

La réalité augmentée (AR) consiste à superposer au monde réel des éléments numériques avec lesquels il est possible d’interagir. Cette technologie a récemment connu un large succès avec certaines applications de jeu.

Traitement du langage naturel

Le traitement du langage naturel (NLP) permet aux ordinateurs d’analyser et de comprendre le langage humain écrit ou parlé. Si vous donnez des instructions à votre téléphone ou à votre centrale domotique, vous avez probablement eu affaire à cette technologie.

Il s’agit là d’un parfait exemple pour expliquer la différence entre deep learning et shallow learning (apprentissage plus ou moins profond). Le NLP de première génération (shallow learning) s’attachait à décomposer une phrase en tokens (des mots), puis à leur appliquer certaines règles. Aujourd’hui, le NLP à apprentissage profond (deep learning) examine l’intégralité du contexte d’une déclaration afin d’en extraire le sens.

Imaginons un avis client écrit sur une page web. Une méthode de type shallow learning se bornerait à examiner un nombre limité de tokens, tels que le nombre d’étoiles attribuées ou l’analyse du sentiment de base du client. Cela peut impliquer de compter le nombre de mots positifs et négatifs. Ces données sont ensuite injectées dans un ensemble souvent-hasardeux de règles, dans le but d’en conclure si l’avis est positif ou négatif.

Un moteur de deep learning, quant à lui, applique plus d’intelligence à cette analyse, davantage à la manière d’un être humain lisant le même avis client. Par exemple, si l’avis comporte de nombreux aspects « positifs » (cinq étoiles, fort ratio positif/négatif, etc.), un moteur NLP de type shallow learning pourrait en déduire que l’avis lui-même est positif. Un moteur de deep learning, par contre, pourrait arriver à la conclusion (à l’instar d’un analyste humain) que l’avis est en fait négatif, en lisant la phrase « Je ne rachèterai jamais ce produit ». En effet, cette phrase anéantit à elle seule toute opinion positive que le client aurait pu avoir exprimée.

Reconnaissance d’images

La reconnaissance d’images permet à des ordinateurs de tirer une signification d’une simple image. Cette technologie est souvent intégrée dans les solutions ML ou IA (ainsi que NLP).

Grâce à la reconnaissance d’images, les ordinateurs peuvent identifier des éléments tels que le langage écrit (reconnaissance optique de caractères ou OCR), des objets distinctifs ( « montagne », « arbre », « voiture », « gratte-ciel », etc.) et même des visages.

La reconnaissance d’images franchit aujourd’hui un nouveau palier dans l’industrie automobile avec une application d’analyse faciale qui détecte et alerte les conducteurs paraissant fatigués.

Données structurées, non structurées et semi-structurées

Traditionnellement, une grande partie des données traitées sont fortement structurées. Cela signifie qu’elles peuvent facilement se ranger en lignes et en colonnes (format des bases de données, par exemple). En conséquence, de nombreux systèmes informatiques ont été conçus pour saisir et produire cette forme de données.

L’être humain ne raisonne pas comme cela. Nous excellons à produire et consommer des données non structurées (texte libre, enregistrements vocaux, photos, etc.). Toutes ces données n’ont intrinsèquement pas de « structure ». Il n’est pas possible de s’en remettre à certaines caractéristiques linguistiques, paroles, intonations, etc.

Les données semi-structurées se trouvent à mi-chemin entre les deux. C’est notamment le cas d’un e-mail. Celui-ci présente une certaine structure (objet, destinataire, expéditeur, date) mais le corps du message est un ensemble de texte non structuré.

Ce n’est qu’au cours des dix dernières années que nos systèmes informatiques sont devenus assez puissants pour analyser des données non structurées.

Lac de données (datalake)

Tout moteur analytique, à l’image de Hadoop, assure à la fois le stockage et le traitement informatique, souvent dans une configuration étroitement intégrée. Toute augmentation de la capacité de traitement s’accompagne donc d’un accroissement intrinsèque de la capacité de stockage.

De nombreuses entreprises possèdent des masses (pétaoctets) de données qu’elles souhaitent conserver durablement mais sans les analyser immédiatement, notamment car celles-ci peuvent avoir besoin de faire l’objet d’un traitement et d’un nettoyage préalables.

Un lac de données offre un espace de stockage économique, durable et accessible partout, mais avec une capacité de traitement limitée. Il permet ainsi de conserver bien plus de données que la quantité pouvant être traitée en une seule fois.

Si nous prenons la métaphore d’une recette de cuisine, un lac de données peut se comparer à un garde-manger contenant les ingrédients bruts (légumes, riz, bouillon…). Ce n’est que lorsque vous souhaitez préparer un repas que vous puisez les ingrédients nécessaires à la réalisation de la recette.

Base de données

Ce que nous appelons couramment une « base des données » est également connu sous le sigle SGBDR (système de gestion de bases de données relationnelles) ou OLTP (Online Transaction Processing). Oracle, MySQL et SQL Server en sont tous des exemples courants.

Les SGBDR se caractérisent par de nombreuses micro transactions provenant (typiquement) des utilisateurs finaux.

Pensez aux sites d’e-commerce. A tout moment, plusieurs centaines de milliers d’utilisateurs effectuent de petites opérations de lecture (requêtes) et d’écriture (insertions) à mesure qu’ils recherchent des produits, lisent des avis clients, passent des commandes, etc. Ces systèmes doivent traiter les requêtes très rapidement.

Datawarehouse

Un datawarehouse (« entrepôt de données) est le lieu où une entreprise exécute des fonctions analytiques afin de répondre à diverses questions importantes pour sa gestion. Quelle est la gamme de produits affichant la plus forte croissance ? Quelles catégories de produits dégagent le meilleur retour sur investissement ? Quelles régions ou catégories, quels vendeurs, etc. sont les moins performants ?

Les datawarehouses ne sont généralement utilisés que par un nombre restreint d’utilisateurs internes (une dizaine ou quelques dizaines), exécutant de longues requêtes sur des quantités massives de données (pouvant représenter des centaines de téraoctets voire des dizaines de pétaoctets).

Visualisation

Un outil de visualisation offre une interface frontale pour des analyses complexes.

Par simple glisser-déposer, même des stagiaires sans expérience peuvent créer quantité de rapports complexes (ventes trimestrielles, meilleures ventes, taux de croissance, etc.).

Ces systèmes nécessitent généralement que le moteur auquel ils sont connectés dispose d’une interface SQL, ce qu’offre – ce n’est pas une coïncidence – chaque SGBDR et datawarehouse. Si vous faites partie de la majorité des analystes de données, 95 % de vos interactions avec vos systèmes se déroulent via l’un de ces outils de visualisation.

Le chinois Xiaomi à l'assaut de la France : première boutique à Paris, site français et partenariat avec les opérateurs de téléphonie