Accueil BIG-DATA, NO-SQL, HADOOP, ETC : Progrès ou cacophonie dans la gestion des...

BIG-DATA, NO-SQL, HADOOP, ETC : Progrès ou cacophonie dans la gestion des données ?

Sous l’angle métier, comment évolue la production et l’usage des données ?

Les volumes de données produites par les entreprises, les particuliers et les objets connectés explosent littéralement. IDC estime cette croissance à environ +45% par an soit une multiplication par 40 en 10 ans. Nous atteindrions donc en 2020 35 Zo (soit 35.000.000 Po). L’essentiel de ces volumes concerne des données non-structurées. Les données structurées pèsent moins mais devraient toutefois augmenter avec les objets connectés qui en produiront plus que les personnes. De plus, Les usages du « BigData » sont multiples et il en apparait de nouveaux en permanence. Les données seront le principal carburant du « Machine learning » processus clef de l’intelligence artificielle.

Quelles entreprises sont réellement concernées ?
En première approche on pourrait penser que BigData et intelligence artificielle ne concernent que quelques niches métier spécifiques. En approfondissant l’étude on réalise rapidement que tous les secteurs d’activité vont être rapidement concernés en grande partie du fait des objets connectés et des robots.

Quoi de neuf dans les problématiques de stockage et de gestion de données ?
Les nouveautés découlent de la croissance des volumes, de la pertinence du stockage dans le Cloud et plus seulement dans l’entreprise. Dans un état type de la décennie 2000 les entreprises disposaient de deux types de stockage et de données : Des données structurées stockées dans des baies de stockage et des données non-structurées exploitées en mode fichier dans des NAS

Ce paysage technique du stockage des données reste encore très présent en l’état en 2016. Toutefois la décennie en cours montre de nombreuses transformations en cours. Pour résumer, une entreprise avec une IT « à la pointe » aurait à ce jour son environnement collaboratif et une partie de ses applications standard en SaaS dans le Cloud, le reste des applications virtualisées à 100% dans une architecture hyperconvergée X86 en « stretched cluster » dual-site en Datacenter neutre ou en Cloud public et enfin un stockage Objet capacitif « low cost » en Datacenter neutre ou dans le Cloud.

Quels sont les différenciateurs entre une gestion de données structurées ou non- structurées ?

La taille des entités élémentaires est le premier différenciateur. L’autre différenciateur majeur concerne les opérations qui seront réalisées sur les données.

Voilà qui nous amène aux fameuses propriétés « ACID », de quoi s’agit-il ?
ACID signifie : Atomicité, Cohérence, Isolation, Durabilité. C’est en quelque sorte la table de la loi pour un système de gestion de données « transactionnel ».

Qu’est-ce qu’un SGBD NoSQL ?
C’est un gestionnaire de données qui n’utilise pas le modèle relationnel et ne respecte pas simultanément les 4 règles « ACID » et permet un accès aux données autrement qu’en langage SQL

Quand et pourquoi les SGBD No-SQL sont-ils apparus ?

Le terme NoSQL a été introduit en 2009, mais les produits répondant à cette définition sont en fait apparus début 2000. Ce sont les géants du web amenés à traiter des volumes de données très importants qui ont été confrontées aux limitations intrinsèques des SGBD relationnels traditionnels. Par ailleurs les aspects de coûts et d’indépendance ont également beaucoup joué. De nombreuses entreprises ont donc développé leurs propres systèmes de gestion de base de données fonctionnant sur des architectures matérielles distribuées et permettant de traiter de très grands volumes de données. De nos jours, une large communauté de développeurs de logiciels NoSQL s’est créée.

Le modèle relationnel-SQL est-il donc périmé ou en déclin ? Les entreprises ont- elles de bonnes raisons de passer au NoSQL ?

Dans la quasi-totalité des cas, y compris les plus grandes entreprises, un SGBD Relationnel en cluster comme ORACLE ne sera pas à ses limites pour traiter l’accès aux données en utilisant un stockage FULL-FLASH si nécessaire. Les raisons d’un abandon éventuel et partiel du relationnel en entreprise portent plutôt sur la question de l’agilité des développements, d’une volonté d’adopter l’Open Source, de baisser les coûts de licences ou d’adopter le Cloud. La culture d’une nouvelle génération de développeurs d’applications pèse aussi fortement. Certaines entreprises créent des équipes dédiées aux nouvelles applications innovantes orientées « économie numérique ».

Y aura-t-il cohabitation entre SQL et NoSQL ?

Oui et cela pour deux raisons. D’une part une approche raisonnée des choses poussera à utiliser malgré tout un SBGD Relationnel transactionnel quand cela est pertinent, d’autre part les nouvelles applications ne peuvent pas faire abstraction de l’héritage historique (Legacy).

N’y a-t-il pas également un mouvement d’adoption du relationnel en Open Source ?

Ce mouvement existe. Avec la réduction des coûts à presque tous les niveaux les utilisateurs voient la ligne licence/maintenance arrivée en haut de la liste de leurs principaux budgets. Au fil du temps ils trouvent le niveau de facturation exigé en maintenance par ces SGBD commerciaux de plus en plus illégitime. Aujourd’hui, le SGBD relationnel Open Source phare est désormais POSTGRESQL. Il présente désormais toutes les qualités requises pour une très large adoption.

Quels sont les avantages de flexibilité des SGBD NoSQL ?

La première étape de la création d’une base de données relationnelle est de définir son schéma ce qui crée une certaine rigidité dans le développement et implique d’avoir une bonne vision dès le départ ainsi que des évolutions et par ailleurs est contraignant pour la gestion des évolutions. Les systèmes NoSQL sans-schéma peuvent ignorer cette étape et gérer des données hétérogènes au fur et à mesure du besoin et de l’arrivée des données. Cette utilisation permet une grande flexibilité et des capacités d’adaptation en contrepartie d’une plus grande complexité d’intégration des données entre elles dans le développement applicatif. Avec le NoSQL, les développeurs d’applications ne sont plus dépendants des équipes infras- tructures et DBA pour la gestion des données.

Face à toutes ces opportunités de transformations possibles, comment aborder le sujet ?

Le plan de transformation stockage-gestion de données doit s’inscrire dans un plan de transformation plus vaste du SI. L’entreprise devra clarifier sa stratégie Cloud et construire sa feuille de route vers un Cloud hybride dans un premier temps et cela en regard des enjeux métiers basés sur ses projets concrets de court terme et d’une vision à moyen-long terme. Un minutieux travail d’analyse et de préparation du plan de transformation est nécessaire. Les aspects de transformation sociale dans l’entreprise doivent impérativement être pris en compte. En effet l’inéluctable transformation vers le Cloud impacte beaucoup plus fortement les ressources humaines de l’IT que les transformations du passé.

Pour lire l’intégralité du livre blanc, cliquez sur le lien suivant : http://bit.ly/2fv0j3R

Par Bertrand QUILLEVERE, Consultant Sénior Transformation Infrastructure IT – Vialis