Hadoop monte en puissance

1 septembre 2012

Hadoop est un framework Open Source destiné au traitement de volumes importants de données, de l'ordre de plusieurs petaoctets (Po). Il ouvre des perspectives encore inenvisageables il y a quelques mois ou années seulement, c'est pourquoi il a actuellement le vent en poupe, au point que tous les acteurs du monde de la BI (Oracle, Microsoft, IBM, SAS, MicroStrategy, Teradata etc.) proposent désormais des solutions autour de cet écosystème. Initialement développé en 2004 en Java par Doug Cutting (également à l'origine de Lucene et Nutch), alors employé par Yahoo!, il est depuis 2009 placé sous l'égide de la fondation Apache. Le socle de Hadoop est Hadoop Common, une série d'utilitaires venant étayer les différents sous-projets Hadoop. Parmi ceux-ci, citons HDFS (Hadoop Distributed File System), le système de fichiers distribués qui permet les hauts débits nécessaires à l'accès aux données applicatives, et MapReduce, un framework applicatif distribuant les traitements de gros ensembles de données sur différents clusters. Hadoop fonctionne selon le principe des grilles de calcul (grid computing) et répartit les traitements sur les noeuds de serveurs disponibles. Le système HDFS gère la répartition des données sur les différents noeuds et la distribution et la gestion des calculs sont prises en charge par MapReduce. Les autres sous-projets de Hadoop sont notamment les bases de données évolutives Cassandra (initiée par Facebook) et HBase, le système de sérialisation de données Avro, l'infrastructure d'entrepôt de données Hive ou encore le système de collecte de données Chukwa.

«Femmes du Numérique» améliore l'image de l'IT auprès des jeunes filles