Go to Top

Dossier Big Data (1/3) – Hadoop ? Quezako ?

Dossier Big Data

Dans un monde numérique en pleine construction, le Big Data fait partie des challenges actuels et futurs dans la manière de collecter et traiter des données provenant de sources de plus en plus colossales. Dans la jungle de la recherche et du développement qui en découle, émerge Hadoop… Quezako ?

Hadoop n’est pas le Big Data et le Big Data n’est pas Hadoop. Hadoop peut se résumer comme étant une « suite » cohérente et structurée d’outils logiciels chargés de traiter de bout en bout la problématique Big Data. Issue du monde Open Source, Hadoop existe déjà en plusieurs déclinaisons que l’on appelle distributions : les trois principaux acteurs sont Cloudera, HortonWorks et MapR.

L’objectif n’est pas ici de comparer les acteurs, cela entrerait dans des problématiques trop complexes et pas du tout adaptées au contexte de cet article. Ce qu’il faut plutôt retenir, c’est le fait qu’il existe plusieurs outils. C’est là que c’est le plus intéressant puisque leur existence explique en résumé les problématiques réelles rencontrées dans le phénomène Big Data.

Le plus connu des outils, c’est une solution à la base même de la problématique du stockage massif de données déstructurées : le système de fichier. HDFS pour Hadoop Distributed File System est un principe de système de gestion de fichiers distribué qui prend ses origines dans GoogleFS. Il est par nature extensible, et s’affranchit de la limite classique de gestion des fichiers dans un espace délimité par la taille du média : ici, un seul fichier peut être « clusterisé », c’est-à-dire distribué sur des grappes d’ordinateurs possédant eux-mêmes des grappes de disques durs. On appelle ces machines un « cluster HDFS. »

Au-delà du stockage qui est en soit une grosse problématique ainsi résolue par le HDFS, il y a la manière dont l’information doit pouvoir être traitée. Les deux principaux outils de recherche de données d’Hadoop s’appellent Hive et Pig ; Hive, qui s’approche du SQL, a été créé à l’origine par Facebook, Pig a été initié par Yahoo!.

Enfin, pour parfaire l’esquisse de ce tableau Hadoop, il faut penser au problème de base récurrent sur tout système d’information : la sauvegarde des données ! Pas une mince affaire sur un tel enchevêtrement de besoins et de ressources. Tout, là encore, fait partie intrinsèque de HDFS qui organise le fichier avec une réplication automatisée simultanée sur plusieurs serveurs. C’est le serveur de métadonnées qui connaît l’intégralité du déploiement de chaque fichier sur l’architecture distribuée. C’est lui qui est donc au cœur de la problématique de disponibilité des données.

Google, Facebook, Yahoo!… On le voit, ceux qui ont des besoins initient les grandes tendances et dopent la R&D. Les challenges d’Hadoop sont évidemment d’améliorer tout ce qui concerne la taille de stockage, sa vitesse et ses modes d’accès. Les dernières nouveautés ont été d’améliorer les capacités de haute disponibilité. Toutefois, une des priorités actuelles est focalisée sur le basculement automatique de la haute disponibilité du serveur de métadonnées vers une sauvegarde puisque cela s’effectue à ce jour manuellement.

Retrouvez tous les articles de notre Dossier Big Data

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *