Go to Top

Quelles applications et quels systèmes peuvent gérer le Big Data ?

En dehors de la collecte des données qui ne cesse de s’accroître dans tous les domaines d’activité, que ce soit dans le médical, le marketing et bien d’autres, il s’agit de pouvoir en faire quelque chose : les stocker et les traiter. Plusieurs systèmes ou plutôt « écosystèmes » ont vu le jour, évoluent, s’imposent à un moment… puis d’autres les détrônent. Quelques idées sur un marché en structuration.


On y reviendra, mais le secret du Big Data tient à la souplesse des systèmes et à l’intelligence de ceux qui s’en servent.  Dans le monde actuel, les principaux systèmes peuvent être qualifiés « d’écosystèmes ». Les noms qui reviennent souvent sont Hadoop, Apache Spark qui se déclare 100 fois plus rapide et sur lequel IBM investit massivement, mais aussi Elasticsearch, Google BigQuery, MongoDB… De quoi s’agit-il ? L’idée d’écosystème s’explique par le fait que pour tout dispositif capable de traiter du Big Data, il faut que des services bien identifiés sachent travailler ensemble, massivement et à grande vitesse, et que cela nécessite de s’appuyer sur une mécanique de coordination puissante et versatile/évolutive en fonction du temps et/ou des objectifs recherchés.

Les services existent sous différentes formes et utilisent différentes « technologies » ou plutôt plusieurs façons d’analyser une situation et d’y répondre par de grands principes. La plateforme peut exploiter des services qui peuvent être agrégés par des accès à des ressources bien spécifiques, pas forcément interdépendantes sur le Cloud, ou, au contraire, peuvent s’adosser à une infrastructure unique et multi-services, elle aussi en général en Cloud, par exemple déployée en OpenStack. Dans ce monde, l’Open Source est majoritaire mais dès qu’il s’agit de mettre en pratique, l’ingénierie est le moteur économique de ces écosystèmes en plus des dispositifs de mise à disposition des ressources machine et du coût d’acquisition des données.

 

Lire aussi : Big Data, mes données sont partout ! 

 

  • Le système distribué de fichiers est le cœur du dispositif : il permet de garantir la fiabilité du stockage, la reconstruction suite à un incident, la répartition des fichiers sur des centaines, voire des milliers de serveurs. Il est indispensable à toute solution. Il existe HDFS pour Hadoop (Apache), mais aussi GFS de Google, DFS chez Microsoft, etc.
  • Le type de base de données est un choix qui implique souvent le choix d’une solution bien particulière. Ainsi, on connait les bases de données relationnelles comme SQL (Microsoft) ou MySQL (Oracle), mais avec le Big Data, vu que les données sont souvent de type non structuré ou semi-structuré, on parle plutôt de NoSQL ; non pas pour dire qu’il n’y a pas de SQL, mais qu’il n’y a pas seulement du SQL. Dans la famille des bases NoSQL on trouve Cassandra qu’utilise par exemple Twitter, mais aussi MongoDB exploitée sur les services de SourceForge.net, SimpleDB chez Amazon, BigTable chez Google, HBase sur Hadoop,
  • Le dispositif de recherche dans le Big Data se base sur une indexation des différentes variétés de données structurées et non structurées. C’est certainement là qu’il y a le plus de technologies mises en œuvre car ces technologies tiennent à la manière d’indexer pour ensuite rechercher. Rechercher quoi pour quoi faire ? Hadoop avait été développé pour s’attaquer aux données financières de toutes provenances et se basait sur Lucene d’Apache. Parmi les valeurs montantes, ElasticSearch une évolution du projet Lucene d’Apache qui concurrence Solr qui reste la solution phare d’Apache. Parmi les dispositifs concurrents on trouve Sphinx, et pour exemple de solutions commerciales Splunk, Google BigQuery qui vend ses ressources à l’utilisation de ses serveurs tout comme Microsoft propose aussi des solutions à base de Hadoop mais aussi de SQL sur sa plateforme Azure qui elle aussi se finance à l’usage des ressources plus ou moins onéreuses en fonction de l’usage de technologies propriétaires ou pas,
  • Pour la Distribution / Coordination, le système Hadoop se base sur Zookeeper qui coordonne la base de données native HBase en s’appuyant sur le système distribué de fichiers HDFS qui va lui-même être attaché à d’autres services plus particulièrement liés aux traitements en commençant par l’indexation, le catalogage et les traitements plus spécifiques qui s’ensuivent par exemple avec MapReduce, un système qui extrait précisément ce qui est demandé,
  • Au final, tous ces services engendrent un flux de données (Workflow) correspondant à tel ou tel besoin.

Laisser un commentaire