Table des matières:
- Comment Hadoop a-t-il commencé?
- Qu'est-ce qui est si important avec Hadoop?
- Qu'est-ce que le schéma en lecture?
- Qu'est-ce que Hive?
- Quel type de données Hadoop analyse-t-il?
- Pouvez-vous donner un exemple concret de Hadoop?
- Hadoop est-il déjà obsolète ou en train de se transformer?
Qu'est-ce que Hadoop? C'est un éléphant jouet jaune. Pas ce que vous attendiez? Qu'en est-il: Doug Cutting - co-créateur de ce projet de logiciel open source - a emprunté le nom de son fils qui a appelé son éléphant jouet Hadoop. En bref, Hadoop est un cadre logiciel développé par la Apache Software Foundation qui est utilisé pour développer une informatique distribuée et gourmande en données. Et c'est un élément clé d'un autre mot à la mode que les lecteurs ne semblent jamais en avoir assez: les mégadonnées. Voici sept choses que vous devez savoir sur ce logiciel unique sous licence gratuite.
Comment Hadoop a-t-il commencé?
Il y a douze ans, Google a construit une plateforme pour manipuler les énormes quantités de données qu'il collectait. Comme l'entreprise le fait souvent, Google a rendu son design accessible au public sous la forme de deux documents: Google File System et MapReduce.
Parallèlement, Doug Cutting et Mike Cafarella travaillaient sur Nutch, un nouveau moteur de recherche. Les deux avaient également du mal à gérer de grandes quantités de données. Ensuite, les deux chercheurs ont eu vent des articles de Google. Cette heureuse intersection a tout changé en introduisant Cutting et Cafarella dans un meilleur système de fichiers et un moyen de garder une trace des données, ce qui a finalement conduit à la création de Hadoop.
Qu'est-ce qui est si important avec Hadoop?
Aujourd'hui, la collecte de données est plus facile que jamais. La possession de toutes ces données présente de nombreuses opportunités, mais il existe également des défis:- Des quantités massives de données nécessitent de nouvelles méthodes de traitement.
- Les données capturées sont dans un format non structuré.
Ensuite, ils ont dû s'attaquer aux données non structurées ou aux données dans des formats que les systèmes de bases de données relationnelles standard n'étaient pas en mesure de gérer. Cutting et Cafarella ont conçu Hadoop pour travailler avec tout type de données: structurées, non structurées, images, fichiers audio, même texte. Ce livre blanc sur Cloudera (intégrateur Hadoop) explique pourquoi c'est important:
-
"En rendant toutes vos données utilisables, pas seulement celles de vos bases de données, Hadoop vous permet de découvrir des relations cachées et de révéler des réponses qui ont toujours été hors de portée. Vous pouvez commencer à prendre plus de décisions sur la base de données fiables, au lieu de intuitions, et regarder à des ensembles de données complets, pas seulement des échantillons et des résumés. "
Qu'est-ce que le schéma en lecture?
Comme cela a été mentionné précédemment, l'un des avantages de Hadoop est sa capacité à gérer des données non structurées. Dans un sens, c'est «donner un coup de pied dans la boîte». Finalement, les données ont besoin d'une sorte de structure pour pouvoir les analyser.
C'est là que le schéma de lecture entre en jeu. Le schéma à la lecture est la fusion du format des données, de l'endroit où les trouver (rappelez-vous que les données sont dispersées sur plusieurs serveurs) et de ce qui doit être fait pour les données - pas une tâche simple. Il a été dit que la manipulation des données dans un système Hadoop nécessite les compétences d'un analyste commercial, d'un statisticien et d'un programmeur Java. Malheureusement, il n'y a pas beaucoup de gens avec ces qualifications.
Qu'est-ce que Hive?
Si Hadoop allait réussir, le travail avec les données devait être simplifié. Ainsi, la foule open-source s'est mise au travail et a créé Hive:-
"Hive fournit un mécanisme pour projeter la structure sur ces données et interroger les données à l'aide d'un langage de type SQL appelé HiveQL. Dans le même temps, ce langage permet également aux programmeurs de carte / réduction traditionnels de connecter leurs mappeurs et réducteurs personnalisés lorsqu'ils ne sont pas pratiques ou inefficace pour exprimer cette logique dans HiveQL. "
Hive offre le meilleur des deux mondes: le personnel de base de données familiarisé avec les commandes SQL peut manipuler les données et les développeurs familiers avec le schéma sur le processus de lecture peuvent toujours créer des requêtes personnalisées.
Quel type de données Hadoop analyse-t-il?
L'analyse Web est la première chose qui vient à l'esprit, en analysant les journaux Web et le trafic Web afin d'optimiser les sites Web. Facebook, par exemple, est définitivement dans l'analyse Web, utilisant Hadoop pour trier les téraoctets de données que l'entreprise accumule.
Les entreprises utilisent les clusters Hadoop pour effectuer l'analyse des risques, la détection des fraudes et la segmentation de la clientèle. Les entreprises de services publics utilisent Hadoop pour analyser les données des capteurs de leur réseau électrique, ce qui leur permet d'optimiser la production d'électricité. De grandes sociétés telles que Target, 3M et Medtronics utilisent Hadoop pour optimiser la distribution des produits, les évaluations des risques commerciaux et la segmentation de la clientèle.
Les universités sont également investies dans Hadoop. Brad Rubin, professeur agrégé aux programmes d'études supérieures en logiciel de l'Université de St. Thomas, a mentionné que son expertise Hadoop aide à trier les nombreuses données compilées par les groupes de recherche de l'université.
Pouvez-vous donner un exemple concret de Hadoop?
L'un des exemples les plus connus est le TimesMachine. Le New York Times possède une collection d'images TIFF de journaux pleine page, de métadonnées associées et de textes d'articles de 1851 à 1922, représentant des téraoctets de données. Derek Gottfrid du NYT, utilisant un système EC2 / S3 / Hadoop et un code spécialisé:-
"A ingéré 405 000 images TIFF très volumineuses, 3, 3 millions d'articles en SGML et 405 000 fichiers xml mappant des articles sur des régions rectangulaires dans les TIFF. Ces données ont été converties en 810 000 images PNG plus conviviales (miniatures et images complètes) et 405 000 fichiers JavaScript." "
À l'aide de serveurs dans le cloud Amazon Web Services, Gottfrid a indiqué qu'ils étaient en mesure de traiter toutes les données requises pour TimesMachine en moins de 36 heures.
Hadoop est-il déjà obsolète ou en train de se transformer?
Hadoop existe depuis plus d'une décennie maintenant. Beaucoup de gens disent que c'est obsolète. Un expert, le Dr David Rico, a déclaré que "les produits informatiques sont de courte durée. Dans les années canines, les produits de Google sont d'environ 70, tandis que Hadoop en a 56".
Il peut y avoir du vrai dans ce que dit Rico. Il semble que Hadoop traverse une refonte majeure. Pour en savoir plus à ce sujet, Rubin m'a invité à une réunion du groupe d'utilisateurs Twin Cities Hadoop, et le sujet de discussion était Introduction à YARN:
-
"Apache Hadoop 2 comprend un nouveau moteur MapReduce, qui présente un certain nombre d'avantages par rapport à l'implémentation précédente, notamment une meilleure évolutivité et une meilleure utilisation des ressources. La nouvelle implémentation est basée sur un système général de gestion des ressources pour exécuter des applications distribuées appelé YARN."