Accueil Les tendances Qu'est-ce que le $ @! est hadoop?

Qu'est-ce que le $ @! est hadoop?

Table des matières:

Anonim

Tout le monde parle de Hadoop, la nouvelle technologie très prisée des développeurs et qui pourrait changer le monde (encore une fois). Mais qu'est-ce que c'est, de toute façon? Est-ce un langage de programmation? Une base de données? Un système de traitement? Un thé indien douillet?


La réponse générale: Hadoop est tout cela (sauf le thé confortable), et plus encore. C'est une bibliothèque de logiciels qui fournit un cadre de programmation pour le traitement bon marché et utile d'un autre mot à la mode moderne: les mégadonnées.

D'où venait Hadoop?

Apache Hadoop fait partie du Foundation Project de la Apache Software Foundation, une organisation à but non lucratif dont la mission est de "fournir des logiciels pour le bien public". À ce titre, la bibliothèque Hadoop est un logiciel gratuit et open-source accessible à tous les développeurs.


La technologie sous-jacente qui alimente Hadoop a en fait été inventée par Google. À ses débuts, le moteur de recherche pas tout à fait géant avait besoin d'un moyen d'indexer les quantités massives de données qu'ils collectaient sur Internet et de les transformer en résultats significatifs et pertinents pour ses utilisateurs. Avec rien sur le marché qui pourrait répondre à leurs besoins, Google a construit sa propre plate-forme.


Ces innovations ont été publiées dans un projet open source appelé Nutch, que Hadoop a ensuite utilisé comme fondation. Essentiellement, Hadoop applique la puissance de Google aux mégadonnées d'une manière abordable pour les entreprises de toutes tailles.

Comment fonctionne Hadoop?

Comme mentionné précédemment, Hadoop n'est pas une chose - c'est beaucoup de choses. La bibliothèque de logiciels qu'est Hadoop se compose de quatre parties principales (modules) et d'un certain nombre de solutions complémentaires (comme les bases de données et les langages de programmation) qui améliorent son utilisation dans le monde réel. Les quatre modules sont:

  • Hadoop Common: il s'agit de la collection d'utilitaires communs (la bibliothèque commune) qui prend en charge les modules Hadoop.
  • Hadoop Distributed File System (HDFS): un système de fichiers distribué robuste sans aucune restriction sur les données stockées (ce qui signifie que les données peuvent être structurées ou non structurées et sans schéma, où de nombreux DFS ne stockent que des données structurées) qui fournit un accès à haut débit avec redondance ( HDFS permet de stocker les données sur plusieurs machines, donc si une machine tombe en panne, la disponibilité est maintenue via les autres machines).
  • Hadoop YARN: ce cadre est responsable de la planification des travaux et de la gestion des ressources de cluster; il s'assure que les données sont suffisamment réparties sur plusieurs machines pour maintenir la redondance. YARN est le module qui fait de Hadoop un moyen abordable et rentable de traiter les mégadonnées.
  • Hadoop MapReduce: ce système basé sur YARN, basé sur la technologie Google, effectue un traitement parallèle de grands ensembles de données (structurés et non structurés). MapReduce se retrouve également dans la plupart des frameworks de traitement des mégadonnées d'aujourd'hui, y compris les bases de données MPP et NoSQL.
Tous ces modules travaillant ensemble génèrent un traitement distribué pour les grands ensembles de données. La structure Hadoop utilise des modèles de programmation simples qui sont répliqués sur des clusters d'ordinateurs, ce qui signifie que le système peut passer de serveurs uniques à des milliers de machines pour une puissance de traitement accrue, plutôt que de s'appuyer uniquement sur du matériel.


Le matériel qui peut gérer la quantité de puissance de traitement requise pour travailler avec les mégadonnées est cher, pour le moins. Il s'agit de la véritable innovation de Hadoop: la capacité de répartir des quantités massives de puissance de traitement sur plusieurs machines plus petites, chacune avec ses propres calculs et stockage localisés, ainsi qu'une redondance intégrée au niveau de l'application pour éviter les pannes.

Que fait Hadoop?

En termes simples, Hadoop rend les mégadonnées accessibles et utilisables par tous.


Avant Hadoop, les entreprises qui utilisaient le Big Data le faisaient principalement avec des bases de données relationnelles et des entrepôts de données d'entreprise (qui utilisent des quantités massives de matériel coûteux). Bien que ces outils soient parfaits pour le traitement de données structurées - qui sont déjà triées et organisées de manière gérable - la capacité de traitement des données non structurées était extrêmement limitée, à tel point qu'elle était pratiquement inexistante. Pour être utilisables, les données devaient d'abord être structurées de manière à s'intégrer parfaitement dans les tableaux.


Le cadre Hadoop modifie cette exigence et le fait à moindre coût. Avec Hadoop, des quantités massives de données de 10 à 100 gigaoctets et plus, à la fois structurées et non structurées, peuvent être traitées à l'aide de serveurs ordinaires (de base).


Hadoop apporte des applications potentielles de Big Data pour les entreprises de toutes tailles, dans tous les secteurs. Le cadre open source permet aux sociétés financières de créer des modèles sophistiqués d'évaluation de portefeuille et d'analyse des risques, ou aux détaillants en ligne d'affiner leurs réponses de recherche et de diriger les clients vers les produits qu'ils sont plus susceptibles d'acheter.


Avec Hadoop, les possibilités sont vraiment illimitées.

Qu'est-ce que le $ @! est hadoop?