Table des matières:
Les mégadonnées, le nom accrocheur de volumes massifs de données structurées, non structurées ou semi-structurées, sont notoirement difficiles à capturer, à stocker, à gérer, à partager, à analyser et à visualiser, au moins en utilisant des bases de données traditionnelles et des applications logicielles. C'est pourquoi les technologies de Big Data ont le potentiel de gérer et de traiter des volumes massifs de données de manière efficace et efficiente. Et c'est Apache Hadoop qui fournit le cadre et les technologies associées pour traiter de grands ensembles de données sur des clusters d'ordinateurs de manière distribuée. Donc, pour vraiment comprendre les mégadonnées, vous devez comprendre un peu Hadoop. Ici, nous allons jeter un œil aux principaux termes que vous entendrez en ce qui concerne Hadoop - et ce qu'ils signifient.
Webinaire: Big Iron, Meet Big Data: Libération des données mainframe avec Hadoop & Spark Inscrivez-vous ici |
Mais d'abord, un aperçu du fonctionnement de Hadoop
Avant d'entrer dans l'écosystème Hadoop, vous devez comprendre clairement deux choses fondamentales. La première est la façon dont un fichier est stocké dans Hadoop; la seconde est la façon dont les données stockées sont traitées. Toutes les technologies liées à Hadoop fonctionnent principalement dans ces deux domaines et le rendent plus convivial. (Obtenez les bases du fonctionnement de Hadoop dans Comment Hadoop aide à résoudre le problème du Big Data.)
Maintenant, passons aux termes.