Accueil l'audio Comment sql on hadoop peut-il aider à l'analyse des mégadonnées?

Comment sql on hadoop peut-il aider à l'analyse des mégadonnées?

Table des matières:

Anonim

SQL sur Hadoop est un groupe d'outils d'applications analytiques qui combinent l'interrogation et le traitement de données de style SQL avec les éléments de structure de données Hadoop les plus récents. L'émergence de SQL sur Hadoop est un développement important pour le traitement des mégadonnées, car elle permet à des groupes plus larges de personnes de travailler avec succès avec la structure de traitement des données Hadoop en exécutant des requêtes SQL sur les énormes volumes de mégadonnées traitées par Hadoop. De toute évidence, le framework Hadoop n'était auparavant pas aussi accessible aux utilisateurs, en particulier en termes de capacités d'interrogation. Sur la base du développement, plusieurs outils ont été mis au point qui promettent d'améliorer la productivité des entreprises en matière de traitement et d'analyse des mégadonnées avec qualité et rapidité. Il n'est pas non plus nécessaire d'investir beaucoup dans l'apprentissage de l'outil, comme le devraient les connaissances traditionnelles de SQL.

Définition de SQL sur Hadoop

SQL sur Hadoop est un groupe d'applications qui vous permet d'exécuter des requêtes de style SQL sur des mégadonnées hébergées par l'infrastructure de traitement de données Hadoop. De toute évidence, l'interrogation, la récupération et l'analyse des données sont devenues plus faciles avec l'ajout de SQL sur Hadoop. Étant donné que SQL a été initialement conçu pour les bases de données relationnelles, il a dû être modifié selon le modèle Hadoop 1 qui comprend MapReduce et le système de fichiers distribués Hadoop (HDFS), et le modèle Hadoop 2 qui n'a pas MapReduce et HDFS.

L'un des premiers efforts pour combiner SQL avec Hadoop a abouti à la création de l'entrepôt de données Hive avec le logiciel HiveQL qui pourrait traduire des requêtes de style SQL en tâches MapReduce. Après cela, plusieurs applications ont été développées qui pourraient faire des travaux similaires. Parmi les outils ultérieurs figurent les plus importants: Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) et Tez (Hive on Tez).

Comment sql on hadoop peut-il aider à l'analyse des mégadonnées?