Table des matières:
Apache Hadoop est depuis longtemps le fondement des applications de Big Data et est considéré comme la plate-forme de données de base pour toutes les offres liées au Big Data. Cependant, la base de données et le calcul en mémoire gagnent en popularité en raison de performances plus rapides et de résultats rapides. Apache Spark est un nouveau framework qui utilise des capacités en mémoire pour fournir un traitement rapide (presque 100 fois plus rapide que Hadoop). Ainsi, le produit Spark est de plus en plus utilisé dans un monde de big data, et principalement pour un traitement plus rapide.
Webinaire: Le pouvoir de la suggestion: comment un catalogue de données renforce les analystes Inscrivez-vous ici |
Qu'est-ce que Apache Spark?
Apache Spark est un framework open source pour le traitement d'énormes volumes de données (big data) avec rapidité et simplicité. Il convient aux applications analytiques basées sur le Big Data. Spark peut être utilisé avec un environnement Hadoop, autonome ou dans le cloud. Il a été développé à l'Université de Californie, puis offert plus tard à la Apache Software Foundation. Ainsi, il appartient à la communauté open-source et peut être très rentable, ce qui permet en outre aux développeurs amateurs de travailler en toute simplicité. (Pour en savoir plus sur l'open source de Hadoop, voir Quelle est l'influence de l'open source sur l'écosystème Apache Hadoop?)
Le principal objectif de Spark est qu'il offre aux développeurs un cadre d'application qui fonctionne autour d'une structure de données centrée. Spark est également extrêmement puissant et a la capacité innée de traiter rapidement des quantités massives de données dans un court laps de temps, offrant ainsi des performances extrêmement bonnes. Cela le rend beaucoup plus rapide que ce qui serait son concurrent le plus proche, Hadoop.