Table des matières:
- Données provenant de différentes sources difficiles à connecter et à cartographier
- Les experts Hadoop tentent de fusionner les données ensemble
Hadoop est un endroit idéal pour décharger des données pour le traitement analytique ou pour modéliser des volumes plus importants d'une seule source de données qui ne sont pas possibles avec les systèmes existants. Cependant, comme les entreprises importent des données de nombreuses sources dans Hadoop, il existe une demande croissante pour l'analyse des données à travers différentes sources, ce qui peut être extrêmement difficile à réaliser. Cet article est le premier d'une série en trois parties qui explique les problèmes auxquels les organisations sont confrontées, alors qu'elles tentent d'analyser différentes sources et types de données au sein de Hadoop, et comment résoudre ces problèmes. La publication d'aujourd'hui se concentre sur les problèmes qui surviennent lors de la combinaison de plusieurs sources internes. Les deux articles suivants expliquent pourquoi ces problèmes augmentent en complexité, à mesure que des sources de données externes sont ajoutées, et comment de nouvelles approches aident à les résoudre.
Données provenant de différentes sources difficiles à connecter et à cartographier
Les données provenant de sources diverses ont des structures différentes qui rendent difficile la connexion et la cartographie des types de données ensemble, même les données provenant de sources internes. La combinaison de données peut être particulièrement difficile si les clients ont plusieurs numéros de compte ou si une organisation a acquis ou fusionné avec d'autres sociétés. Au cours des dernières années, certaines organisations ont tenté d'utiliser des applications de découverte de données ou de science des données pour analyser les données de plusieurs sources stockées dans Hadoop. Cette approche est problématique car elle implique beaucoup de conjectures: les utilisateurs doivent décider quelles clés étrangères utiliser pour connecter diverses sources de données et faire des hypothèses lors de la création de superpositions de modèles de données. Ces suppositions sont difficiles à tester et souvent incorrectes lorsqu'elles sont appliquées à grande échelle, ce qui conduit à une mauvaise analyse des données et à une méfiance à l'égard des sources.
Les experts Hadoop tentent de fusionner les données ensemble
Par conséquent, les organisations qui souhaitent analyser des données à travers des sources de données ont recouru à l'embauche d'experts Hadoop pour créer des scripts personnalisés et spécifiques à la source pour fusionner des ensembles de données. Ces experts Hadoop ne sont généralement pas des experts en intégration de données ou en résolution d'entités, mais ils font de leur mieux pour répondre aux besoins immédiats de l'organisation. Ces experts utilisent généralement Pig ou Java pour écrire des règles strictes et rapides qui déterminent comment combiner des données structurées à partir de sources spécifiques, par exemple des enregistrements correspondants basés sur un numéro de compte. Une fois qu'un script pour deux sources a été écrit, si une troisième source doit être ajoutée, le premier script doit être jeté et un nouveau script conçu pour combiner trois sources spécifiques. La même chose se produit si une autre source est ajoutée et ainsi de suite. Non seulement cette approche est inefficace, mais elle échoue également lorsqu'elle est appliquée à grande échelle, gère mal les cas marginaux, peut entraîner un grand nombre d'enregistrements en double et fusionne souvent de nombreux enregistrements qui ne doivent pas être combinés.