Accueil l'audio Qu'est-ce que hadoop exactement? la théorie d'un cynique

Qu'est-ce que hadoop exactement? la théorie d'un cynique

Table des matières:

Anonim

Tout ce qui semble trop beau pour être vrai l'est généralement. Tel pourrait être le cas avec Apache Hadoop, le projet open source très ballyhooed dont tout le monde parle. Alors, quelle est exactement cette chose? Bonne question!

Experts douteux

L'analyste Mark Madsen de Third Nature l'a cloué au mur il y a quelque temps dans un article épineux sur InsideAnalysis.com: "Ce qu'est Hadoop. Ce que Hadoop n'est pas." En tant que personne qui sait concevoir des solutions du monde réel, puis les déployer réellement, ses conseils ne doivent pas être ignorés.


Mais il y a un courant plus profond qui coule ici, et le moment est proche de découvrir les racines de cette flore fascinante, pour voir si nous ne pouvons pas avoir une idée de ce qui se passe à un niveau plus macro. Après tout, les fournisseurs continuent de dire que c'est un gros problème, et il y a tellement de participants.

Employez les Committers! (?)

Trois sociétés détiennent actuellement la majorité du marché naissant de Hadoop: Cloudera, Hortonworks et MapR. Lors d'un récent briefing assez controversé via le Boulder BI Brain Trust (#BBBT), Jim Walker de Hortonworks a fait ce commentaire curieux:


"Vous ne pouvez pas faire avancer la technologie si vous n'employez pas les committers!"


Répète?


Cela ne ressemble-t-il pas à quelque chose que le sénateur Palpatine pourrait dire dans un film Star Wars?


Sénateur Palpatine: "Employez les committers!"

Minion à proximité: "Mais, mais, monsieur! Pensez aux enfants!"


Pour le profane qui essaie simplement de faire avancer les choses, les committers sont des personnes dédiées à un projet open source particulier. La Fondation Apache a des protocoles stricts selon lesquels ses projets avancent, ce qui est souvent une bonne chose.


Cela dit, le commentaire de Walker mérite d'être examiné. Une question précise (au risque d'évoquer des journées de jeux) serait: est-ce une promesse ou une menace? Dit-il que Hortonworks pourrait bien prendre leur balle et rentrer chez elle?

Coopération ou compétition?

L'angle intéressant, quoique paradoxal, est que la plupart des committers de l'équipe Hadoop (une trentaine au total) seraient originaires de Hortonworks et Cloudera, qui sont des concurrents. Il s'agit d'un cas de concurrence très curieux.


Alors, quel est le problème? Voici une supposition éclairée: Hadoop doit en grande partie sa renommée à un plan intelligent conçu par un groupe de capital-risqueurs et d'ingénieurs de la Silicon Valley qui essaient essentiellement de couvrir leurs paris contre Oracle.


L'idée générale est de semer le marché avec une base de code qui peut être améliorée et renforcée par une flotte de développeurs de balises qui, idéalement, créeront au fil du temps toutes sortes d'outils de gestion des données, y compris des produits de base de données. Les VC peuvent investir et retirer un jour. Mais il y a de sérieux défis à jouer.


Comme toutes les entreprises monolithiques, Oracle se retrouve souvent dans le collimateur de nombreux acteurs plus petits. Et qui ne voudrait pas juste une tranche de ses revenus ahurissants? Rien qu'au dernier trimestre, Oracle a enregistré ~ 9 milliards de dollars. Mais défier Big Red et les battre sont deux réalités très différentes.

Webdiffusion gratuite: qu'est-ce que Hadoop et où va-t-il?

Rejoignez Eric Kavanagh, Robin Bloor et Techopedia pour une discussion sur la façon dont Hadoop est très différent de Linux ou SOA, et pourquoi son avenir reste largement non écrit.

Problèmes d'emballage

Le problème avec Hadoop, en soi, est que ce n'est en aucun cas une solution packagée. Il s'agit plutôt d'une collection complexe de modules qui permettent aux programmeurs de haute qualité de tirer parti d'algorithmes de traitement parallèle massifs pour faire des choses très spécifiques. Mais il n'y a pas d'interface utilisateur sophistiquée et les manuels sont brutaux.


Ajoutez à ce défi cet obstacle critique: vous avez également besoin de gens d'affaires qui ont au moins une compréhension générale de ce qu'il peut faire. Ces personnes doivent pouvoir évoquer des idées sur la façon dont il peut être utilisé, puis communiquer avec les développeurs, qui doivent ensuite produire, tester, implémenter et prendre en charge les applications.


Orchestrer cette danse est la façon dont Cloudera et Hortonworks gagnent une grande partie de leur argent. Le problème est que la plupart des solutions créées via cette méthode sont uniques et se concentrent généralement sur les systèmes opérationnels par opposition aux systèmes analytiques. Traduction? Des trucs comme ça ne se prêtent pas vraiment aux produits logiciels emballés.

Rentabilité de l'emballage!

Ce qui nous ramène à Oracle. Larry Ellison et les garçons font leur foin en vendant des technologies de base de données, du matériel, des services et (attendez …) des logiciels emballés. Cloudera a apparemment compris cela, d'où leur concentration sur Impala. Mais Hortonworks?


Leur modèle semble imiter de plus près celui de RedHat, les gens qui ont construit une entreprise d'un milliard de dollars en plus du système d'exploitation Linux. Nary, un fournisseur majeur de l'industrie des logiciels d'entreprise, n'écrit pas pour Linux, le système d'exploitation par lequel IBM a dirigé Microsoft au col. Mais Hadoop n'est pas Linux, pas de loin.


Le Dr Geoffrey Malafsky, ancien nanotechnologiste de l'US Navy, maintenant scientifique des données avec Phasic Systems et le PSIKORS Institute, distille la proposition de valeur Hadoop comme ceci:

    "Hadoop est idéal pour la recherche, l'analyse de tendances très large pour les résultats stochastiques et probablement un traitement parallèle intelligent très bon marché de choses comme le faisait mon ex-femme: calcul de la fonction d'onde mécanique quantique de l'état solide et des réactions chimiques. Cette véritable science repose sur sur les supercalculateurs et est passé quelque peu au traitement parallèle, mais c'est un changement radical d'approche de programmation. Ce sont les jeunes diplômés intelligents et énergiques qui feront que cela se produise. applications."

Vous remarquerez que cela ne ressemble en rien à l'entreposage de données, à l'intelligence d'affaires, à l'intégration de données ou même au Big Data. Cela ressemble à du supercalcul. Et pour une raison intéressante, les mondes de l'informatique haute performance et de l'intelligence d'affaires n'ont jamais vraiment percuté ou fusionné de manière significative.

Long chemin à parcourir pour Hortonworks et Cloudera

Et voici les très mauvaises nouvelles pour Hortonworks et peut-être Cloudera. Les grands fournisseurs comme IBM et SAP et Oracle et Teradata - pour dire les choses doucement, et pour citer Dire Straits: "Ces gars-là ne sont pas stupides!" Il y a trois ans et plus, tous ont déployé de sérieuses stratégies Hadoop.


Au cœur de ces plans se trouvent le genre de choses que les utilisateurs professionnels attendent: interfaces utilisateur graphiques, fonctionnalité de glisser-déposer, outils de modélisation et de découverte, flux de travail, gouvernance, sécurité; en bref, tous les éléments qui rendent les logiciels d'entreprise utilisables. Et bien sûr, ces grands fournisseurs ont des bases d'installation massives.


Certes, Cloudera et Hortonworks ont toutes deux décroché de bonnes affaires, mais seulement une infime fraction de ce que ces grands acteurs obtiennent chaque année. Faites le calcul du montant que les challengers facturent à leurs clients, par rapport au montant probable de leurs frais généraux, et l'image n'est pas si rose. Certes, c'est normal pour le cours avec des problèmes de logiciel à un stade précoce, mais quand même …

L'avenir de Hadoop?

Alors, pourrions-nous voir la vague classique d'acquisitions, comme nous l'avons eue au début, quand IBM a acheté Cognos, Oracle a obtenu Hyperion et SAP a attrapé BusinessObjects? Peut-être, mais les nouveaux enfants de ce bloc ne possèdent pas Hadoop; ils l'empruntent. Et aussi prometteurs que soient YARN et Tez, les cycles de sortie semblent être à la traîne de ce que produisent les frappeurs lourds.


L'autre jour, un initié de l'industrie a déclaré que la politique d'Apache pouvait être un sérieux goulot d'étranglement. Ce n'est pas très surprenant, surtout si l'on considère les dollars en jeu - les innovateurs sont très motivés à devenir riches. Et quelqu'un a-t-il remarqué que Chrome semble avoir dépassé Firefox récemment en termes de fonctionnalité et d'opérabilité? Source fermée, quelqu'un?


Une chose est sûre: ce jeu se jouera de façon intéressante. Oui, les mammifères (lire: petits marchands) peuvent souvent dépasser les dinosaures; mais il y a encore des alligators et des crocodiles partout dans le monde; et si vous tombez sur un par hasard, vous découvrirez peut-être à quel point ces dents peuvent être tranchantes. Quelques crocs ensemble pourraient même abattre un éléphant ou deux.

Qu'est-ce que hadoop exactement? la théorie d'un cynique