Accueil l'audio Exploiter le firehose: tirer profit de l'analyse commerciale en continu: transcription du webinaire

Exploiter le firehose: tirer profit de l'analyse commerciale en continu: transcription du webinaire

Anonim

Par Techopedia Staff, 24 février 2016

À retenir : l' animatrice Rebecca Jozwiak discute de l'analyse en streaming avec les meilleurs experts de l'industrie.

Vous n'êtes actuellement pas connecté. Veuillez vous connecter ou vous inscrire pour voir la vidéo.

Rebecca Jozwiak: Mesdames et messieurs, bonjour et bienvenue à Hot Technologies de 2016! Le titre d'aujourd'hui est «Exploiter le Firehose: obtenir une valeur commerciale à partir de Streaming Analytics». Voici Rebecca Jozwiak. Je suis le commandant en second de l'hôte de la webémission chaque fois que notre cher Eric Kavanagh ne peut pas être ici, donc c'est agréable de voir autant d'entre vous aujourd'hui.

Cet épisode est un peu différent des autres. Nous avons en quelque sorte parlé de ce qui est chaud et bien sûr cette année est chaude. Les dernières années ont été chaudes. Il y a toujours de nouvelles choses qui sortent. Aujourd'hui, nous parlons de streaming analytique. L'analyse en streaming est en quelque sorte nouvelle en soi. Bien sûr, le streaming, les données centrales, les données RFID, ce ne sont pas nécessairement nouveaux. Mais dans le contexte des architectures de données, nous nous concentrons sur les données au repos depuis des décennies. Bases de données, systèmes de fichiers, référentiels de données - tous à des fins principalement de traitement par lots. Mais maintenant, avec le changement pour créer de la valeur à partir des données en streaming, des émotions de données, certains l'appellent des flux vivants, ils ont vraiment besoin d'une architecture basée sur les flux, pas des architectures de données au repos auxquelles nous avons été habitués et qui doivent être capables de gérer une ingestion rapide, un traitement en temps réel ou presque en temps réel. Il doit être en mesure de répondre non seulement à l'Internet des objets mais à l'Internet de tout.

Bien sûr, idéalement, ce serait bien d'avoir les deux architectures vivant côte à côte, une main se lavant l'autre, pour ainsi dire. Bien que les données vieilles de plusieurs jours, les données datant de plusieurs semaines, les données vieilles de plusieurs années aient toujours de la valeur, des analyses historiques, des analyses de tendances, ce sont les données en direct qui sont à l'origine de l'intelligence en direct ces jours-ci et c'est pourquoi l'analyse en streaming est devenue si importante.

J'en parle davantage aujourd'hui. Notre scientifique des données, Dez Blanchfield, appelle de l'Australie. Il est tôt le matin pour lui en ce moment. Nous avons notre analyste en chef, le Dr Robin Bloor. Nous sommes rejoints par Anand Venugopal, chef de produit pour StreamAnalytix chez Impetus Technologies. Ils se concentrent vraiment sur l'aspect analytique du streaming de cet espace.

Avec cela, je vais aller de l'avant et le passer à Dez.

Dez Blanchfield: Merci. Je dois prendre le contrôle de l'écran ici et avancer.

Rebecca Jozwiak: Voilà.

Dez Blanchfield: Pendant que nous saisissons les diapositives, permettez-moi de couvrir le sujet principal.

Je vais le maintenir à un niveau assez élevé et je vais le garder à environ 10 minutes. C'est un très gros sujet. J'ai participé à un événement où nous avons passé deux à trois jours à plonger dans les détails de ce qu'est le traitement de flux et les cadres actuels que nous développons et ce que devrait signifier l'analyse dans ces flux à haut volume.

Nous allons simplement clarifier ce que nous entendons par streaming analytique, puis examiner si la valeur commerciale peut être dérivée, car c'est vraiment ce que les entreprises recherchent. Ils souhaitent que les gens leur expliquent très rapidement et succinctement, où puis-je tirer de la valeur en appliquant une forme d'analyse à nos données de flux?

Qu'est-ce que l'analyse en streaming?

Le streaming analytique donne aux organisations un moyen d'extraire de la valeur des données à haut volume et à grande vitesse qu'elles ont transmises à travers l'entreprise sous diverses formes en mouvement. La différence significative ici est que nous avons une longue histoire de développement d'analyses et d'objectifs et de vues de données que nous traitons au repos depuis des décennies depuis l'invention du mainframe. Le changement de paradigme massif que nous avons vu au cours des trois à cinq dernières années à ce que nous appelons «l'échelle du Web» consiste à puiser dans les flux de données qui nous parviennent en temps réel ou presque en temps réel et pas seulement à traiter et à rechercher une corrélation d'événements ou déclencheurs d'événements mais effectuant des analyses très détaillées et approfondies sur ces flux. C'est un changement significatif par rapport à ce que nous faisions auparavant, qui consiste à collecter des données, à les placer dans une sorte de référentiel, des bases de données traditionnellement volumineuses maintenant, de grands cadres de données volumineux tels que la plate-forme Hadoop et à effectuer un traitement en mode batch sur cela et à obtenir une sorte de perspicacité.

Nous avons très bien réussi à le faire très rapidement et à essayer beaucoup de fer lourd, mais nous capturons toujours vraiment des données, les stockons puis les examinons et obtenons des informations ou des analyses à ce sujet. Le passage à la réalisation de ces analyses au fur et à mesure de la transmission des données a été un domaine de croissance très nouveau et passionnant pour les types de choses qui se produisent autour des mégadonnées. Il nécessite une approche complètement différente pour simplement capturer, stocker et traiter et effectuer des analyses.

L'un des principaux moteurs du changement et de la concentration sur la réalisation d'analyses dans le flux est que vous pouvez obtenir une valeur commerciale significative en obtenant ces informations plus rapidement et plus facilement lorsque les données vous parviennent, car les informations sont mises à la disposition de l'entreprise. L'idée de faire le traitement de fin de journée maintenant n'est plus d'actualité dans certaines industries. Nous voulons pouvoir faire l'analyse à la volée. À la fin de la journée, nous savons déjà ce qui s'est passé au fur et à mesure plutôt que d'arriver à la fin de la journée et de faire un travail par lots de 24 heures et d'obtenir ces informations.

L'analyse de streaming consiste à puiser directement dans ce flux, tandis que les flux de données sont généralement de multiples flux de volumes très élevés de données et de données qui nous arrivent en mouvement très, très rapidement et d'obtenir des informations ou des analyses sur ces flux au fur et à mesure qu'ils nous parviennent, par opposition pour permettre que cela sorte au repos et effectuer des analyses sur eux.

Comme je l'ai mentionné, nous avons eu des décennies et des décennies d'exécuter ce que j'appelle l'analyse par lots. J'ai mis une image vraiment cool ici. Voici une photo d'un homme debout devant un ordinateur simulé créé par RAND Corporation il y a une vie et voici à quoi ils ont vu un ordinateur dans une maison. Ce qui est intéressant, c'est que même alors, ils avaient ce concept de tous ces petits cadrans et ces cadrans représentaient des informations provenant de la maison et traitées en temps réel et vous disant ce qui se passait. Un exemple simple est un ensemble de pression barométrique et de température que nous pouvons voir où nous voyons ce qui se passe en temps réel. Mais j'imagine que même à l'époque, lorsque RAND Corporation a mis en place cette petite maquette, ils pensaient déjà au traitement des données et à l'exécution d'analyses à mesure qu'elles arrivent au format flux. Je ne sais pas trop pourquoi ils ont mis un volant sur l'ordinateur, mais c'est plutôt cool.

Depuis l'invention de l'imprimante, nous avons eu la vue de capturer des données et d'effectuer des analyses par lots sur celle-ci. Comme je l'ai dit avec le grand changement maintenant et nous l'avons vu des goûts des acteurs de l'échelle Web que nous connaissons tous, ce sont toutes des marques domestiques comme Twitter, Facebook et LinkedIn, ce comportement interactif que nous avons avec ces réseaux sociaux Les plates-formes nécessitent non seulement la capture, le stockage puis le traitement en mode batch, mais elles capturent et génèrent des analyses à la volée à partir des flux de données qui transitent. Lorsque je tweete quelque chose, non seulement ils doivent capturer et stocker et faire quelque chose plus tard, mais ils doivent également pouvoir le remettre immédiatement sur mon flux et le partager avec d'autres personnes qui me suivent. Il s'agit d'un modèle de traitement par lots.

Pourquoi irions-nous dans cette voie? Pourquoi les organisations investiraient-elles du temps, des efforts et de l'argent dans le simple fait de relever le défi de s'efforcer sur la voie de l'analyse de flux? Les entreprises ont ce désir énorme d'obtenir un gain de performances par rapport à leurs concurrents dans les secteurs dans lesquels elles se trouvent et ce gain de performances peut être rapidement mis en œuvre grâce à de simples analyses de flux et il peut commencer par un simple suivi des données en temps réel que nous sommes déjà familier avec. J'ai obtenu une petite capture d'écran de Google Analytics. C'est probablement l'une des premières fois que nous obtenons vraiment des analyses pratiques de qualité grand public. Donc, alors que les gens visitaient votre site Web et que vous obtenez ces chiffres, avec un petit morceau de JavaScript au bas de votre page Web en HTML intégré dans votre site Web, ces petits codes étaient créés en temps réel pour Google et ils étaient effectuer des analyses sur ces flux de données provenant de chaque page de votre site Web, de chaque objet sur votre site Web en temps réel et ils vous le renvoient dans cette petite page Web vraiment mignonne dans un tableau de bord de graphique en temps réel, de petits histogrammes mignons et graphique linéaire vous montrant X nombre de personnes qui ont touché votre page historiquement, mais voici combien il y a en ce moment.

Comme vous pouvez le voir sur cette capture d'écran, il est dit 25 en ce moment. C'est 25 personnes en ce moment au moment de cette capture d'écran étaient sur cette page. C'est la première vraie chance que nous avons jouée sur l'outil d'analyse de qualité grand public. Je pense que beaucoup de gens l'ont vraiment compris. Ils ont juste compris le pouvoir de savoir ce qui se passait et comment ils pouvaient y répondre. Quand on pense à l'ampleur de l'avionique, des avions qui volent, il y a environ 18 700 vols intérieurs par jour aux États-Unis seulement. J'ai lu il y a quelque temps - il y a environ six ou sept ans - que la quantité de données produites par ces avions était d'environ 200 à 300 mégaoctets dans l'ancien modèle technique. Dans la conception actuelle des avions, ces avions produisent environ 500 gigaoctets de données ou environ un demi-téraoctet de données par vol.

Lorsque vous faites le calcul très rapidement du haut de votre tête, ces 18 700 vols intérieurs toutes les 24 heures dans l'espace aérien américain seulement, si tous les avions modernes produisent environ un demi-téraoctet, c'est 43 à 44 pétaoctets de données qui transitent et ça se passe pendant que les avions sont en l'air. Cela se produit lorsqu'ils atterrissent et qu'ils effectuent des vidages de données. C'est à ce moment-là qu'ils entrent dans l'atelier et ont un vidage de données complet des équipes d'ingénierie pour regarder ce qui se passe dans les roulements, les roues et à l'intérieur des moteurs. Certaines de ces données doivent être traitées en temps réel afin qu'elles puissent décider s'il y a un vrai problème pendant que l'avion était dans les airs ou lorsqu'il est au sol. Vous ne pouvez tout simplement pas le faire en mode batch. Dans d'autres secteurs que nous voyons dans les domaines de la finance, de la santé, de la fabrication et de l'ingénierie, ils examinent également comment ils peuvent obtenir avec cette nouvelle vision de ce qui se passe en temps réel par opposition à ce qui est simplement stocké dans les bases de données sur un terme.

Il y a aussi ce concept de traiter les données comme ce que j'appelle un bien périssable ou un produit périssable - que beaucoup de données perdent de la valeur au fil du temps. C'est de plus en plus le cas avec les applications de mobilité et les outils de médias sociaux, car ce que les gens disent et ce qui est tendance, c'est ce à quoi vous voulez répondre. Lorsque vous pensez à d'autres parties de notre vie avec la logistique et l'expédition de nourriture, nous comprenons le concept de denrée périssable dans ce sens. Mais pensez aux données qui transitent par votre organisation et à leur valeur. Si quelqu'un fait des affaires avec vous en ce moment et que vous pouvez interagir avec lui en temps réel, vous ne voulez pas attendre une heure pour que les données puissent être capturées et placées dans un système comme Hadoop, puis appuyez sur ce bouton, vous ne pourra pas y faire face en ce moment et vous voulez pouvoir le faire immédiatement à la demande du client. Il y a un terme que vous verrez apparaître maintenant, où les gens parlent d'avoir ce flux de données en temps réel qui peut vous donner une personnalisation, et cette personnalisation du système que vous utilisez pour votre expérience individuelle. Ainsi, lorsque vous appuyez sur un outil comme l'outil de recherche Google par exemple, si je fais une requête et que vous effectuez la même requête, invariablement, nous n'obtenons pas les mêmes données exactes. Nous obtenons essentiellement ce que j'appelle une expérience de célébrité. Je suis traité avec une seule fois. Je reçois ma propre version personnelle de ce qui se passe dans ces systèmes sur la base des profils et des données qu'ils ont collectés sur moi et j'ai pu faire des analyses en temps réel dans le flux.

Cette idée que les données sont une denrée périssable est une chose réelle pour l'instant et la valeur des données diminuant au fil du temps est quelque chose que nous devons traiter aujourd'hui. Ce n'est pas une chose d'hier. J'adore cette photo d'un ours attrapant un saumon sautant hors de la rivière, car elle peint vraiment exactement ce que je vois des analyses en streaming. C'est cette énorme rivière de données qui nous parvient, un tuyau d'incendie si vous voulez, et l'ours est assis au milieu du ruisseau. Il va effectuer des analyses en temps réel sur ce qui se passe autour de lui de sorte qu'il puisse réellement concevoir sa capacité à capturer ce poisson dans l'air. Ce n'est pas comme plonger dans le flux et en saisir un. Cette chose saute en l'air et doit être au bon endroit au bon moment pour attraper ce poisson. Sinon, il ne prend ni petit déjeuner ni déjeuner.

Une organisation veut faire la même chose avec ses données. Ils veulent extraire de la valeur de ce qui est maintenant des volumes massifs de données en mouvement. Ils veulent effectuer des analyses sur ces données et des données à grande vitesse, donc ce n'est pas seulement la quantité de données qui nous parvient, mais c'est la vitesse à laquelle elles proviennent de cela. En matière de sécurité par exemple, ce sont tous vos routeurs, commutateurs, serveurs, pare-feu et tous les événements qui en découlent et des dizaines de milliers voire des centaines de milliers d'appareils, dans certains cas, ce sont des données périssables. Lorsque nous y pensons dans l'Internet des objets et l'Internet industriel, nous parlons finalement de millions, voire de milliards de capteurs, et au fur et à mesure que les données transitent par l'analyse, nous envisageons maintenant de traiter des événements complexes à des ordres de grandeur et de vitesse que nous n'avons jamais vus auparavant et nous devons y faire face aujourd'hui. Nous devons construire des outils et des systèmes autour de cela. C'est un vrai défi pour les organisations parce que d'une part, nous avons les très grandes marques qui font du bricolage, faites-le vous-même, quand elles ont la capacité de le faire et les compétences et l'ingénierie. Mais pour l'organisation moyenne, ce n'est pas le cas. Ils n'ont pas les compétences requises. Ils n'ont ni la capacité, ni le temps, ni même l'argent pour investir. Ils visent tous ce concept de prise de décision en temps quasi réel.

Utilisez les cas que j'ai rencontrés, et ils se retrouvent dans tous les domaines de tous les secteurs que vous pouvez imaginer, les gens se redressent et prêtent attention et disent: comment appliquer des analyses à nos données de flux? Nous parlons de services en ligne à l'échelle du Web. Il y a les plates-formes de médias sociaux traditionnelles et le commerce électronique en ligne et la vente au détail - des applications par exemple. Ils essaient tous de nous offrir cette expérience de célébrité en temps réel. Mais lorsque nous abordons davantage les services de pile technologique, les services téléphoniques, la voix et la vidéo, je vois des gens se promener sur FaceTime sur les téléphones. Ça explose. Cela me dérange que les gens tiennent le téléphone devant eux et parlent à un flux vidéo d'un ami plutôt que de le porter à leur oreille. Mais ils savent qu'ils peuvent le faire et ils se sont adaptés et ils ont aimé cette expérience. Le développement de ces applications et des plates-formes qui les fournissent doivent effectuer des analyses en temps réel sur ce trafic et sur les profils du trafic afin qu'ils puissent faire des choses simples comme le routage de cette vidéo parfaitement afin que la qualité de la voix dans le la vidéo que vous obtenez est suffisante pour obtenir une bonne expérience. Vous ne pouvez pas traiter par lots ce type de données. Cela ne ferait pas du flux vidéo en temps réel un service fonctionnel.

Il y a un défi de gouvernance dans les transactions financières. Il n'est pas normal d'arriver à la fin de la journée et de découvrir que vous avez enfreint la loi en déplaçant des données privées dans tous les sens. En Australie, nous avons un défi très intéressant où déplacer des données liées à la confidentialité à l'étranger est un non-non. Vous ne pouvez pas emporter mon PID, mes données d'identification personnelles privées, à l'étranger. Il existe des lois en Australie pour empêcher que cela se produise. Les fournisseurs de services financiers en particulier, les services et agences gouvernementaux, doivent faire des analyses en temps réel sur leurs flux de données et d'instructions avec moi pour m'assurer que ce qu'ils me fournissent ne quitte pas les côtes. Tout doit rester localement. Ils doivent le faire en temps réel. Ils ne peuvent pas enfreindre la loi et demander pardon plus tard. Détection de fraude - c'est une évidence assez évidente dont nous entendons parler avec les transactions par carte de crédit. Mais comme les types de transactions que nous effectuons dans les services financiers évoluent très, très rapidement, il y a des choses que PayPal fait en premier lieu maintenant pour détecter la fraude en temps réel où l'argent ne passe pas d'une chose à une autre mais c'est une transaction financière entre systèmes. Plateformes d'enchères Ebay, la détection de la fraude doit être effectuée en temps réel dans un bureau de streaming.

Il y a maintenant une tendance à effectuer l'extraction et à transformer l'activité de charge dans les flux, nous ne voulons donc pas capturer tout ce qui va dans le flux. On ne peut pas vraiment faire ça. Les gens ont appris que les données aiment être cassées très rapidement si nous capturons tout. L'astuce consiste maintenant à effectuer des analyses sur ces flux et à y effectuer des ETL et à capturer simplement ce dont vous avez besoin, potentiellement des métadonnées, puis à conduire des analyses prédictives où nous pouvons réellement dire ensuite ce qui va se passer un peu plus loin sur les voies de ce que nous 'viens de voir dans le flux sur la base des analyses que nous avons effectuées à ce sujet.

Les fournisseurs d'énergie et de services publics éprouvent ce désir massif des consommateurs d'avoir une tarification à la demande. Je pourrais décider que je veux acheter de l'énergie verte à un moment particulier de la journée parce que je suis seul à la maison et que je n'utilise pas beaucoup d'appareils. Mais si j'ai un dîner, je pourrais vouloir avoir tous mes appareils sous tension et je ne veux pas acheter de l'électricité bon marché et attendre qu'elle soit livrée, mais prêt à payer plus cher pour obtenir cette électricité. Cette tarification de la demande, en particulier dans les services publics et l'espace énergétique, s'est déjà produite. Uber, par exemple, est un exemple classique de choses que vous pouvez faire tous les jours et tout dépend de la tarification à la demande. Il existe des exemples classiques de personnes en Australie obtenant des tarifs de 10 000 $ en raison de la demande massive à la veille du Nouvel An. Je suis sûr qu'ils ont résolu ce problème, mais les analyses de flux sont effectuées en temps réel dans la voiture pour vous dire combien je devrais payer.

Internet des objets et flux de capteurs - nous n'avons fait qu'effleurer la surface à ce sujet et nous venons vraiment d'avoir la conversation de base à ce sujet, mais nous verrons un changement intéressant dans la façon dont la technologie gère cela parce que lorsque vous ne parlez pas à peu près des milliers ou des dizaines de milliers mais des centaines de milliers et potentiellement des milliards d'appareils qui vous sont diffusés, presque aucune des piles technologiques que nous avons maintenant n'est conçue pour faire face à cela.

Il y a des sujets très chauds que nous verrons partout comme la sécurité et les cyberrisques. Ce sont des défis très réels pour nous. Il existe un outil vraiment génial appelé North sur le Web où vous pouvez vous asseoir et regarder dans une page Web diverses cyberattaques qui se produisent en temps réel. Quand vous le regardez, vous pensez «oh, c'est une jolie petite page Web mignonne», mais après environ cinq minutes, vous réalisez le volume de données que le système fait des analyses sur tous les différents flux de tous les différents appareils à travers le monde qui sont nourris en eux. Cela commence à embrouiller l'esprit de la façon dont ils effectuent cela au bord de cet enregistrement essentiellement et vous fournit ce petit écran simple qui vous indique quoi ou autre chose l'attaquant en temps réel et quels types d'attaques. Mais c'est un petit moyen vraiment intéressant de simplement avoir un bon aperçu de ce que l'analyse de flux peut potentiellement faire pour vous en temps réel en regardant simplement cette page et en ayant une idée du volume et du défi de prendre les flux, de traiter les requêtes d'analyse sur eux et représentant cela en temps réel.

Je pense que la conversation que j'ai pour le reste de la session va aborder tous ces types de choses avec une vue intéressante, de mon point de vue, et c'est le défi du bricolage, faites-le vous-même, convient à certains licornes classiques qui peuvent se permettre de construire ce genre de choses. Ils ont les milliards de dollars pour construire ces équipes d'ingénierie et construire leurs centres de données. Mais pour 99, 9% des organisations qui souhaitent générer de la valeur dans leur activité d'analyse de flux, elles doivent obtenir un service standard. Ils doivent acheter un produit prêt à l'emploi et ils ont généralement besoin d'un service de conseil et d'un service professionnel pour les aider à le mettre en œuvre et ils récupèrent cette valeur dans l'entreprise et le revendent à l'entreprise comme solution de travail.

Sur ce, je vais vous remettre, Rebecca, parce que je crois que c'est ce que nous allons couvrir en détail maintenant.

Rebecca Jozwiak: Excellent. Merci beaucoup, Dez. Voilà une excellente présentation.

Maintenant, je passe le ballon à Robin. Emportez-le.

Robin Bloor: D'accord. Parce que Dez est entré dans le vif du sujet du traitement des flux, il ne me semblait pas logique de le couvrir à nouveau. Je vais donc simplement adopter une vision complètement stratégique. Regarder presque d'un très haut niveau vers le bas sur ce qui se passe et le positionner parce que je pense que cela pourrait aider les gens, en particulier nous les gens qui ne sont pas campés dans des flux de traitement à grande profondeur auparavant.

Le traitement des flux existe depuis longtemps. Nous l'appelions CEP. Il y avait des systèmes en temps réel avant cela. Les systèmes de contrôle de processus d'origine traitaient en fait des flux d'informations - bien sûr, rien n'allait aussi loin qu'aujourd'hui. Ce graphique que vous voyez sur la diapositive ici; cela montre beaucoup de choses en fait, mais cela souligne au-delà de toute autre chose - le fait qu'il y a un spectre de latences qui apparaissent dans différentes couleurs ici. Ce qui s'est réellement passé depuis l'invention de l'informatique ou de l'informatique commerciale arrivée vers 1960, c'est que tout est de plus en plus rapide. Avant, nous pouvions dépendre de la façon dont cela se produisait si vous le souhaitez dans les vagues, car c'est à cela que ça ressemble. Cela en dépend en fait. Parce que tout était dicté par la loi de Moore et que la loi de Moore nous donnerait un facteur environ dix fois plus rapide sur une période d'environ six ans. Puis, une fois arrivés à 2013, tout s'est cassé et nous avons soudainement commencé à accélérer à un rythme que nous n'avons jamais atteint, ce qui est étrangement sans précédent. Nous obtenions un facteur d'une dizaine en termes d'augmentation de vitesse et donc de réduction de latence tous les six ans environ. Au cours des six années écoulées depuis 2010 environ, nous en avons un multiple d'au moins mille. Trois ordres de grandeur plutôt qu'un.

C'est ce qui se passe et c'est pourquoi l'industrie d'une manière ou d'une autre semble se déplacer à des vitesses fantastiques - parce que c'est le cas. Juste en passant par la signification de ce graphique particulier, les temps de réponse sont en fait en fait à l'échelle algorithmique sur l'axe vertical. Le temps réel est la vitesse de l'ordinateur, plus rapide que les êtres humains. Les heures interactives sont orange. C'est lorsque vous interagissez avec l'ordinateur que vous voulez vraiment un dixième à environ une seconde de latence. Ci-dessus, il y a transactionnel où nous pensons réellement à ce que vous faites dans l'ordinateur, mais si cela s'éteint dans une quinzaine de secondes, cela devient intolérable. Les gens n'attendraient pas l'ordinateur. Tout a été fait en batch. Beaucoup de choses qui ont été faites par lots descendent maintenant directement dans l'espace transactionnel, directement dans l'espace interactif ou même dans l'espace en temps réel. Alors qu'auparavant, nous pouvions faire une partie de cela avec de très petites quantités de données, nous pouvons maintenant le faire avec de très grandes quantités de données en utilisant un environnement extrêmement évolutif.

Donc, fondamentalement, tout cela dit, c'est vraiment la transaction et les temps de réponse humains interactifs. Une grande partie de ce qui se fait actuellement avec les flux consiste à informer les êtres humains sur les choses. Une partie va plus vite que cela et elle informe bien les choses, donc c'est en temps réel. Ensuite, nous prenons une licence pour simplement tomber comme une pierre, ce qui rend l'analyse instantanée faisable et d'ailleurs assez abordable. Ce n'est pas seulement que la vitesse a baissé et que le sommet s'est également effondré. Probablement le plus grand impact dans tous ces domaines parmi toutes les différentes applications, vous pouvez faire toutes ces analyses prédictives. Je vais vous dire pourquoi dans une minute.

Ce n'est que la quincaillerie. Vous avez un logiciel parallèle. Nous parlons de 2004. Architecture évolutive, puces multicœurs, augmentation de la mémoire, CPU configurable. Les SSD vont désormais beaucoup plus vite que le disque en rotation. Vous pouvez à peu près dire au revoir au disque en rotation. Les SSD sont également dans plusieurs cœurs, donc de plus en plus vite. Bientôt, nous avons le memristor de HP. Nous avons le 3D XPoint d'Intel et Micron. La promesse de ceux-ci est que tout ira de plus en plus vite de toute façon. Lorsque vous pensez en fait à deux nouvelles technologies de mémoire, qui rendront l'ensemble de la petite pièce fondamentale, la carte de circuit individuelle va beaucoup plus vite, nous n'avons même pas vu la fin.

La technologie Streams, qui est vraiment le prochain message, est là pour rester. Il va falloir une nouvelle architecture. Je veux dire que Dez l'a en quelque sorte mentionné dans plusieurs points de sa présentation. Pendant des décennies, nous avons considéré l'architecture comme une combinaison de tas de données et de canaux de données. Nous avons eu tendance à traiter les tas et nous avons eu tendance à diriger les données entre les tas. Nous nous dirigeons maintenant fondamentalement vers ce que nous appelons l'architecture de données Lambda qui combine le traitement des flux de données avec des tas de données. Lorsque vous traitez en fait un flux d'événements entrant contre des données historiques en tant que flux de données ou tas de données, c'est ce que j'entends par architecture Lambda. C'est à ses balbutiements. Ce n'est qu'une partie de l'image. Si vous considérez quelque chose d'aussi complexe que l'Internet de tout ce que Dez a également mentionné, vous vous rendrez compte qu'il y a toutes sortes de problèmes de localisation des données - des décisions quant à ce que vous devez traiter dans le flux.

Ce que je dis vraiment ici, c'est que lorsque nous traitions par lots, nous traitions en fait des flux. Nous ne pouvions tout simplement pas le faire un à la fois. Nous attendons juste jusqu'à ce qu'il y ait un gros tas de trucs et ensuite nous traitons tout à la fois. Nous nous dirigeons vers une situation où nous pouvons réellement traiter des choses dans le flux. Si nous pouvons traiter des choses dans le flux, alors les tas de données que nous détenons seront les données statiques que nous devons référencer afin de traiter les données dans le flux.

Cela nous amène à cette chose particulière. Je l'ai déjà mentionné dans une présentation avec l'analogie biologique. La façon dont j'aimerais que vous réfléchissiez est en ce moment que nous sommes des êtres humains. Nous avons trois réseaux distincts pour le traitement prédictif en temps réel. Ils sont appelés somatiques, autonomes et entériques. L'entérique est votre estomac. Le système nerveux autonome s'occupe des combats et des vols. Il s'occupe en fait des réactions rapides à l'environnement. Le somatique qui veille au mouvement du corps. Ce sont des systèmes en temps réel. La chose intéressante à ce sujet - ou je pense que c'est assez intéressant - est que beaucoup d'entre eux sont plus prédictifs que vous ne l'imaginez. C'est comme si vous regardiez un écran à environ 18 pouces de votre visage. Tout ce que vous pouvez voir clairement, tout ce que votre corps est capable de voir clairement est en fait un rectangle 8 × 10. Tout ce qui est en dehors de cela est en fait flou en ce qui concerne votre corps, mais votre esprit remplit les lacunes et ne le rend pas flou. Vous ne voyez pas du tout de flou. Vous le voyez clairement. Votre esprit fait actuellement une méthode prédictive du flux de données pour que vous puissiez voir cette clarté. C'est un peu curieux, mais vous pouvez en fait regarder le fonctionnement du système nerveux et la façon dont nous parvenons à nous déplacer et à nous comporter raisonnablement - au moins certains d'entre nous - raisonnablement sainement et sans se cogner aux choses tout le temps.

Tout est fait par une série d'échelles d'analyse neuronale ici. Ce qui va se passer, c'est que les organisations vont avoir le même genre de chose et vont construire le même genre de chose et ça va être le traitement des flux, y compris les flux internes de l'organisation - les choses qui se produisent à l'intérieur cela, les choses qui se passent en dehors de lui, les réponses instantanées qui doivent réellement être apportées nourrissent bien sûr l'être humain pour prendre des décisions, pour que tout cela se produise. Voilà où nous allons, pour autant que je puisse voir.

Une des choses qui en résulte est que le niveau de l'application de streaming se passe bien. Il va y en avoir beaucoup plus que ce que nous voyons maintenant. En ce moment, nous cueillons les fruits bas de faire les choses qui sont évidentes.

C'est de toute façon la conclusion ici. L'analytique en streaming était autrefois un créneau, mais elle se généralise et sera bientôt adoptée de manière générale.

Sur ce, je vais le transmettre à Rebecca.

Rebecca Jozwiak: Merci beaucoup, Robin. Super présentation comme d'habitude.

Anand, vous êtes à côté. La parole est à vous.

Anand Venugopal: Fantastique. Je vous remercie.

Je m'appelle Anand Venugopal et je suis chef de produit pour StreamAnalytix. C'est un produit offert par Impetus Technologies, de Los Gatos, en Californie.

Impetus a en fait une grande histoire en tant que fournisseur de solutions de Big Data pour les grandes entreprises. Nous avons donc fait un certain nombre d'implémentations d'analyse en continu en tant qu'entreprise de services et nous avons appris beaucoup de leçons. Au cours des deux dernières années, nous avons également décidé de devenir une société de produits et une entreprise axée sur les solutions et l'analyse des flux dirige la charge pour transformer Impetus en une entreprise largement axée sur les produits. Il y a des actifs critiques, très, très importants qu'Impetus a dégagés grâce à notre exposition aux entreprises et StreamAnalytix en fait partie.

Nous avons 20 ans d'expérience et il existe une grande variété de produits et de services qui nous fait un énorme avantage. Et StreamAnalytix est né de toutes les leçons apprises de nos cinq ou six premières implémentations de streaming.

Je vais aborder quelques points, mais les analystes, Dez et Robin, ont fait un travail fantastique pour couvrir l'ensemble de l'espace, donc je vais sauter beaucoup de contenu qui se chevauchent. J'irai probablement vite. Nous voyons en outre de vrais cas de streaming utilisant beaucoup d'accélération par lots, où il y a littéralement des processus par lots très, très importants dans les entreprises. Comme vous pouvez le voir, tout ce cycle de détection d'un événement et d'analyse et d'action sur celui-ci pourrait en fait prendre des semaines dans les grandes entreprises et ils essaient tous de le réduire à quelques minutes, parfois quelques secondes et des millisecondes. Donc, tout ce qui est plus rapide que tous ces processus par lots est candidat à l'acquisition d'entreprise et c'est très bien dit que la valeur des données diminue considérablement avec leur âge, de sorte que plus il y a de valeur dans la partie initiale dans les secondes qui viennent de se produire. Idéalement, si vous pouviez prédire ce qui allait se passer, c'est la valeur la plus élevée, mais cela dépend de la précision. La deuxième valeur la plus élevée est quand elle est là quand elle se produit, vous pouvez l'analyser et y répondre. Bien sûr, la valeur diminue considérablement après cela, la principale BI restrictive dans laquelle nous nous trouvons.

C'est intéressant. Vous pourriez vous attendre à une réponse scientifique spectaculaire à la raison pour laquelle l'analyse en streaming. Dans de nombreux cas, ce que nous voyons, c'est parce que c'est maintenant possible et parce que tout le monde sait que le lot est ancien, que le lot est ennuyeux et que le lot n'est pas cool. Il y a suffisamment d'éducation que tout le monde a maintenant sur le fait qu'il y a un streaming possible et tout le monde a Hadoop maintenant. Maintenant, les distributions Hadoop ont une technologie de streaming intégrée, que ce soit le streaming Storm ou Spark et bien sûr les files d'attente de messages, comme Kafka, etc.

Les entreprises que nous voyons s'y lancent et commencent à expérimenter ces cas et nous voyons deux grandes catégories. L'une a quelque chose à voir avec l'analyse et l'expérience client et la seconde intelligence opérationnelle. J'entrerai dans certains détails un peu plus tard. L'ensemble du service client et de l'expérience client, et chez Impetus StreamAnalytix, nous avons fait cela de nombreuses manières différentes, c'est vraiment capturer l'engagement multicanal du consommateur en temps réel et lui donner des expériences très, très contextuelles qui ne sont pas courants aujourd'hui. Si vous naviguez sur le Web, sur le site Web de Bank of America, que vous recherchiez certains produits et que vous appelez simplement le centre d'appels. Diraient-ils: «Hé Joe, je sais que vous faisiez des recherches sur certains produits bancaires, aimeriez-vous que je vous remplisse?» Vous ne vous attendez pas à cela aujourd'hui, mais c'est le genre d'expérience qui est vraiment possible avec l'analyse en streaming. Dans de nombreux cas, cela fait une énorme différence, surtout si le client a commencé à rechercher des moyens de résilier son contrat avec vous en consultant les clauses de résiliation anticipée ou les conditions de résiliation anticipée sur votre site Web, puis appelez et vous pouvez ne pas les confronter directement à ce sujet, mais juste indirectement faire une offre sur une sorte de première promotion parce que le système sait que cette personne envisage une résiliation anticipée et que vous faites cette offre à ce moment-là, vous pourriez très bien protéger ce client en rotation et protéger cet actif .

Ce serait un exemple, et beaucoup de services à la clientèle sont tous de très bons exemples. Nous mettons en œuvre aujourd'hui réduit les coûts dans le centre d'appels et offre une expérience client délicieuse et spectaculaire. Dez a fait un excellent travail en résumant certains des cas d'utilisation. Vous pouvez regarder ce tableau pendant quelques minutes. Je l'ai classé comme verticales, horizontales et zones de combo, IoT, application mobile et centre d'appels. Ce sont tous des verticales et des horizontales. Cela dépend de la façon dont vous le regardez. En bout de ligne, nous voyons beaucoup d'utilisations horizontales qui sont assez courantes dans les secteurs verticaux de l'industrie et il existe des cas d'utilisation spécifiques verticaux, notamment les services financiers, les soins de santé, les télécommunications, la fabrication, etc. Si vous vous posez vraiment la question ou vous vous dites que, "oh, je ne sais pas quels sont les cas d'utilisation. Je ne sais pas s'il y a vraiment une valeur commerciale dans l'analyse en streaming pour mon entreprise ou pour notre entreprise », réfléchissez bien, réfléchissez-y à deux fois. Parlez à plus de gens car il existe des cas d'utilisation qui sont pertinents dans votre entreprise aujourd'hui. Je vais entrer dans la valeur commerciale sur la façon dont la valeur commerciale est dérivée.

Ici, au bas de la pyramide, vous avez la maintenance prédictive, la sécurité, la protection contre les désabonnements, etc. Ces types de cas d'utilisation constituent une protection des revenus et des actifs. Si Target avait protégé leur violation de sécurité qui s'est produite pendant des heures et des semaines, le CIO aurait pu sauver son travail. Il pourrait permettre d'économiser des dizaines ou des centaines de millions de dollars, etc. L'analyse en streaming en temps réel aide vraiment à protéger ces actifs et à protéger les pertes. Il s'agit là d'une valeur ajoutée commerciale directe.

La catégorie suivante devient plus rentable, réduisant vos coûts et tirant plus de revenus de l'exploitation actuelle. C'est l'efficacité de l'entreprise actuelle. Ce sont toutes les catégories de cas d'utilisation que nous appelons l'intelligence opérationnelle en temps réel où vous obtenez des informations approfondies sur le comportement du réseau, le comportement de vos opérations client, le comportement de votre processus métier et vous pouvez modifier tout cela en temps réel parce que vous obtenez des commentaires, vous recevez des alertes. Vous obtenez des déviances, des écarts en temps réel et vous pouvez rapidement agir et séparer le processus qui sort des limites.

Vous pourriez également économiser beaucoup d'argent dans des mises à niveau de capitaux coûteuses et des choses que vous pensez nécessaires, qui peuvent ne pas être nécessaires si vous optimisez le service réseau. Nous avons entendu parler d'un cas où une grande compagnie de télécommunications a reporté une mise à niveau de 40 millions de dollars de son infrastructure réseau parce qu'elle a constaté qu'elle avait suffisamment de capacité pour gérer son trafic actuel, ce qui est en optimisant et en améliorant le routage intelligent de son trafic et des choses comme ça. Tout cela n'est possible qu'avec des mécanismes d'analyse et d'action en temps réel qui agissent sur ces informations en temps réel.

Le prochain niveau de valeur ajoutée est la vente incitative, la vente croisée où il existe des opportunités de générer plus de revenus et de bénéfices à partir des offres actuelles. Il s'agit d'un exemple classique que beaucoup d'entre nous connaissent à propos de leur expérience dans laquelle vous pensez dans votre vie où vous êtes prêt à acheter un produit aujourd'hui qui ne vous est pas proposé. Dans de très nombreux cas, cela se produit réellement. Vous avez dans votre esprit des choses que vous aimez acheter, que vous savez que vous voulez acheter, que vous avez une liste de choses à faire ou quelque chose, que votre femme vous a dit ou si vous n'avez pas de femme mais que vous vouliez vraiment acheter et vous faites des achats sur un site Web ou vous interagissez dans un magasin de détail, la vitrine n'a tout simplement pas le contexte, n'a pas l'intelligence pour calculer ce dont vous pourriez avoir besoin. Par conséquent, ils ne sécurisent pas leur entreprise. Si l'analyse de streaming pouvait être déployée pour vraiment faire des prédictions précises et qui sont vraiment possibles sur ce qui conviendrait le mieux à ce contexte particulier, ce client en ce moment à cet endroit, il y a beaucoup de ventes incitatives et de ventes croisées et cela vient encore analyse en streaming - être capable de prendre une décision de propension à ce que ce client est susceptible d'acheter ou de répondre à ce moment de vérité quand il y a une opportunité. C'est pourquoi j'aime cette photo que Dez a montré avec l'ours sur le point de manger ce poisson. C'est à peu près ça.

Nous pensons également qu'il existe une grande catégorie de changements transformationnels dramatiques dans une entreprise consistant à offrir des produits et des services complètement nouveaux simplement basés sur l'observation du comportement des clients, tous basés sur l'observation du comportement d'une autre entreprise. Si, disons, un opérateur de télécommunications ou un câblodistributeur observent vraiment les modèles d'utilisation des clients dans quel segment du marché qu'il consulte, quel programme à quel moment, etc., ils finissent par créer des produits et services qui sont presque mendiants pour en quelque sorte. Donc, tout le concept de comportement multi-écran en ce moment où nous prenons maintenant pour acquis que nous pouvons voir le contenu TV ou câble sur nos applications mobiles. Certains de ces exemples proviennent des nouveaux produits et services qui nous sont offerts.

Je vais entrer dans «Quelles sont les considérations d'architecture de l'analyse en streaming?» C'est finalement ce que nous essayons de faire. Il s'agit de l'architecture Lambda où vous mélangez les données historiques et les informations en temps réel et que vous les voyez en même temps. C'est ce que Sigma permet. Nous avons tous aujourd'hui l'architecture par lots et l'image de l'entreprise. Nous glanons dans une sorte de pile BI et de pile d'utilisation et l'architecture Lambda a été ajoutée. En tant que couche de vitesse ou besoin et Lambda, il s'agit de fusionner ces deux idées et de voir cela de manière combinée, d'une manière riche qui combine les deux idées.

Il existe un autre paradigme appelé architecture Kappa qui est proposé où la conjecture est que la couche de vitesse est le seul mécanisme d'entrée qui va persister à plus long terme. Tout va passer par cette couche de vitesse. Il n'y aura même pas de mécanisme ETL hors ligne. Tout l'ETL se produira. Nettoyage, nettoyage des données, ETL de qualité - tout cela se fera sur le fil, car gardez à l'esprit que toutes les données sont nées en temps réel. À un moment donné, c'était en temps réel. Nous nous sommes tellement habitués à mettre cela sur les lacs, les rivières et les océans, puis à le faire sur une analyse statique que nous avons oublié que les données sont nées à un moment donné en temps réel. Toutes les données sont en fait nées comme un événement en temps réel qui s'est produit dans le temps et la plupart des données d'aujourd'hui sur le lac viennent d'être mises dans la base de données pour une analyse ultérieure et nous avons maintenant l'avantage dans l'architecture Lambda et Kappa de réellement le voir, l'analyser, le pré-traiter et y réagir dès son arrivée. C'est ce que permettent ces technologies. Lorsque vous le regardez comme une image globale, cela ressemble à quelque chose comme ça où il y a Hadoop à l'intérieur, des MPP et des entrepôts de données que vous avez déjà.

Nous mettons cela en place parce qu'il est important de ne pas simplement parler des nouvelles technologies dans une île. Ils doivent s'intégrer. Ils doivent avoir un sens dans le contexte actuel de l'entreprise, et en tant que fournisseurs de solutions au service des entreprises, nous sommes très sensibles à cela. Nous aidons les entreprises à intégrer le tout. Il y a des sources de données sur le côté gauche alimentant à la fois les couches Hadoop et d'entrepôt de données ainsi que la couche en temps réel en haut et chacune de ces entités sont des ordinateurs de stock comme vous pouvez le voir et la couche de consommation de données est à droite côté. Il y a un effort constant pour déplacer la majorité de la conformité, la gouvernance, la sécurité, la gestion du cycle de vie, etc., qui sont disponibles aujourd'hui sont tous ont été amassés dans cette nouvelle technologie.

L'une des choses que l'analyse de flux essaie de faire, si vous regardez le paysage aujourd'hui, il y a beaucoup de choses qui se passent dans le paysage de la technologie de streaming et du point de vue du client d'entreprise, il y a tellement de choses à comprendre. Il y a tellement de choses à suivre. Il existe des mécanismes de collecte de données sur le côté gauche - NiFi, Logstash, Flume, Sqoop. De toute évidence, j'ai mis en place un avertissement disant qu'il n'est pas exhaustif. Entrer dans les files d'attente de messages, puis entrer dans les moteurs de streaming open source - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron n'est probablement pas encore open source. Je ne sais pas si c'est le cas, sur Twitter. Ces moteurs de streaming mènent ou prennent en charge un composant d'application analytique de configuration tel que le traitement d'événements complexes, l'apprentissage automatique, l'analyse prédictive, le module d'alerte, le streaming ETL, les filtres d'opérations statistiques d'enrichissement. Ce sont tous ce que nous appelons maintenant des opérateurs. L'ensemble de ces opérateurs, une fois enchaînés, pourrait éventuellement aussi, dans une large mesure, être conclu si nécessaire, devenant une application de streaming qui s'exécute sur un moteur de streaming.

Dans le cadre de cette chaîne de composants, vous devez également stocker et indexer les données dans votre base de données préférée, votre index préféré. Vous devrez peut-être également distribuer le cache et à nouveau cela mène à la couche de visualisation des données sur le côté droit dans la partie supérieure pour les produits commerciaux ou les produits open source, mais finalement vous avez besoin d'une sorte de produit pour visualiser ces données en temps réel. En outre, vous devez parfois trouver d'autres applications. Nous avons tous vu que les valeurs dérivées uniquement par l'action que vous effectuez sur la perspicacité, cette action va être un déclencheur d'une pile analytique dans une autre pile d'applications qui peut-être changé quelque chose du côté IVR ou déclencher un centre d'appels appel sortant ou quelque chose comme ça. Nous devons avoir ces systèmes intégrés et un mécanisme pour que votre cluster de streaming déclenche d'autres applications d'envoi de données en aval.

C'est la pile globale qui va de gauche à droite. Ensuite, vous avez les couches de service, la surveillance intermédiaire, la couche de service général de sécurité, etc. En ce qui concerne les produits qui sont là-bas dans l'espace d'entreprise que les clients voient comme les distributions Hadoop qui ont toutes du streaming comme je l'ai dit et il y a du commercial ou du single -des solutions fournisseurs qui se trouvent évidemment chez nos concurrents. Il y en a beaucoup plus dans le paysage que nous n'avons peut-être pas mentionnés ici.

Ce que vous voyez là-bas est largement visible par l'utilisateur d'entreprise. Un paysage technologique complexe et en évolution rapide pour le traitement des flux, comme vous pouvez le voir. Nous avons dû simplifier le choix et leur expérience utilisateur. Ce dont nous pensons que les entreprises ont vraiment besoin, c'est de l'abstraction fonctionnelle de tout cela dans une interface à guichet unique, facile à utiliser qui rassemble toutes ces technologies qui la rend vraiment simple à utiliser et n'expose pas toutes les pièces mobiles et les problèmes de dégradation et les problèmes de performance et les problèmes de maintenance du cycle de vie de l'entreprise.

L'abstraction des fonctionnalités en est un. La deuxième partie est l'abstraction du moteur de streaming. Les moteurs de streaming et les domaines open-source arrivent tous les trois, quatre ou six mois maintenant. C'était Storm pendant longtemps. Samza est venu et maintenant c'est Spark Streaming. Flink lève la tête et commence à attirer l'attention. Même la feuille de route de Spark Streaming, ils créent un moyen d'utiliser potentiellement un moteur différent pour le traitement d'événements purs, car ils se rendent également compte que Spark a été conçu pour le lot et ils font un chemin dans leur vision de l'architecture et leur feuille de route pour potentiellement avoir un autre moteur pour le traitement de flux en plus du modèle de microbatch actuel dans Spark Streaming.

C'est une réalité avec laquelle vous devez composer avec le fait qu'il va y avoir beaucoup d'évolution. Vous devez vraiment vous protéger de ce flux technologique. Parce que par défaut, vous devrez en choisir un, puis vivre avec, ce qui n'est pas optimal. Si vous envisagez les choses d'une autre manière, vous vous disputez entre «d'accord, je dois acheter une plate-forme propriétaire où il n'y a pas de verrouillage, il n'y a pas de levier de l'open source, cela pourrait être très coûteux et limité. la flexibilité par rapport à toutes ces piles open source où vous devez le faire vous-même. »Encore une fois, comme je l'ai dit, il y a beaucoup de coûts et de délais pour arriver sur le marché. Ce que nous disons, c'est que StreamAnalytix est un exemple d'une excellente plate-forme qui rassemble la classe entreprise, un fournisseur fiable et un service professionnel pris en charge - tout ce dont vous avez vraiment besoin en tant qu'entreprise et la puissance de flexibilité de l'écosystème open source où une plate-forme unique les rassemble - ingestion, CEP, analyse, visualisation et tout cela.

Il fait également une chose très, très unique, qui rassemble de nombreux moteurs technologiques différents sous une seule expérience utilisateur. Nous pensons vraiment que l'avenir est de pouvoir utiliser plusieurs moteurs de streaming, car différents cas d'utilisation exigent vraiment des architectures de streaming différentes. Comme l'a dit Robin, il existe tout un éventail de latences. Si vous parlez vraiment de niveau de latence en millisecondes, de dizaines ou même de centaines de millisecondes, vous avez vraiment besoin de Storm à ce moment jusqu'à ce qu'il y ait un autre produit tout aussi mature pour moins de clémence ou un délai clément et des latences de peut-être en quelques secondes, trois, quatre, cinq secondes, cette plage, alors vous pouvez utiliser Spark Streaming. Potentiellement, il existe d'autres moteurs qui pourraient faire les deux. En bout de ligne, dans une grande entreprise, il y aura des cas d'utilisation de toutes sortes. Vous voulez vraiment que l'accès et la généralité aient plusieurs moteurs avec une seule expérience utilisateur et c'est ce que nous essayons de construire dans StreamAnalytix.

Juste un aperçu rapide de l'architecture. Nous allons retravailler un peu cela, mais essentiellement, il y a plusieurs sources de données entrant sur le côté gauche - Kafka, RabbitMQ, Kinesis, ActiveMQ, toutes ces sources de données et files d'attente de messages arrivant sur la plate-forme de traitement de flux où vous pouvez assembler une application, où vous pouvez faire glisser et déposer des opérateurs comme les ETL, tout ce dont nous avons parlé. En dessous, il y a plusieurs moteurs. À l'heure actuelle, nous avons Storm et Spark Streaming en tant que seule et première plate-forme de streaming de classe entreprise qui prend en charge plusieurs moteurs. C'est une flexibilité très unique que nous offrons en plus de toute autre flexibilité d'avoir des tableaux de bord en temps réel. Moteur CET intégré. Nous avons l'intégration transparente avec les index Hadoop et NoSQL, les index Solr et Apache. Vous pouvez atterrir sur votre base de données préférée, quelle qu'elle soit, créer des applications très rapidement, commercialiser très rapidement et rester à l'épreuve du temps. C'est tout notre mantra dans StreamAnalytix.

Sur ce, je pense que je vais conclure mes remarques. N'hésitez pas à venir nous voir pour plus de questions. J'aimerais garder la parole pour les questions / réponses et les discussions en groupe.

Rebecca, à toi.

Rebecca Jozwiak: Parfait, d'accord. Merci beaucoup. Dez et Robin, avez-vous des questions avant de passer au Q & A du public?

Robin Bloor: J'ai une question. Je remets mon casque pour que tu puisses m'entendre. L'une des choses intéressantes, si vous pouviez bien me dire ceci, une grande partie de ce que j'ai vu dans l'espace open-source ressemble à ce que je dirais immature. Dans un sens, oui, vous pouvez faire diverses choses. Mais il semble que nous examinions le logiciel dans sa première ou deuxième version en réalité et je me demandais simplement avec votre expérience en tant qu'organisation, à quel point considérez-vous l'immaturité de l'environnement Hadoop comme problématique ou est-ce quelque chose qui ne fonctionne pas? t créer trop de problèmes?

Anand Venugopal: C'est une réalité, Robin. Vous avez absolument raison. L'immaturité n'est pas nécessairement dans le domaine de la stabilité fonctionnelle et des choses, mais peut-être aussi dans certains cas. Mais l'immaturité est plus dans la préparation de l'utilisation. Les produits open-source au fur et à mesure qu'ils sortent et même s'ils sont proposés par la distribution Hadoop, ce sont tous de nombreux produits capables, des composants simplement claqués ensemble. Ils ne fonctionnent pas ensemble de manière transparente et ne sont pas conçus pour une expérience utilisateur fluide et transparente que nous obtiendrons comme Bank of America ou Verizon ou AT&T, pour déployer une application d'analyse en streaming en quelques semaines. Ils ne sont pas conçus pour ça, c'est sûr. C'est la raison pour laquelle nous intervenons. Nous les rassemblons et les rendons vraiment faciles à comprendre, à déployer, etc.

La maturité fonctionnelle de celui-ci, je pense dans une large mesure, est là. De nombreuses grandes entreprises utilisent par exemple Storm aujourd'hui. De nombreuses grandes entreprises jouent aujourd'hui avec Spark Streaming. Chacun de ces moteurs a ses limites dans ce qu'il peut faire, c'est pourquoi il est important de savoir ce que vous pouvez et ce que vous ne pouvez pas faire avec chaque moteur et il est inutile de vous casser la tête contre le mur et de dire: «Regardez, je a choisi Spark Streaming et cela ne fonctionne pas pour moi dans cette industrie particulière. »Cela ne fonctionnera pas. Il y aura des cas d'utilisation où Spark Streaming sera la meilleure option et il y aura des cas d'utilisation où Spark Streaming peut ne pas fonctionner du tout pour vous. C'est pourquoi vous avez vraiment besoin de plusieurs options.

Robin Bloor: Eh bien, vous devez avoir des équipes d'experts à bord pour la plupart de cela. Je veux dire que je ne sais même pas par où commencer. Une coopération sensée d'individus qualifiés. Je suis intéressé par la façon dont l'engagement vous vous impliquez et comment cela se produit. Est-ce parce qu'une entreprise en particulier recherche une application spécifique ou voyez-vous ce que j'appellerais une adoption stratégique où ils veulent qu'une plate-forme entière fasse beaucoup de choses.

Anand Venugopal: Nous voyons des exemples des deux, Robin. Certaines des dix meilleures marques que tout le monde connaît s'y prennent de manière très stratégique. Ils savent qu'ils vont avoir une variété de cas d'utilisation, ils évaluent donc des plates-formes qui répondront à ce besoin, c'est-à-dire une variété de différents cas d'utilisation de manière multi-locataire à déployer dans une entreprise. Il existe également des histoires de cas à usage unique. Il y a un cas d'utilisation particulier de type surveillance des activités commerciales dans une société de prêts hypothécaires sur laquelle nous travaillons, que vous n'imaginez pas comme premier cas d'utilisation, mais c'est la solution commerciale ou le cas d'utilisation qu'ils ont proposé, puis nous avons connecté les points au streaming . Nous avons dit: «Vous savez quoi? Il s'agit d'un excellent exemple de streaming analytique et voici comment nous pouvons l'implémenter. »C'est ainsi que cela commençait. Ensuite, dans ce processus, ils sont éduqués et disent: «Oh wow, si nous pouvons le faire et s'il s'agit d'une plate-forme générique, nous pouvons alors séparer l'application, les superposer en plate-forme et créer de nombreuses applications différentes sur ce Plate-forme."

Robin Bloor: Dez, vous avez des questions?

Anand Venugopal: Dez est probablement en sourdine.

Dez Blanchfield: Excuses, muet. J'ai juste eu une bonne conversation moi-même. À la suite de l'observation originale de Robin, vous avez absolument raison. Je pense que le défi est maintenant que les entreprises ont un écosystème et un environnement culturel et comportemental où les logiciels libres et open-source sont quelque chose qui leur est connu et ils sont capables d'utiliser des outils comme Firefox comme navigateur et il a eu un bon durée de vie jusqu'à ce qu'il devienne stable et sécurisé. Mais certaines de ces très grandes plates-formes qu'ils utilisent sont des plates-formes propriétaires de niveau entreprise. Ainsi, l'adoption de ce que je considère comme des plates-formes open source n'est pas toujours quelque chose qui leur est facile à transmettre culturellement ou émotionnellement. J'ai vu cela à travers l'adoption de petits programmes qui étaient des projets locaux pour simplement jouer avec les mégadonnées et l'analyse comme concept fondamental. Je pense que l'un des principaux défis, je suis sûr que vous les avez maintenant vus dans toutes les organisations, est leur désir d'obtenir le résultat, mais en même temps, d'avoir un pied coincé dans l'ancienne boîte où ils pourraient simplement acheter cela «Insérer une grande marque» Oracle, IBM et Microsoft. Ces marques nouvelles et connues arrivent avec les plateformes Hadoop et bien plus encore. Des marques plus excitantes arrivent grâce à une technologie de pointe comme stream.

Quels sont les types de conversations que vous avez eues ou que vous avez interrompues? Je sais que nous sommes massivement présents ce matin et je suis sûr que tout le monde pense: «Comment puis-je traverser toute cette couche difficile du conseil d'administration au niveau de la gestion, oh c'est trop open source et trop saignant? "Comment se déroulent les conversations que vous avez avec les clients et comment en êtes-vous arrivé à ce point où vous apaisez ce genre de peurs pour envisager d'adopter des goûts de StreamAnalytix?

Anand Venugopal: Nous trouvons en fait assez facile de vendre notre proposition de valeur car les clients s'orientent naturellement vers l'open source comme option préférée. Ils n'abandonnent pas simplement et disent: «D'accord, je vais maintenant passer à l'open source.» Ils passent en fait par une évaluation très engagée d'un produit majeur, disons que c'est un IBM ou un produit typique, parce qu'ils ont ces relations avec les fournisseurs. Ils ne nous traiteraient pas, ni le moteur open-source, contre ce produit. Ils passeront par six à huit à douze semaines d'évaluation. Ils se convaincront qu'il y a ici un certain niveau de performance et de stabilité que je veux et puis ils se décident en disant: "Wow, tu sais quoi, je peux réellement faire ça."

Aujourd'hui, par exemple, nous avons un opérateur de télécommunications de premier plan majeur qui a des analyses de flux en cours de production sur une grande partie de la pile et ils évaluent cela contre un autre très, très grand fournisseur bien connu et ils n'ont été convaincus qu'après que nous ayons tout prouvé les performances, la stabilité et toutes ces choses. Ils ne tiennent pas cela pour acquis. Ils ont découvert que l'open source est compétent grâce à leurs évaluations et ils se rendent compte que, le pire des cas, "Peut-être qu'il y a ces deux cas d'utilisation que je ne peux peut-être pas faire, mais la plupart de mes cas d'utilisation d'accélération d'entreprise aujourd'hui sont éminemment possibles avec l'open-source pile. »Et nous en permettons l'utilisation. Voilà donc le grand sweet spot juste là. Ils voulaient l'open source. Ils cherchent vraiment à sortir de la situation de blocage des fournisseurs à laquelle ils sont habitués depuis de très nombreuses années. Ensuite, nous arrivons et nous disons: «Vous savez quoi, nous rendrons l'open source beaucoup, beaucoup plus facile et convivial à utiliser pour vous.»

Dez Blanchfield: Je pense que l'autre défi que rencontrent les entreprises, c'est quand elles recrutent le titulaire traditionnel, elles sont souvent une génération derrière une partie du tranchant des choses passionnantes dont nous parlons ici et je ne veux pas dire que négatif léger. C'est juste que la réalité est qu'ils ont une génération et un chemin à parcourir pour publier ce qu'ils considèrent comme des plates-formes stables, des cycles de développement et d'intégration de l'UATN et des tests et de la documentation, ainsi que du marketing et des ventes. Alors que dans le type que vous faites, je pense que la chose qui m'intéresse est de regarder certaines de vos dernières sorties hier soir en faisant une sorte de travail de recherche, vous avez ce mix maintenant où vous avez le compétence d'un point de vue de conseil initial et une mise en œuvre, mais vous avez également obtenu une pile que vous pouvez rouler. Je pense que c'est là que les opérateurs historiques vont avoir du mal pendant un certain temps. Nous en avons vu beaucoup comme moi sur le marché. Ils se trouvent souvent dans ce que j'appelle des nœuds de rattrapage, alors que d'après ce que vous nous dites lorsque vous êtes en train de faire ces conversations et que vous êtes en train de mettre en œuvre.

Pouvez-vous nous donner quelques exemples de certaines des verticales frontalières que vous avez vues adopter? Par exemple, il existe un environnement très spécifique comme la science des fusées et la mise en place de satellites dans l'espace et la collecte de données sur Mars. Il n'y a qu'une poignée de personnes qui font ça sur la planète. Mais il y a de grands secteurs verticaux comme la santé par exemple, dans l'aéronautique, le transport maritime et la logistique, la fabrication et l'ingénierie, quels sont quelques exemples des secteurs industriels plus vastes et plus larges que vous avez connus jusqu'à présent que vous avez vu vraiment bien adoption en?

Anand Venugopal: Telco est un grand exemple.

Je vais juste corriger rapidement mes diapositives ici. Pouvez-vous voir la diapositive ici, étude de cas 4?

C'est le cas d'un grand opérateur de télécommunications qui ingère des données de décodeur et fait plusieurs choses avec. Ils regardent ce que les clients font vraiment en temps réel. Ils regardent où les erreurs se produisent en temps réel dans les décodeurs. Ils essaient d'informer le centre d'appels sur, si ce client appelle en ce moment, les informations de liaison de code du décodeur de ce client, les informations de ticket de maintenance corrélent rapidement si le décodeur de ce client particulier a un problème ou pas avant même le client parle un mot. Chaque câblodistributeur, chaque grande compagnie de téléphone essaie de le faire. Ils ingèrent les données du décodeur, effectuent des analyses en temps réel, des analyses de campagne afin de pouvoir placer leurs annonces. Il y a un énorme cas d'utilisation.

Comme je l'ai dit, il y a cette société de prêts hypothécaires qui est encore une fois un modèle générique où de grands systèmes sont impliqués dans le traitement des données. Les données qui transitent par le système A vers le système B vers le système C et ce sont des entreprises réglementées dont tout doit être cohérent. Souvent, les systèmes sont désynchronisés les uns avec les autres, un système dit: «Je traite une centaine de prêts d'une valeur totale de 10 millions de dollars.» Le système dit: «Non, je traite 110 prêts de certains autres différent. »Ils doivent résoudre ce problème très rapidement car ils traitent en fait les mêmes données et font des interprétations différentes.

Qu'il s'agisse d'une carte de crédit, du traitement d'un prêt, d'un processus opérationnel, ou qu'il s'agisse d'un processus commercial hypothécaire ou autre, nous les aidons à faire la corrélation et le rapprochement en temps réel pour s'assurer que ces processus commerciaux restent synchronisés. C'est un autre cas d'utilisation intéressant. Un important contractant du gouvernement américain examine le trafic DNS pour détecter les anomalies. Il existe un modèle de formation hors ligne qu'ils ont créé et ils effectuent la notation basée sur ce modèle sur le trafic en temps réel. Certains de ces cas d'utilisation intéressants. Il y a une grande compagnie aérienne qui regarde les files d'attente de sécurité et elle essaie de vous donner cette information: «Hé, c'est la porte de votre avion pour votre vol. Aujourd'hui, la file d'attente TSA est d'environ 45 minutes contre deux heures par rapport à autre chose. »Vous obtenez cette mise à jour dès le départ. Ils y travaillent encore. Cas d'utilisation intéressant de l'IoT mais excellent cas d'analyse en continu vers l'expérience client.

Rebecca Jozwiak: Voici Rebecca. Alors que vous êtes sur le sujet des cas d'utilisation, il y a une grande question d'un membre du public qui se demande: «Ces études de cas, ces initiatives sont-elles tirées du côté analytique des systèmes d'information de la maison ou sont-elles davantage tirées de l'entreprise qui a des questions ou des besoins spécifiques en tête? »

Anand Venugopal: Je pense que nous voyons environ 60 pour cent, de 50 à 55 pour cent, des initiatives technologiques très proactives et enthousiastes qui savent, qui se trouvent être assez avisées et qui comprennent certaines exigences commerciales et ils ont probablement un sponsor qu'ils identifiés, mais ce sont des équipes technologiques qui se préparent à l'assaut des cas d'utilisation commerciale à venir, puis une fois qu'ils ont construit la capacité, ils savent qu'ils peuvent le faire, puis ils se lancent dans les affaires et le vendent agressivement. Dans 30 à 40 pour cent des cas, nous constatons que l'entreprise a déjà un cas d'utilisation particulier qui demande une capacité d'analyse en streaming.

Rebecca Jozwiak: Cela a du sens. J'ai une autre question légèrement plus technique d'un membre du public. Il se demande si ces systèmes prennent en charge les flux de données structurés et non structurés, comme les sédiments des flux Twitter ou des publications Facebook en temps réel, ou doit-il être filtré initialement?

Anand Venugopal: Les produits et technologies dont nous parlons prennent en charge de manière très imminente les données structurées et non structurées. Ils peuvent être configurés. Toutes les données ont une sorte de structure, que ce soit un texte ou un XML ou quoi que ce soit du tout. Il y a une certaine structure en termes de flux d'horodatage. Il y a peut-être un autre blob qui doit être analysé afin que vous puissiez injecter des analyses dans le flux pour analyser les structures de données. S'il est structuré, nous disons simplement au système: «D'accord, s'il y a des valeurs séparées par des virgules et que la première est une chaîne, la seconde est une date». Nous pouvons donc injecter cette intelligence d'analyse dans les couches à l'écran et traiter facilement des données structurées et non structurées.

Rebecca Jozwiak: J'ai une autre question du public. Je sais que nous avons un peu dépassé le sommet de l'heure. Ce participant veut savoir, il semble que les applications de streaming en temps réel développent à la fois un besoin et une opportunité de réintégrer les systèmes de transaction, les systèmes de prévention de la fraude qu'ils évoquent par exemple. Dans ce cas, les systèmes de transaction doivent-ils être modifiés pour correspondre à cela?

Anand Venugopal: C'est une fusion, non? C'est une fusion de systèmes de transaction. Ils deviennent parfois la source de données où nous analysons les transactions en temps réel et dans de nombreux cas, disons qu'il y a un flux d'application et ici j'essaie de montrer un site de recherche de données statique, puis dans notre cas où une sorte de streaming et vous recherchez une base de données statique comme un HBase ou un SGBDR pour enrichir les données de streaming et les données statiques ensemble pour prendre une décision ou un aperçu analytique.

Nous observons également une autre grande tendance de l'industrie - la convergence d'OLAP et d'OLTP - et c'est pourquoi vous avez des bases de données comme Kudu et des bases de données en mémoire prenant en charge à la fois les transactions et le traitement analytique. La couche de traitement de flux serait entièrement en mémoire et nous examinerons ou interfacerons avec certaines de ces bases de données transactionnelles.

Rebecca Jozwiak: La charge de travail mixte a été l'un des derniers obstacles à franchir, je pense. Dez, Robin, avez-vous d'autres questions?

Dez Blanchfield: Je vais passer à une dernière question et terminer là-dessus si cela ne vous dérange pas. Le premier défi auquel les organisations avec lesquelles je fais face depuis une dizaine d'années environ a mené à ce défi passionnant d'analyse de flux, la première chose qu'elles ont tendance à remettre sur la table lorsque nous avons commencé la conversation autour de tout ce défi, c'est où faire nous obtenons l'ensemble de compétences? Comment recycler l'ensemble de compétences et comment obtenir cette capacité en interne? Faire en sorte qu'Impétus vienne et nous tienne la main tout au long du voyage, puis l'implémente comme une première étape importante et il est très logique de le faire.

Mais pour les moyennes et grandes organisations, quels sont les types de choses que vous voyez en ce moment pour vous préparer à cela, pour développer cette capacité en interne, pour obtenir quoi que ce soit à partir d'un simple vocabulaire de base et quel type de message peuvent-ils faire avec l'organisation autour de la transition vers ce type de cadre et réorganiser leur personnel technique existant de l'informatique du PDG afin qu'ils puissent l'exécuter eux-mêmes une fois que vous l'avez créé et mis en œuvre? Très brièvement, quels types de défis et comment les résolvent-ils, les clients avec lesquels vous faites face, les types de défis qu'ils ont rencontrés et comment ils passent par la résolution de ce recyclage et de la récupération de l'expérience et des connaissances pour se préparer à cela et à être capable de circuler sur le plan opérationnel?

Anand Venugopal: Souvent, le petit groupe de personnes qui essaient de sortir et d'acheter une plate-forme d'analyse en streaming est déjà raisonnablement intelligent en ce sens qu'ils connaissent Hadoop, ils ont déjà acquis leurs compétences Hadoop MapReduce et parce qu'ils travaillent en étroite collaboration avec Hadoop vendeur de distribution, ils sont soit familiers. Tout devient Kafka, par exemple. Ils font quelque chose avec et le streaming Storm ou Spark est dans leur domaine open-source. Certainement, les gens le connaissent ou développent des compétences autour de lui. Mais cela commence par un petit groupe de personnes suffisamment compétentes et intelligentes. Ils assistent à des conférences. Ils apprennent et posent des questions intelligentes aux vendeurs et, dans certains cas, ils apprennent avec les vendeurs. Comme les vendeurs arrivent et présentent lors de la première réunion, ils ne savent peut-être pas des choses mais ils lisent ensemble puis ils commencent à jouer avec.

Ce petit groupe de personnes est le noyau, puis il commence à croître et tout le monde se rend compte maintenant que le premier cas d'utilisation commerciale est opérationnel. Il commence une vague et nous avons vu au sommet Spark la semaine dernière où une grande entreprise comme Capital One était là et en pleine puissance. Ils optaient pour Spark. Ils en parlaient. Ils éduquent beaucoup de leurs employés à Spark parce qu'ils y contribuent également dans de nombreux cas en tant qu'utilisateur. Nous voyons la même chose avec beaucoup, beaucoup de grandes entreprises. Cela commence avec quelques petites personnes très intelligentes, puis cela commence une vague de formation globale et les gens savent qu'une fois qu'un vice-président principal ou un directeur principal est aligné et qu'ils veulent parier sur cette chose et que le mot circule et ils commencent tous à acquérir ces compétences.

Dez Blanchfield: Je suis sûr que vous avez aussi beaucoup de plaisir à former ces champions.

Anand Venugopal: Oui. Nous faisons beaucoup d'éducation pendant que nous travaillons avec les premiers champions et nous organisons des cours de formation et beaucoup, beaucoup pour nos gros clients, nous y sommes retournés et avons eu des vagues et des vagues de formation pour amener beaucoup d'utilisateurs dans la phase d'utilisation principale, en particulier sur le site Hadoop MapReduce. Nous avons constaté que dans une grande société de cartes de crédit qui est un de nos clients, nous avons dispensé au moins cinq à huit programmes de formation différents. Nous avons également des éditions communautaires gratuites de tous ces produits, y compris le nôtre, des bacs à sable que les gens peuvent télécharger, s'habituer et s'instruire également de cette façon.

Dez Blanchfield: C'est tout ce que j'ai ce matin pour vous. Merci beaucoup. Je trouve incroyablement intéressant de voir les types de modèles et de cas d'utilisation que vous avez pour nous aujourd'hui. Je vous remercie.

Anand Venugopal: Super. Merci beaucoup.

Rebecca Jozwiak: Merci à tous de vous être joints à nous dans cette webémission Hot Technologies. Il a été fascinant d'entendre Dez Blanchfield, le Dr Robin Bloor et Impetus Technologies, Anand Venugopal. Merci aux présentateurs. Merci les conférenciers et merci le public. Nous avons un autre Hot Technologies le mois prochain, alors cherchez-le. Vous pouvez toujours trouver notre contenu archivé sur Insideanalysis.com. Nous avons également mis en ligne de nombreux contenus sur SlideShare et quelques éléments intéressants sur YouTube.

C'est tout le monde. Merci encore et bonne journée. Bye Bye.

Exploiter le firehose: tirer profit de l'analyse commerciale en continu: transcription du webinaire