Par Techopedia Staff, 11 mai 2016
À retenir : l' animatrice Rebecca Jozwiak discute des progrès de l'architecture et du stockage des bases de données avec Dez Blanchfield, Robin Bloor et Brian Bulkowski.
Vous n'êtes actuellement pas connecté. Veuillez vous connecter ou vous inscrire pour voir la vidéo.
Rebecca Jozwiak: Mesdames et messieurs, bonjour et bienvenue à Hot Technologies de 2016. Aujourd'hui, nous sommes: «Révéler la différenciation: une nouvelle ère d'infrastructure évolutive arrive». J'interviens pour Eric Kavanagh aujourd'hui. Je suis Rebecca Jozwiak, votre humble hôte du groupe de conseil pendant qu'Eric est en Jamaïque. Bien pour lui.
Ainsi, comme cela a été le cas pendant des décennies, cette année est chaude, bien que la technologie évolue sans doute à un rythme supérieur à la loi de Moore, et que font les organisations pour suivre? Ils recherchent ce qui est rapide, et l'échelle, je dirais, est probablement l'une des choses les plus importantes lorsque nous pensons aux bases de données. Et bien sûr, nous avons les options du relationnel habituel, maintenant nous avons notre NoSQL, nous avons notre magasin de colonnes, nous avons nos bases de données graphiques, nos bases de données RDF, mais vraiment, ce que les entreprises recherchent, c'est l'échelle, le parallélisme et la rapidité. .
Maintenant, les architectures traditionnelles étaient basées sur ce modèle relationnel. Mais si vous regardez la plupart des entreprises Web qui ont vu le jour au cours des trois, cinq ou dix dernières années, ce ne sont pas les modèles qu'ils utilisent pour leur infrastructure. Ils utilisent une architecture différente et parallèle, ils évoluent et ils sont rapides, et c'est ce vers quoi beaucoup de gens se tournent aujourd'hui.
Notre gamme, nous avons Dez Blanchfield, il est un scientifique du groupe Bloor. Nous avons le docteur Robin Bloor, notre analyste en chef au Bloor Group, et nous avons Brian Bulkowski, directeur technique et fondateur d'Aerospike. Alors les gars avec ça, je vais céder la parole à Dez.
Dez Blanchfield: Merci et merci de m'avoir invité ici. Je vais essayer de préparer le terrain pour savoir comment nous sommes arrivés très rapidement où nous en sommes, et nous allons plonger dans beaucoup plus de détails techniques en parcourant les sujets d'aujourd'hui. Je vais juste prendre le contrôle de l'écran ici.
Tellement plus grand, meilleur et plus rapide. Quand je pense à l'endroit où nous en sommes, l'image qui me vient à l'esprit personnellement, c'est cette image que j'ai sur ma diapositive de titre, qui est l'expansion de l'univers. Nous avons fait développer et développer la technologie depuis des décennies maintenant, en fait à partir de la fin des années cinquante, lorsque l'ordinateur central est devenu une réalité. Dans de nombreux cas, la technologie a continué de croître à un rythme pire ou supérieur à une courbe linéaire, selon la partie de la courbe sur laquelle vous vous trouvez, en ce qui concerne le logiciel ou le matériel.
L'échelle est devenue de plus en plus grande, et de plus en plus rapide, en ce qui concerne ce que nous essayons de fournir, et de plus en plus petite au niveau de la fabrication et des semi-conducteurs. Et au milieu, il y a les logiciels et les applications et les systèmes qui sous-tendent ces logiciels, et ils ont tendance à devenir de plus en plus petits, et nous avons vu des choses comme les applications conteneurisées et les micro-serveurs, c'est redevenu une chose. Nous l'avons fait dans le passé, des décennies auparavant, mais à la suite de la réduction de plus en plus importante de ce secteur, nous devenons de plus en plus grands à l'échelle à laquelle nous pouvons désormais exécuter des choses, telles que des applications et des bases de données particulières, et la logique de ces bases de données.
J'ai cette vue où nous avons mis à l'échelle très horizontalement, essentiellement sur l'axe X; nous avons redimensionné verticalement sur l'axe Y. Nous en sommes maintenant au point où nous devons aller dans un endroit différent, et dans mon esprit, c'est en quelque sorte envisagé mentalement comme un axe Z, et c'est que nous devons approfondir la technologie et voir comment nous pouvons faire les choses différemment de ce que nous avons fait jusqu'à présent, pour obtenir cette vitesse supplémentaire. Je visualise donc toute cette expansion de l'univers, où nous avons eu une explosion, et certaines technologies existent, et cette meilleure croissance et demande linéaires. Nous avons dû trouver différentes façons d'obtenir ce résultat plus grand, meilleur et plus rapide.
Juste pour couvrir rapidement où nous en sommes maintenant dans quelques environnements matériels. Nous avons vu la baisse des coûts d'un gigaoctet d'espace disque provoquer quelques transitions et technologies assez importantes, ainsi que des approches au problème d'échelle plus grande, meilleure et plus rapide. Ce sont deux graphiques distincts qui couvrent environ une décennie chacun, un peu plus d'une décennie chacun du prix en baisse d'un gigaoctet d'espace sur le disque dur.
C'est une courbe en J classique ou un bâton de hockey comme nous les appelons souvent, car il y a quelque temps, vous pouviez littéralement dépenser des centaines de milliers de dollars pour acheter un gigaoctet d'espace disque, il n'y a pas tout à fait vingt ans, alors qu'aujourd'hui c'est devenu des dollars et finalement, je suis sûr que cela finira, ce que nous appelons la course à zéro, cela deviendra des cents. Cela a entraîné un changement intéressant dans le type de choses que les entreprises pouvaient faire. Et je parle de cela comme d'une perturbation des données ou des mégadonnées en particulier, et par cela, ce que je veux dire, c'est que nous avons vu des technologies, comme comment devenir une chose où nous pourrions évoluer très horizontalement dans le stockage, et le type de calcul que nous peut s'appliquer à ce stockage, et comment il ouvre une technologie intéressante car il nous permet de faire un stockage parallèle très important et redondant au niveau le plus rapide, et les parties Hadoop en elles-mêmes, pouvant nativement copier des données dans une écriture une fois lue plusieurs fois au format, et juste redimensionner la chose à un niveau presque linéaire.
Et ce sont toutes les entreprises comme celle-ci qui surviennent à la perturbation en utilisant le Big Data. Nous avons des entreprises comme Uber qui sont la plus grande compagnie de taxi au monde. Ils ne possèdent pas de taxis et c'est une longue liste ici. Airbnb est le plus grand fournisseur d'hébergement, n'a en fait aucun bien immobilier. Un de mes favoris est Facebook, par exemple dans cette liste, où ils ne créent pas réellement le contenu, nous le créons pour eux, mais ils sont en fait le plus grand propriétaire de médias de la planète. Nous en avons d'intéressantes comme les banques à la croissance la plus rapide, qui n'ont en fait pas d'argent. Ce sont des plateformes de prêt entre particuliers et des banques, et il y en a une en Australie en particulier qui est de plus en plus connue ici, appelée SocietyOne. Et certaines des grandes banques qui doivent disposer de liquidités investissent dans cette banque peer-to-peer particulière. Et nous parcourons cette liste jusqu'à Netflix; ils ne possèdent pas de cinémas et pourtant ils sont effectivement la plus grande salle de cinéma de la planète.
Ils sont donc arrivés là où ils étaient, selon moi, grâce à l'application de technologies intelligentes au niveau des données, car nous pouvions faire un stockage plus grand et plus large à moindre coût en raison de la baisse du prix d'un gigaoctet d'espace sur le disque dur, et nous avons pu appliquer un calcul intelligent et distribuer un modèle informatique sur cela. Ces entreprises avaient la capacité de créer un avantage concurrentiel et de perturber en raison de la baisse des coûts de l'espace disque.
Nous avons vu une chose similaire se produire dans le coût de la mémoire. Il y a quelques décennies, si vous aviez six millions de dollars, vous pourriez acheter un gigaoctet de RAM, et nous avons eu une courbe en J ou un bâton de hockey très similaire, dans la réduction des coûts ou la baisse du prix de RAM. Et cela a amené des choses intéressantes, et dans mon esprit, l'une des plus grandes perturbations dans cet espace est la quantité de mémoire qui peut être intégrée aux appareils, comme les appareils mobiles, comme les téléphones et les tablettes, et même les ordinateurs portables. Les ordinateurs de nos jours, la quantité de mémoire qui va dans un ordinateur portable moyen, c'est assez ridicule dans certains cas. Dans certains cas, mon ordinateur portable actuel a plus de mémoire que certains des serveurs qu'ils utilisaient il n'y a pas si longtemps.
Cela a provoqué des changements significatifs en soi, de la même manière que la RAM a dans mon esprit, cela nous a permis de nous adapter rapidement. Et maintenant, nous avons eu l'émergence d'une technologie que nous appelons flash, et c'est une technologie qui provient à l'origine de quelque chose qui était assis sur du matériel sous la forme d'une EEPROM, une petite puce qui a été conçue pour être disponible, et écrire, puis juste au moment de la mise hors tension, il conservera tout ce que vous avez écrit sur cette puce en tant que stockage persistant. C'était lent, c'était maladroit et à l'époque, je pense que c'était vers 1980-1981, c'est devenu une chose. En 1984, Toshiba, qui, je crois, a inventé la technologie, en a fait une chose commerciale que nous pourrions utiliser.
Mais peu de temps après, les gens ont compris qu'ils pouvaient réellement prendre une combinaison des composants qui ont été utilisés pour créer ce concept d'une EEPROM, une mémoire morte, une fois qu'il a été effacé et écrit dessus, et ils pourraient réellement y écrire. sur une base régulière, et l'utiliser un peu plus comme l'espace disque, et un peu plus comme la RAM. Au fil du temps, il s'est développé. Maintenant, cette technologie de stockage flash est une fusion entre le stockage sur disque traditionnel, qu'il s'agisse d'un disque en rotation ou, dans certains cas, d'un disque de mémoire hybride et de la RAM. Et l'élément clé est le système entre, car vous pouvez y lire et écrire, puis éteindre l'appareil, et il conservera ce que vous y avez écrit. Donc, un espace disque, évidemment vous y écrivez, vous coupez l'alimentation, et la broche tournante et le lourdement modifié, à défaut d'une meilleure description, conserve les zéros et ceux que vous y avez écrits.
Dans l'espace mémoire à accès aléatoire, vous écrivez quelque chose dans la mémoire RAM, vous éteignez l'ordinateur et tout est effacé car il n'y a plus d'électrons pour le garder chargé et conserver les informations que vous lui avez écrites. De plus, il est au milieu et il est extrêmement rapide, plus rapide que le disque, un peu plus lent que la RAM. Mais vous pouvez y écrire et lire à partir de celui-ci, et lorsque vous coupez l'alimentation, il persistera. Cela a donné lieu à des technologies incroyables et, en particulier, nous avons développé des appareils mobiles et des ordinateurs portables qui sont vraiment, très rapides et capables de faire beaucoup de choses, et maintenant ils sont déplacés dans l'espace d'infrastructure autour du stockage et du calcul, et cela a entraîné une importante changements dans ce que nous pouvons offrir à grande échelle. C'est un peu là où je pense que l'axe Z dans mon esprit se réalise maintenant.
Il est presque juste à temps à bien des égards, car nous avons vu une perturbation maintenant à travers ce que j'appelle la demande, et c'est ce que les consommateurs ont, indépendamment de ce qui se passe dans l'infrastructure et l'espace technologique, et la capacité de conduire plus vite et un calcul plus rapide et des performances au niveau de l'infrastructure, les consommateurs exigent cette interruption sous la forme de ce que l'on appelle maintenant, l'expérience des célébrités. Tout le monde veut que chaque système, chaque application, chaque site Web sache qui ils sont et ce qu'ils aiment et puisse leur offrir une expérience personnalisée. Ce n'est plus suffisant d'aller sur un site Web où j'achète des billets de cinéma. Je veux qu'il sache ce que j'ai acheté auparavant, pourquoi je l'ai acheté et potentiellement ce que des gens comme moi ont acheté et recommandent des choses.
Invariablement, nous voyons ce que je fais référence à un ordre secondaire de social, et c'est que je veux l'expérience de la célébrité, mais je veux aussi socialiser cette idée, je veux la partager avec tous mes amis et leur dire ce que je je fais, et je veux aussi savoir ce que mes amis font. Et cela est le résultat d'une demande explosive de calcul et de stockage supplémentaires, et d'un retournement rapide des choses. Nous avons vu la génération Fitbit, ce que j'appelle le suivi permanent. Tout ce que je fais est suivi, enregistré et capturé quelque part. Nous avons tout vu en temps réel: opérations bancaires, enchères, moteurs de recommandation, devoir faire face à des choses en temps réel que je fais personnellement en tant que consommateur.
Et puis nous voyons un très grand impact, comme les risques de sécurité liés à la cybersécurité. Auparavant, nous avions des pirates individuels, puis des gangs criminels s'y appliquaient, maintenant des nations entières vont faire la guerre sur Internet, ce qui est réel et se produit réellement. Faites attention à cela, asseyez-vous et regardez-le, car cela a un impact réel, et certains de nos plaisanteries d'avant-spectacle étaient autour de discuter du risque de pénétration de votre propre ordinateur, ou du moins de votre réseau.
Nous avons vu ce concept d'extraction d'entité. L'extraction d'entité, c'est quand nous devons trouver des choses intéressantes dans de très grands ensembles de données et en particulier autour de la fraude et des activités illégales et de type pirate. Mais le plus souvent, nous verrons que l'extraction d'entités devient un point de concentration pour les bonnes choses et les choses qui ont de la valeur pour nous, par opposition à la recherche de choses qui nous attaquent.
Nous avons également vu une explosion, ce qu'on appelle des données géospatiales. Il s'agit de données qui savent réellement d'où elles proviennent ou d'où proviennent d'autres données comme celles-ci. Vous pouvez imaginer que vous vous tenez dans la rue et que vous voulez trouver la station de stationnement la plus proche, ou le restaurant le plus proche, des applications qui peuvent appliquer le calcul et les données géospatiales, l'informatique aux données, qui sait où elles se trouvent dans l'espace, est très importante parce que vous devez pouvoir savoir où se trouvent les autres objets et entités, et le faire rapidement.
Nous avons vu des mobiles connectés en permanence. Même lorsque nous nous endormons la nuit, nos téléphones portables continuent de tourner, de mettre à jour nos e-mails, de vérifier nos calendriers, de regarder la météo et de déterminer si ce que nous aimerions pour le petit-déjeuner sera disponible. Il y a beaucoup de bruit qui se passe là-bas, et cela a créé un impact énorme sur ce que nous devons faire à l'arrière et sur la vitesse à laquelle nous le faisons.
Dans l'ensemble, l'ampleur et l'impact de ce que l'on appelle l'Internet des objets, ou le plus souvent, la connectivité de machine à machine, où les appareils parlent avec les appareils et cela va jusqu'aux moteurs attachés à la côté des avions indiquant à l'avion lui-même, ou au système de gestion de l'avion, qu'un roulement sur le moteur numéro quatre subit une usure et une chaleur excessives, et doit être remplacé lorsque nous atterrissons, puis il communique avec une autre machine, et donc il doit placer un ordre, et comme par magie un ingénieur apparaît en vol à l'aéroport et est prêt à le remplacer pendant le ravitaillement.
Et l'échelle qui est si grande et si grande que nous avons dû entrer dans ce que j'appelle cela, via l'accès pour y faire face. Parce qu'un nouveau monde, et bienvenue dans le nouveau monde, un nouveau monde de tout ce que nous utilisons étant connecté; il était une fois des satellites et des appareils en réseau, maintenant ce sont des appareils mobiles et nos ordinateurs portables et tablettes et téléphones, et même ma toute nouvelle Audi a un signe intégré, et il rend constamment compte de sa propre santé, mais se met également à jour, et sait où il est, et quelles cartes sont applicables, et me dit même quand prendre un itinéraire différent s'il y a du trafic sur la route à venir.
Tout ce que nous construisons maintenant, tout ce dont nous vous parlons maintenant, est conçu pour se connecter et se connecter à d'autres choses, pas seulement de moi au système, mais d'un système à un autre, et pour pouvoir faire face à cela, nous devons appliquer des conceptions très différentes au niveau de la couche infrastructure, tant au niveau matériel qu'au niveau logiciel, et en particulier aux couches de base de données dont les systèmes ont besoin pour soutenir cela, et à bien des égards, la base de données est devenue le moteur, et les applications sont vraiment juste de petits robots qui font des choses.
Je vais conclure rapidement ici avec cette vue légèrement humoristique sur le genre de chemin que nous allons prendre avec ces choses, et ce que j'appelle «l'IoT sur simple pression d'un bouton». Il y a eu un nouveau gadget créé appelé le Amazon Dash Button, et c'est un petit gadget de la taille d'un pouce. En fait, à bien des égards, c'est la même chose que ma clé USB. Lorsque vous achetez cette chose, c'est environ 4, 99 $ US en ligne d'Amazon, elle vous est expédiée, vous la configurez avec votre téléphone mobile et vous la fixez littéralement à l'un de vos appareils, comme un réfrigérateur ou une machine à laver ou autre. Dans votre exemple de machine à laver, si vous manquez de poudre à laver, vous pouvez appuyer sur ce bouton et il appellera à la maison et commandera automatiquement plus pour vous, et comme par magie, plus vous sera expédié via nos bons amis d'Amazon.
Pour moi, cela me fait peur, car cela va voir une explosion d'un certain nombre de choses qui sont connectées sur le réseau et qui tentent de créer une connectivité et de générer une demande. Si vous pouvez imaginer, une ou deux de ces choses ne sont peut-être pas si effrayantes, mais la dernière fois que j'ai regardé, il y avait plus de 110 de ces choses de marque, donc presque toutes les marques de la planète vont essayer d'obtenir leur propre petit coup de pouce. bouton IoT, que vous rentrez chez vous et que vous appuyez sur un bouton et il dit: "Commandez-moi une pizza." Vous appuyez sur un autre bouton et il commande un déjeuner pré-construit pour vos enfants pour l'école demain.
Cela entraîne une demande si massive de transformation à l'arrière, au niveau de l'application, en particulier au niveau de la base de données, que je pense que nous venons de voir la pointe de l'iceberg du type de transformation des performances que nous devons voir . Et avec cela, je vais le remettre au docteur Robin Bloor et obtenir son point de vue sur le type de situation où nous en sommes également.
Rebecca Jozwiak: D'accord Robin, je vous ai passé le ballon.
Robin Bloor: N'est-ce pas bon? D'accord, c'est parti, c'est moi. J'ai vu la présentation de Dez avant d'en venir à celle-ci, donc je dirais des choses complémentaires plutôt que de simplement répéter certaines des choses que Dez a dites. J'ai pensé parler d'évolution de la base de données en termes de ce qui est réellement arrivé à l'architecture, et ainsi de suite, des bases de données d'un point de vue historique.
Le problème fondamental de tout fournisseur de bases de données est de maintenir une architecture flexible qui évolue et suit le rythme de l'évolution du matériel. Je vais parler de cela, mais quand vous regardez en arrière et voyez comment les bases de données étaient construites, et comment elles sont construites maintenant, elles sont en fait très différentes de ce que j'appellerais le niveau de conception architecturale . Cela vaut la peine de revoir pourquoi, ou du moins je pense que c'est le cas. Les facteurs matériels, et Dez nous a donné un aperçu particulièrement bon des couches inférieures en termes de mémoire et de disque. Ce que nous avons maintenant, et c'est l'avenir à venir, Intel est le prochain, CP qui va avoir un FPGA dessus. Ce que les gens vont en faire, je n'en ai aucune idée. AMD fusionne les processeurs et les GPU et quelle différence cela va-t-il faire? Ce sont les types de changements qui vont réellement faire la différence dans la base de données, et je soupçonne qu'Aerospike, entre autres, parce que Aerospike est motivé par les performances, il y a probablement déjà jeté un coup d'œil et déterminé où il pense qu'il va réellement aller. avec la façon dont le produit fonctionne.
Nous avons un système sur une puce qui n'a pas encore décollé. Les SSD que nous connaissons, mais le point à souligner est qu'ils augmentent en fait la vitesse, à peu près le taux de la loi de Moore, un facteur de 10 tous les six ans. Mais Intel est sur le point de publier un point de croisement 3D, qui prétend pouvoir aller plus de cent fois plus vite que les SSD, en fait, sorte de gouttes dans le mélange, puis cela va changer la vitesse à laquelle des produits comme Aerospike peuvent réellement aller.
Ensuite, nous avons les architectures matérielles parallèles, en d'autres termes, la façon dont nous avons construit le matériel dans le sens - à l'origine, c'était juste un processeur assis sur la mémoire, qui était assis sur le disque, mais c'est devenu beaucoup plus compliqué que cela. L'idée d'un système sur une puce est que vous pouvez réellement avoir un parallélisme puce à puce et faire tout se dérouler à une vitesse extraordinaire, et nous n'avons aucune idée exactement de ces produits qui vont réellement dominer.
Ce n'est qu'un aperçu de l'avenir, mais au niveau du matériel, les performances s'accélèrent et les coûts continuent de baisser, un peu comme le décrivait Dez. Vos processeurs ne sont pas nécessairement moins chers, ils sont simplement plus rapides, etc.
Du point de vue commercial, dans certaines situations, et ce sont des situations de marché, le premier est la valeur commerciale. Si vous en particulier - si vous êtes absolument convaincu qu'un cours particulier va baisser, la première personne qui reçoit l'ordre de vente obtient le meilleur prix. C'est vraiment aussi simple que cela. Par conséquent, il y a une course technologique qui se poursuit vers des transactions automatisées dans les banques pour réellement tenter de gagner ces situations. Qu'est-il arrivé après ça? Que se passe-t-il une fois que les banques ont fait leur travail avec tout cela? Vous commencez soudain à voir d'autres régions s'infecter avec le même genre de besoin de vitesse.
Ce qui se passait vraiment, c'est que les êtres humains étaient retirés de l'équation, et cela s'est produit très rapidement avec la publicité sur Internet. Mais ce n'est pas la transaction spécifique, l'exécution des méthodes, c'est tout un processus métier, c'est le fait qu'une page Web vient d'être supprimée, et une décision doit être prise, ce qui peut être une décision assez compliquée, quant à la publicité à publier sur cette page Web, en déduisant de qui que ce soit l'utilisateur du navigateur, quelle serait la publicité la plus appropriée pour la diffuser, et ainsi de suite, etc. C'est devenu une chose très complexe, et je vais le mentionner à nouveau.
Mais le fait est que les performances et l'évolutivité des processus métier ne sont pas le même problème que les performances et l'évolutivité d'une capacité de requête, et c'est quelque chose que je connais bien, en raison d'une récente salle de briefing que nous avons faite avec Aerospike qu'ils suis également au courant. Une autre chose, lorsque vous travaillez réellement à ces vitesses, les propriétés des actifs sont importantes pour une transaction, tout traitement d'événement. Ils comptent vraiment, vraiment. Donc, une grande partie de ce que font certaines bases de données, qui perd une ou deux lettres de l'actif, peut fonctionner assez bien dans le contexte - cela fonctionnera bien dans le contexte dont nous parlons. Pour être honnête, ce n'est pas vraiment acceptable.
Du point de vue technologique, vous examinez en fait - je sais qu'il y a deux types de levier, afin de créer le type d'architectures qui sont réellement nécessaires pour donner le type de vitesses qui peuvent faire, comme Aerospike, peuvent faire un million de transactions par seconde. Vous devez être très précis en termes de développement logiciel. Vous ne pouvez pas simplement pirater. Vous devez vous soucier de la longueur des chemins de code. Vous devez faire un excellent usage de la mémoire et vous optimisez en fait des transactions entières. Vous avez besoin d'un parallélisme intelligent et d'un parallélisme à sécurité intégrée. Vous devez évoluer, plutôt que évoluer, car dès que vous impliquez le réseau dans quoi que ce soit, il devient le pointeur le plus susceptible de frapper la latence, et cela va commencer à ralentir les transactions.
Vous devez obtenir autant que possible sur n'importe quel réseau connu avant de vous étendre réellement, et vous ne voulez vraiment pas vous étendre rapidement, vous ne voulez vraiment pas beaucoup de processus. Vous voulez un réseau qui n'est utilisé par personne d'autre. Et vous voulez avoir un réseau incroyablement rapide.
Le stockage SSD accéléré est quelque chose - en fait, je pense que la plupart de cela s'applique à ce que fait Aerospike. L'une des choses intéressantes est que c'est une base de données NoSQL. On croyait autrefois - je ne sais pas, il y a un certain nombre d'années - que l'on croyait que la base de données relationnelle était la seule base de données et qu'elle dominait tout, et ce n'était que ces petites situations de niche étranges où vous n'aviez pas besoin pour aller relationnel. Il a un peu tourné la tête maintenant. Ce sont les bases de données rapides qui se trouvent sur ces bases de données SQL, et l'une des raisons pour cela, la principale raison à cela, est qu'elles évitent de joindre des données, elles stockent les données à peu près de manière objet. Lorsque vous avez terminé avec un objet, vous le stockez simplement, puis vous retirez tout l'objet, ce n'est pas de réunir les choses afin de les traiter réellement. C'est à cela que sert la vitesse. Ces types de techniques qui génèrent de la vitesse dans le contexte de la base de données.
C'est la traînée de larmes, c'est la, ce qui est arrivé à la base de données. L'histoire ou le récit des bases de données relationnelles était la fin d'une base de données n'était en fait pas vrai. Même quand ils ont commencé à devenir dominants, c'était toujours nécessaire. Les bases de données d'objets ont effectué les transactions passées à l'époque, car les bases de données relationnelles ne pouvaient pas les faire, puis il s'est avéré que les bases de données relationnelles utilisant des magasins de lignes, elles ne pouvaient pas non plus faire de requêtes rapides, vous aviez besoin de magasins de colonnes. Et puis nous avons découvert que si vous vouliez réellement faire des requêtes graphiques sur les données, ni un magasin de colonnes ni une base de données relationnelle ne seraient utiles, et vous aviez réellement besoin d'avoir une base de données spécifiquement graphique conçue pour vous. Ensuite, les bases de données RDF sont entrées, et dès que vous avez réellement commencé à réfléchir à la signification de la sémantique et que nous avons intégré les bases de données NoSQL, très, très spécifiquement pour la vitesse. Pour les appeler NoSQL, c'est presque comme si vous brandissiez toutes ces bases de données comme si elles étaient les mêmes, en fait, elles sont radicalement différentes dans ce qui se trouve en dessous. La seule raison pour laquelle ils portent le nom NoSQL est qu'ils ne se soucient pas du SQL parce que c'est trop cher. Les latences de transaction dont ils ont besoin.
L'IoT - que je pensais finir sur le même point que Dez l'a terminé - ce n'est pas fini, toute cette situation en termes de vitesse et les exigences de latence, ce n'est pas fini jusqu'à ce que la grosse dame commence à dégorger ces données, et cela n'a pas encore vraiment commencé. Beaucoup de ces données vont vouloir avoir les latences que j'indique, donc je pense que c'est tout ce que j'ai à dire. Passons la parole à Aerospike et Brian Bulkowski.
Brian Bulkowski: Bonjour, merci beaucoup d'avoir rejoint le groupe Bloor et moi-même pour cette présentation aujourd'hui. En réfléchissant à ce dont Dez et Robin venaient de parler, je voudrais vous parler un peu de la voie qu'a prise Aerospike pour fournir de nouvelles technologies de bases de données et de bases de données NoSQL à un certain nombre d'industries. Ce fut un excellent chemin. Nous avons commencé Aerospike en 2008 en voyant beaucoup de tendances que Dez et Robin ont mentionnées. Plus précisément sur les bases de données en mémoire pouvant tirer parti du flash, ainsi que sur le type de systèmes cloud évolutifs et sur les types d'échelle requis pour effectuer la personnalisation, l'analyse du comportement et le type d'expériences VIP de célébrités qui ont été discutées.
Lorsque nous avons abordé le problème d'une base de données qui était une base de données opérationnelle frontale capable de fournir les bases aux applications qui pouvaient être écrites pour les résoudre, nous avons commencé par le problème de savoir comment construire essentiellement une table de hachage distribuée, de la mémoire - table de hachage distribuée incroyablement rapide et capable de choses comme des millions de transactions par seconde, mais à un prix raisonnable. Lorsque nous avons terminé notre prototype, nous avons réalisé que nous devions alors déterminer qui pourrait avoir besoin de ce type de vitesse. En tant qu'entreprise de la Silicon Valley, nous avons rapidement découvert que c'était vraiment l'industrie de la publicité qui était capable de consommer ce type d'informations et qui était intéressée, et j'aimerais donc passer une seconde à parler des enchères en temps réel et de la façon dont cela marché fonctionne.
Robin a mentionné le fonctionnement du trading financier, qui est la première transaction est souvent la transaction gagnante, et il y a essentiellement un temps de latence sur le marché et une valeur de latence. L'industrie de la publicité est légèrement différente, d'une manière intéressante, car l'objectif de la publicité est un particulier - ce qu'on appelle une impression, la capacité de diffuser une annonce - est une vente aux enchères et cette vente aux enchères se déroule entre dix millisecondes et cinquante millisecondes. Le nom du jeu, et il y a souvent des centaines d'entreprises qui enchérissent maintenant en temps réel sur chaque annonce placée sur Internet, consiste à obtenir le plus de données et à utiliser les meilleurs algorithmes dans un délai de dix à cinquante millisecondes au cours de la plus grande quantité de données.
Ce changement et ce changement se produisaient dans l'industrie de la publicité, à chacune de ces petites millisecondes, ont une complication limitée dans le temps avec les meilleurs algorithmes sur la plus grande quantité de données, et pour ce faire, vous rassemblez de nombreux petits morceaux de Les données. Les informations récentes sur l'adresse IP, les informations récentes sur une catégorie d'appareil particulière, les informations récentes sur le comportement du site Web, les termes de recherche récents, tout irait dans la sauce secrète des algorithmes d'une entreprise particulière pour déterminer un prix et une offre.
Cela a été un marché fascinant auquel participer. Nous avons d'abord effectué notre premier déploiement chez Aerospike en 2010 avec certaines des premières entreprises travaillant sérieusement au sein de l'économie des enchères en temps réel, puis nous avons atteint, essentiellement ce magasin frontal de données comportementales, pour la majorité des entreprises de ce espace. Ce que nous avons découvert depuis lors, et c'est une architecture particulière que je détaillerai au cours de cette présentation, c'est que tout se passait en 2010, 2011, 2013 et continue d'évoluer. La publicité est un marché très dynamique.
Mais ce genre d'expérience VIP, vous pouvez penser à placer la bonne annonce, à ne pas placer d'annonce pour les produits pour enfants, parce que je n'ai pas d'enfants, donc je ne vais pas avoir d'annonce efficace si c'est placé là-dessus, mais s'il s'agit de voitures rapides, c'est le genre d'annonce à placer pour Brian. C'est vraiment le genre d'expérience VIP dans les offres, qu'il s'agisse de remise ou non, si vous êtes sur un site de vente au détail, même dans la détection de fraude. Est-ce le schéma normal d'une personne en particulier ou d'une carte de crédit en particulier? Toute cette forme de technologie d'analyse en temps réel, de prédiction comportementale, d'analyse prédictive, s'échappe maintenant de l'industrie de la publicité, qui le fait pour le plaisir et le profit depuis maintenant quelques années, et qui entre vraiment dans le commerce de détail et la banque, la détection des fraudes, etc., à travers une architecture particulière. Aerospike a donc eu le privilège de faire partie de plusieurs de ces affaires.
L'architecture que nous voyons fonctionner et être pratique pour ce faire est celle où au lieu de créer un ensemble de requêtes à partir d'un serveur d'applications, au lieu de déplacer davantage de vos calculs vers le serveur d'applications lui-même, puis d'utiliser une base de données comme essentiellement un stockage moteur pour le genre d'objets dont Robin parlait. Dans ce cas, ces architectures, tout d'abord, ne confondez pas cela avec vos analyses réelles ici. Vous voyez sur le côté droit de cette diapositive qu'il y a encore une analyse ici pour générer des informations. Ce sont des travaux qui fonctionnent souvent sur des pétaoctets, des dizaines de pétaoctets de données, voire des exaoctets dans le cas de certains de nos gros clients, en utilisant une variété de technologies. Vous devez avoir une équipe de Big Data, une équipe d'analyse, une équipe quantitative là-bas pour déterminer ce que, par exemple, les coordonnées géospatiales importent, quels modèles fonctionnent pour trouver ces relations et créer l'expérience VIP. C'est un problème en soi et non un problème auquel Aerospike a directement participé, et il y a un tas de bonnes technologies lorsque vous avez affaire à ce type de système.
Ce qui nous a enthousiasmés et avec lequel nous travaillons avec l'industrie, c'est, une fois que vous avez ces informations, comment vous engagez-vous dans le type de transaction de machine à machine ou de machine à homme rapide, où vous prenez ces informations et faites les réels pour chaque personne, à chaque instant? L'architecture que nous avons vue utiliser est celle où il y a un serveur d'applications qui est écrit et qui fait tout ce calcul et examine les modèles que vous avez créés, et examine les comportements récents et le fait essentiellement sur un paradigme clé ou au moins un système très léger.
Lorsque vous traitez avec les types de types de données dont nous parlons, le type de flux dont nous parlons, avec des millions d'écritures par seconde, des millions de lectures par seconde, des millions et des centaines et des milliers de décisions par deuxièmement, la construction d'index complexes, d'index multidimensionnels, ne fonctionne tout simplement pas très bien, elle n'est pas évolutive. La manière d'atteindre cette forme d'échelle est d'engager beaucoup de parallélisme. Nous parlerons un peu de la façon de procéder plus tard. Mais une partie de cela est un serveur d'application sans état écrit dans votre propre langue.
Ce que nous voyons souvent, c'est un projet particulier supposant un nouveau cadre d'application basé sur les personnes qui y travaillent, la technologie qu'ils utilisent et le problème qu'ils abordent. Nous avons vu des gens utiliser Python, beaucoup de gens utilisent Java, nous voyons toujours des programmeurs C, car beaucoup de ces performances sont encore élevées, peut-être même en utilisant des choses comme les anciennes bibliothèques MATLAB. Et ils doivent toucher des milliers et des milliers de points de données par seconde pour prendre une décision efficace.
Une question que j'ai parfois posée est: «Eh bien, Brian, si vous êtes capable de millions de transactions par seconde, qui en a besoin?» Si vous regardez, par exemple, le traitement des paiements en Amérique du Nord, et Aerospike est impliqué dans des solutions faisant la détection de fraude dans ce système, et soutenant les rédacteurs d'applications qui font des choses très innovantes dans la détection de fraude, il n'y a que quelques milliers de transactions de paiement par seconde qui transitent par le plus grand des processeurs de paiement. Et pourtant, lorsque la première entreprise est venue nous voir et a déclaré qu'elle envisageait d'utiliser NoSQL et voulait voir à quoi ressemblerait notre solution pour étayer leur application, elle a dit qu'elle voulait toucher 5000 données dans une fenêtre de 750 millisecondes. Eh bien maintenant, tout à coup, vous avez quelques centaines de transactions commerciales et quelques milliers de données à prendre en compte dans chaque calcul, et vous êtes maintenant dans le domaine des millions de transactions par seconde.
Le cas de - mis à part la publicité pendant une seconde, le cas de fraude est fascinant parce que là où il y a de l'argent, il y a de la fraude et la prévention en temps réel de la fraude, au lieu d'essayer de trier analytiquement après qu'une fraude s'est produite, est vraiment un question de mettre en ligne autant de données que possible, et vous pouvez le considérer comme le reflet de cette expérience VIP. Cette personne se comporte-t-elle d'une manière qu'elle ne se comporte pas habituellement? Et donc, les chances que ce soit un système frauduleux, et non pas réellement cette personne, augmentent. Cette personne accède-t-elle généralement via un appareil ou un ensemble d'appareils particulier, avec un certain ensemble de résolutions d'écran? Présentent-ils généralement un modèle d'achat comportemental particulier? Peut-être pouvons-nous étouffer la fraude dans l'œuf au cours de la transaction elle-même. Cela devrait vous rappeler beaucoup le genre de chose qui se produit lors d'une transaction dans le système de publicité.
Les types de systèmes que nous résolvons sont ceux où chaque processeur de paiement individuel a une grande équipe de données, ils ont beaucoup de données historiques, ils créent de nouveaux modèles, ils ne partagent pas avec nous à Aerospike tous les modèles, car ils suis vraiment une sauce secrète. Si vous êtes abonné à Gartner et que vous avez entendu Gartner parler de l'économie des algorithmes, il s'agit d'un algorithme et d'une entreprise qui se battent tête à tête afin de réduire la fraude et d'augmenter le nombre de transactions réussies, parce que vous ne faites pas non plus '' Je ne veux pas bloquer les transactions. C'est le genre de projets que nous recherchons dans Aerospike à ces niveaux d'échelle.
Un autre cas sur lequel nous avons travaillé avec des sociétés de services financiers est ce qu'on appelle le système d'enregistrement intrajournalier. Dans ce cas, ce qui se passe, c'est que le genre d'expérience plus riche, même dans un système de commerce de détail, est celui où je veux pouvoir regarder ma position particulière et je veux le faire avec une extrême précision. Je ne veux pas avoir de prise devant mon système DB2. Au lieu de cela, je veux regarder les données exactes, et entre les mobiles, mais aussi des choses comme un recalcul des risques, les recalculs des risques devraient maintenant être effectués minute par minute, vous voulez pouvoir recalculer le risque de chacun ainsi que le risque global, risque systémique sur l'ensemble de l'entreprise en quelques minutes.
Et encore une fois, c'est le même problème. Chaque compte unique qui est un particulier, pensez-y comme une recherche de valeur clé pour un objet particulier, alors cela peut être fait en parallèle, et surtout, ce paradigme vous permet d'écrire votre code et vos algorithmes dans un langage de haut niveau, qui est plus facile à déboguer et plus rapide à commercialiser. Dans cette économie d'algorithmes, je dois pouvoir mettre mes algorithmes en ligne maintenant. C'est un problème très différent pour la modélisation et les relations commerciales, ce qui est excellent pour les systèmes relationnels. Lorsque vous avez un tableau de pièces et que ces pièces sont associées à des commandes et que ces commandes sont associées à des personnes, vous disposez d'un processus métier qui peut être strictement modélisé et ne changera probablement pas pendant la durée de vie de votre entreprise. Cependant, un nouvel algorithme pour trouver un nouveau modèle de fraude doit être écrit avec précision et rapidité, et mis en ligne, prenant des décisions commerciales en quelques jours au moins, sinon plus rapidement. Une solution NoSQL pour ce type de système d'enregistrement est vraiment un système incroyable pour ces gars-là, car elle leur permet d'ingérer des données très rapidement, ainsi que de créer de nouveaux algorithmes, donc pas seulement une nouvelle expérience client dans l'adressage mobile, mais vraiment créer une grande variété de nouvelles applications.
Ce que nous constatons à long terme chez Aerospike, c'est le fait que chaque type de base de données, chaque disposition physique des données sur disque a ses propres composants, et chez Aerospike, nous nous concentrons vraiment sur cette valeur clé ou ce système axé sur les rôles, comme l'a dit Robin., avec une cohérence transactionnelle élevée, et permet vraiment aux gens comme les magasins de colonnes et les lacs de données à haut volume ainsi que les systèmes transactionnels hardcore qui ont également eu des contraintes de reporting. Nous voyons tous qu'ils doivent alimenter une variété de moteurs de recherche différents. Nous voyons certains des moteurs de requête basés sur JSON. Nous voyons des choses comme la recherche élastique, nous voyons Spark, tous ayant besoin de différentes variétés à différents moments, comme les magasins à colonnes, ainsi que les magasins en ligne, où Aerospike excelle.
Nous voyons vraiment que ces différents types et l'industrie arrivent à un point où la sélection de la meilleure race de chacun d'entre eux sera une nécessité. Malheureusement, en raison de la réalité de l'analyse à long terme et de l'analyse des travaux par lots et des contraintes opérationnelles, nous n'arriverons probablement pas au point d'avoir une seule et unique solution, mais nous arriverons au point de pouvoir de choisir clairement entre certaines des dispositions de données de base.
Parlons un instant de l'innovation du flash. Je reçois toujours la question, même si, comme cela a été commenté plus tôt, le flash est avec nous depuis longtemps. Lorsque nous avons lancé Aerospike en 2009, je pense que 2009, peut-être, oui, 2009 a été le moment où Intel a sorti le X25, qui était vraiment le premier lecteur flash habité SATA du marché de masse, et il y avait un certain nombre de systèmes flash avant cela., mais c'est vraiment celui qui a fait irruption dans une grande partie de la conscience technologique. Fusion-io a vraiment apporté le flash au marché des entreprises plus large après cela.
Ce qui se passe maintenant, c'est l'avènement d'un système appelé NVMe. NVMe est une norme similaire à SATA ou SAS ou même SCSI qui permet à différents fournisseurs de cartes d'interagir avec les pilotes du système d'exploitation à un haut niveau d'efficacité. Cela crée donc un niveau de performances supérieur, tout d'abord parce que NVMe est basé sur PCIE comme transport sous-jacent, ce qui est beaucoup plus rapide que SATA, SAS ou toute autre chose, mais il permet également des pilotes de pointe.
Par exemple, sous Linux, il y a ce gars Jens, et Jens est le guide du pilote NVMe, Jens expo, et il fait un meilleur travail que n'importe quel tn Intel ou Fusion-io aurait pu faire avec son pilote individuel, avec toutes leurs ressources. Lorsque vous avez la puissance du système d'exploitation lui-même capable de créer le meilleur pilote, nous constatons des niveaux de performances vraiment incroyables. Tout cela soutient l'idée que le flash peut vraiment fournir une grande partie de la faible latence de la RAM.
Maintenant, Aerospike est toujours une excellente base de données RAM en raison de son modèle de cluster, cependant, nous constatons qu'une fois que vous effectuez un saut de réseau, dont vous avez besoin d'avoir un stockage évolutif, vous dépensez déjà au moins cinq à 50 microsecondes, le 70 microsecondes supplémentaires de NAND ne sont généralement pas un obstacle, et vous pourriez aussi bien utiliser le flash, étant donné que le flash NAND, étant donné que le réseau est déjà impliqué dans cela. Beaucoup de gens se demandent alors comment - tout cela sonne bien si vous achetez votre propre matériel, comment vont les clouds publics? Je pense que vous trouverez en ce moment, peu importe le cloud public que vous utilisez, ces clouds publics ont des offres flash très puissantes. Cela diffère un peu d'un fournisseur de cloud à un fournisseur de cloud. Amazon a ses instances I2 qui sont sorties depuis un an, deux ans maintenant, qui sont vraiment des appareils flash de très haute qualité, et Aerospike a le modèle de déploiement par-dessus.
J'aimerais appeler Google Compute, Google Compute Engine, Google Cloud en particulier, car selon notre expérience, ils ont jusqu'à présent certains des appareils les plus performants et certains des plus flexibles en termes de modèles de déploiement. Mais vous voyez également de nouveaux modèles de déploiement comme Pivotal, qui est une sorte de public / privé, vous pouvez donc faire les bonnes applications Pivotal aux deux endroits qui prennent en charge le flash et prennent en charge différents périphériques de stockage ainsi que les modèles Docker. Donc, vraiment, c'est un moment de l'histoire où le flash n'est pas seulement disponible pour que vous puissiez acheter et mettre dans vos centres de données, mais qu'il a vraiment coulé dans tous les fournisseurs d'infrastructure, car c'est vraiment le meilleur moyen d'obtenir des systèmes à haut IOPS à une latence très raisonnable.
Un instant sur Aerospike - Aerospike est une base de données distribuée en cluster, ce qui la rend très adaptée aux déploiements de style cloud ainsi qu'aux centres de données. Nous constatons que la flexibilité de pouvoir ajouter plus de données et plus de performances est absolument nécessaire dans ces types de nouvelles applications nettes parce que vous démarrez un projet, vous ne savez pas si vous avez besoin de cinquante mille transactions par seconde, cent mille, un millions, deux millions, donc vous voulez vous donner une marge de manœuvre pour pouvoir ajouter des serveurs. Et pourtant, vous voulez évoluer afin que chaque serveur puisse être rapide par lui-même. Vous ne voulez pas vraiment vous retrouver avec cinq cent ou mille serveurs qui sont des serveurs de base de données qui sont lents. La montée en puissance n'est pas le seul jeu en ville, sa montée en puissance et sa montée en puissance, comme le disait Dez plus tôt, il y a un nouvel axe Z.
J'espère que cela vous donnera de nouvelles idées sur la façon dont la vitesse et l'échelle s'adressent à de nouveaux marchés et peut-être qu'il y a des projets sur lesquels vous travaillez où vous pourrez envisager de développer des applications plus riches et d'utiliser un cadre d'application avec plus de clés valeur ou base de données NoSQL en dessous. Chez Aerospike, j'ai certainement vu beaucoup de nos clients et beaucoup de nos utilisateurs open source réussir avec ce modèle, et j'ai hâte que l'industrie l'adopte dans une plus large mesure.
Rebecca Jozwiak: Merci beaucoup Brian, et je suis sûr que Dez et Robin ont de bonnes questions pour vous. Robin?
Dez Blanchfield: Je suis content d'intervenir. Robin, avez-vous une question? Sinon, j'en ai un rapide que je peux commencer.
Robin Bloor: Désolé, j'étais muet. J'ai plongé, mais personne ne m'a entendu. La question m'est immédiatement venue à l'esprit, car il s'agit d'un ensemble très sophistiqué de capacités technologiques. En ce qui concerne les clients existants que vous avez, quel est le type d'escalade ou de taux de transaction que vous rencontrez concernant certaines de ces applications publicitaires? Le taux de transaction continue-t-il d'augmenter? Et si oui, à quel taux?
Brian Bulkowski: Question intéressante, Robin. Chaque industrie a sa propre courbe dans chaque entreprise. Prenons la publicité nord-américaine, disons qu'en 2012, la publicité nord-américaine se rapprochait probablement de 200000 annonces par seconde, en quelque sorte de la journée standard, pas mon temps, et elle est maintenant probablement augmentée à environ trois à cinq millions d'annonces par seconde. Mais une chose intéressante s'est produite. L'industrie de la publicité a commencé à résoudre certains problèmes de fraude, et les secteurs de l'industrie qui sont capables de bloquer la fraude ont vu les taux de transaction baisser un peu, environ un facteur deux, chez certains de nos clients plus sophistiqués qui ont pu déterminer la fraude. Bien sûr, ils ont dû faire des recherches dans la base de données afin de bloquer la fraude, donc cela finit par être le même à la fin.
Un cas d'utilisation intéressant est dans les télécommunications, je n'ai pas vraiment mentionné cela, les télécommunications ont vu les transactions augmenter en raison de la facturation basée sur chaque paquet unique qui traverse le réseau de téléphonie cellulaire. Dans le passé, nous avions des enregistrements détaillés des appels et une fois par minute, un appel, ce que vous savez, un petit ping passait par le réseau et ce gars a-t-il encore une minute? Maintenant, nous devons construire et même router en fonction de chaque paquet sur Internet. C'est un - désolé au sein d'un réseau mobile, qui est soudainement devenu des millions de paquets par seconde et quelque chose qui ne cesse de croître. Donc, un cas est que chaque application génère une petite sorte de 2X par an. Chez certains clients, nous voyons: «Mais attendez, j'ai une nouvelle application. Je veux ajouter une fraude à mon risque. Je veux ajouter une expérience client plus approfondie à ma fraude et à mon risque. »Chacun d'eux crée une nouvelle charge sur la base de données sous-jacente.
Robin Bloor: Oui, je veux dire, je pense que c'est ce à quoi je faisais allusion dans la brève présentation que j'ai faite, que ceux-ci - nous pensions qu'une transaction est, quelqu'un fait quelque chose et peut-être qu'il y a une cascade d'événements et que tout est enregistré, et maintenant beaucoup de transactions ont une immense quantité de recherche, et vous avez donné quelques exemples dans la présentation. Et donc vous n'exécutez plus réellement une transaction, vous exécutez en fait une sorte d'application qui peut avoir beaucoup, beaucoup d'éléments.
L'autre question avant de passer la parole à Dez - parce que nous sommes évidemment en train de faire équipe sur ce sujet - l'autre question à laquelle je voudrais que vous répondiez si vous avez une réponse raisonnable, est à la fois Dez et je m'attends à ce que l'Internet des Les choses, ou l'Internet de tout comme on l'appelle parfois, pour créer une quantité assez importante de trafic transactionnel. Pouvez-vous en parler? Est-ce votre expérience, avez-vous des clients qui viennent à vous avec ce type de problème particulier, et quelle est votre opinion à ce sujet en ce moment?
Brian Bulkowski: Bien sûr, je pense qu'il y a un peu de confusion, et c'est un euphémisme, à propos de l'Internet des objets. Les clients que je vois jusqu'à présent apportent simplement Internet à ce qu'ils ont. Pensez à ces boutons Amazon - c'est tout Amazon - ces boutons, vous ne pouvez pas les réutiliser et les faire aller à Walmart en ligne. Ce n'est pas comme un navigateur que vous pouvez mélanger et assortir tout. D'un autre côté, la machine à machine se produit, et lorsque vous branchez votre voiture Tesla pour la charger, Tesla envoie un énorme reflux d'informations, chaque capteur dans la voiture, mais il circule dans l'ordinateur de Tesla pour analyse et amélioration qualité. Ce que je vois, c'est l'ensemble de cette machine à machine, et tous les capteurs au sein d'une entreprise individuelle, créant de nouvelles demandes.
Maintenant, la plupart du temps aujourd'hui, cela coule dans ces systèmes analytiques, et prenons le cas de Tesla; À ma connaissance, la première utilisation de Tesla a été d'améliorer la durée de vie de la batterie, sous «Quelles températures de fonctionnement sont-elles, quelles sont les charges? Regardons-le, concevons une meilleure batterie. »Mais ensuite, ils commencent à penser, et c'est très bien, c'est une sorte de problème analytique profond qui est fascinant, la question suivante est:« Comment puis-je améliorer l'expérience à chaque instant ? "
Prenons maintenant le cas comme Nest, où vous essayez de faire des analyses prédictives pour changer la température d'une maison à chaque instant. C'est le genre de cas où nous commençons à voir dans Aerospike, où il y a cet énorme lac de données et ces énormes processus analytiques, mais que vais-je faire maintenant? Je vais devoir garder, pensez à ça comme de l'argent, une partie de la semaine dernière, le mois dernier, peut-être même juste la dernière journée d'informations, probablement sur un back-end parce que nous avons affaire à un simple capteur appareils, et je vais faire un ensemble d'analyses sur ce moment pour changer les expériences. Ce genre d'expériences de type Nest, pour lesquelles je vois des cas d'utilisation d'Aerospike.
Robin Bloor: D'accord, la chose à laquelle je m'attendais avec l'Internet des objets, c'est que vous commenceriez à obtenir des déclencheurs de seuil et qu'ils commenceraient à créer des cascades d'événements. Avez-vous vu quelque chose comme ça, ou n'est-ce pas encore quelque chose que vous avez vu?
Brian Bulkowski: Dez et moi étions - je demandais simplement l'avis de Dez à ce sujet lorsque nous bavardions avant le spectacle. Ce que je n'ai pas encore vu, c'est le genre de cascade de données d'une entreprise en cascade dans une autre entreprise, que mon réfrigérateur Samsung parle à ma machine à laver LG parce qu'il vient de comprendre que j'ai renversé tout un tas de chocolat sur le sol, donc ce genre d'entreprise à entreprise appareil par appareil, je pense que j'attends toujours cela en termes d'Internet des objets. Je pense qu'il y a des problèmes dans les affaires et la sécurité qui sont pour la plupart non techniques et qui doivent être résolus pour voir cela.
Robin Bloor: D'accord, Dez?
Dez Blanchfield: J'ai en fait des opinions très fortes sur ce dernier point particulier, que je vais brièvement aborder dans la conversation. Je pense que souvent les entreprises et la technologie pensent qu'elles conduisent réellement d'où vient la demande, mais quand on regarde ce qui s'est passé lorsque l'iPhone est devenu une chose, et dans mon esprit, c'était en quelque sorte le premier appareil mobile, si vous me pardonnez le jeu de mots, mais un appareil qui pouvait être transporté et qui pouvait en fait exécuter de nombreuses petites applications dans votre poche, et cela a entraîné une transformation significative de ce que nous pensions être un ordinateur. Beaucoup de gens pensent aux iPhones ou aux smartphones ou aux téléphones Android comme des téléphones, mais ils ne le sont pas, ils sont en fait juste un petit ordinateur qui exécute des applications, et l'une des applications qu'il exécute fait des appels, et ce n'est pas le les appels auxquels nous pensons plus, ce ne sont pas des appels point à point analogiques comme l'a souligné Brian, ce sont de petits paquets qui sont acheminés.
Mais le plus souvent, ce que nous avons vu est cette recrudescence de smartphones qui ne sont pas vraiment utilisés pour faire des appels que souvent, la probabilité que 98% de ce que je fais sur mon smartphone ne passe pas d'appels. C'est tout sauf les appels, ce sont des applications. Je pense que cet effet en cascade - et je tiens à poser rapidement une question - mais l'effet en cascade est en fait provoqué par les consommateurs, et en fait j'ai cette doublure que je jette assez souvent pour obtenir un tas de CXO s'asseoir dans la salle et faire attention si je pense qu'ils s'endorment avec la présentation que je fais, ce qui n'arrive pas trop souvent, j'espère.
Je l'ai en quelque sorte dit que la perturbation que vous constatez dans votre entreprise n'est en fait pas motivée exclusivement par la technologie, elle est le plus souvent provoquée par vos clients. Et ils s'asseyent en quelque sorte et se demandent réellement, que veut-il dire là? Donc, quand je pense à l'utilisation de la technologie, je veux dire que nous avons vu USENET, nous avons vu toutes ces sortes de choses amusantes sur Internet, mais peu de gens ont prédit le social et son impact. Tout le monde veut dire à tout le monde ce qu'il a pris pour le petit-déjeuner, le bruit que cela a créé et la technologie backend que nous avions, et bien sûr, la publicité essaie de le remplir de choses.
Je pense que nous allons voir un effet en cascade au point où les appareils parlent aux appareils, les consommateurs ne font que rattraper ce que cela signifie réellement et ce que cela peut faire. Vous avez soulevé un point intéressant concernant la raison pour laquelle le bouton Amazon ne parlera pas à Walmart. Je vais poser cette question, que se passe-t-il lorsque Walmart obtient son propre bouton, et que se passe-t-il si les vingt premiers Amazones et Walmarts et autres grands réseaux de distribution et de vente au détail obtiennent tous leurs propres boutons? Où cela nous mène-t-il? Plus précisément, ma question avec Brian sera: «Où allons-nous avec ce tout nouveau paradigme de la performance? Vous êtes à la fine pointe de la technologie et vous travaillez avec des entreprises qui le font tant au niveau de l'infrastructure physique qu'au niveau du transfert de données. Où cela nous mène-t-il, lorsque cette prochaine grande vague arrivera? Quel genre de vision pouvez-vous partager à ce sujet avec ce qui se passe au backend de votre expérience? "
Brian Bulkowski: Bien sûr, la façon dont je pense à beaucoup de ces choses est de se concentrer sur les expériences des utilisateurs et exactement ce que vous avez dit, ce sont les utilisateurs qui conduisent, même si, en tant que technologues et en tant que gens d'affaires, nous pourrions trouver un idée intelligente que nous pensons que les utilisateurs aiment, et je vais en quelque sorte revenir à l'exemple de Nest. Lorsque ma sœur a installé Nest dans sa maison, elle a dit: «Ma maison est plus calme, je peux entendre des choses. Ce n'est même pas seulement que je paie moins pour l'électricité », dit-elle, mais vous ne pouvez plus lui arracher le Nest parce qu'elle aime être dans une maison plus calme que dans une maison où le chauffage souffle au maximum. puis s'éteindre.
La question finit par être, quelles sont les expériences utilisateur que nous pouvons habiliter? Cela finit par être, cette expérience de qualité de vie, que si nous avons de l'argent et que nous sommes dans le premier monde, nous paierions beaucoup. Je vais vous donner un exemple de ma propre maison, ma copine aime le lait froid. Elle aime le lait vraiment froid, et si souvent nous devons essayer de trouver où dans le frigo il va être assez froid, et ne pas avoir le reste des choses surchauffer. Eh bien, c'est génial - et j'ai dit à ma petite amie: «Voudriez-vous payer 10 $ par mois pour avoir du lait froid et pour ne pas avoir de charcuterie congelée?» Elle était du genre «Absolument». Et 10 $ par mois pour n'importe quel consommateur est difficile.
Je pense que dans ces expériences, nous devons vraiment garder un œil sur ce qui est vraiment cette expérience du consommateur final qui pourrait être motivée. Je pense que cela faisait partie du secret de l'iPhone. Je pense que cela fait partie du secret de Tesla construisant une meilleure voiture avec toutes les données, supprimant l'idée d'un cycle de produit et d'une version annuelle et faisant des améliorations continues sur chaque partie. Nous allons devoir trouver des idées intelligentes sur la façon d'utiliser réellement toutes ces données de manière convaincante à chaque instant dans la vie des gens.
Dez Blanchfield: Oui, c'est une excellente idée. En partant de cela, l'autre extrémité du spectre, cela fait écho exactement au genre de choses que nous voyons maintenant avec ce que les consommateurs demandent, et nous avons tous quelque chose dans la maison qui a froid de ceci et chaud de cela. L'autre extrémité du spectre est alors, et nous l'avons vu dans une sorte de «monde du big data» traditionnel où les affectations de données deviennent plus rares que les dents de poule et celles qui sont sur le marché sont proposées plus que les CIO ne gagnent dans certains cas, les types d'entreprises avec lesquelles vous travaillez et les types de développement que vous avez vus, est-il vrai que les types de développeur et le type d'architecte de données et les offres spéciales de mise en réseau sont-ils de plus en plus difficiles à trouver? ? Avons-nous besoin que les organisations commencent à penser maintenant à devancer la courbe du type de compétences dont elles ont besoin à l'arrière pour le type de développeurs et d'architectes de données? Que voyez-vous à ce niveau en ce qui concerne les ressources de compétences qu'ils comprendront comment mettre cette technologie à bon escient maintenant?
Brian Bulkowski: Oui, je pense que c'est l'un des défis auxquels sont confrontées les organisations avec lesquelles j'ai parlé. Que ce soit un - les pires problèmes dont j'ai entendu parler sont en fait des sortes de grandes entreprises, parce que si vous dites: «Je suis de cette grande banque, je suis de Chase et j'étais architecte de données», alors vous » ve a le monde votre huître et votre salaire augmente, donc il y a ce problème de désabonnement de trouver un emploi dans l'un de ces endroits parce qu'il n'y a pas assez de personnes, et ensuite être en mesure de passer d'un emploi à l'autre. Je n'entends rien d'autre que ce genre de problème, et c'est en fait l'une des raisons pour lesquelles j'ai concentré Aerospike sur l'utilisation d'outils adaptés à l'équipe de projet en question.
Au lieu d'essayer d'entrer dans une équipe de projet et de dire: «Hé, vous devriez utiliser notre langage de requête.» Écoutez, si ces gars-là, ils conduisent le bus ces jours-ci, les gars et les filles, et s'ils utilisent un langage de requête particulier et l'outillage, ils vont s'en tenir à cela, et je ne peux pas les parler d'autre chose. Mon objectif est de pouvoir mettre le type de puissance Aerospike en tant que base de données derrière les outils qu'ils utilisent et cela fait partie de cette idée, les diapositives que vous voyez sur l'avenir de la base de données Poliglot. Je dois prendre en charge les modèles d'application et d'analyse entre ces gars-là, car il est vraiment difficile d'essayer de trouver des personnes qui ont les connaissances mathématiques ainsi que les capacités statistiques pour naviguer dans ce monde.
Dez Blanchfield: Une autre chose intéressante dont les gens ne sont peut-être pas conscients, je veux dire Aerospike est un acteur très fort dans le monde open-source, je tiens à avoir un aperçu très rapide de ce que cela signifie en ce qui concerne la façon dont le entreprise fonctionne et ce qu'elle fait pour vous. Vous avez mentionné que vous travailliez directement avec des gens qui font des choses jusqu'au niveau du noyau à l'intérieur, donc le noyau Linux. Il y a de grands joueurs qui sont dans cet espace, et il y a des marques célèbres que nous ne mentionnerons pas, mais une organisation comme Aerospike, dans votre histoire récente plus moderne, l'expérience open-source, comment cela s'intègre-t-il dans la grande image et quels avantages concurrentiels avez-vous constatés?
Brian Bulkowski: Bien sûr, lorsque nous sommes passés à l'open source en 2014, nous l'avons fait parce que nous avons réalisé qu'une infrastructure de base, comme une base de données doit être disponible à la source, qu'elle doit être fiable et un contrepoids naturel entre l'ancien monde de la fermeture source, et une fois que vous investissez dans une base de données particulière, ces gars-là vous ont à leur merci pour le cycle technologique après cycle technologique, et il doit y avoir un équilibre. Nous devons être en mesure de sortir des versions qui font de nouvelles choses, et peut-être que c'est dans une version entreprise, nous devons avoir un modèle à double licence qui a une version open source pour les gens qui bousculent les pneus qui font du travail à but non lucratif, ainsi qu'une version d'entreprise qui est une licence propriétaire et permet un travail illimité.
Et bien sûr, nous aurons également les niveaux de vitesse et d'échelle les plus élevés, étant une version d'entreprise. Nous croyons au modèle de licence en duel, et cela a été formidable pour notre entreprise. Nous voulons que les gens commencent avec Aerospike, nous voulons que les petits projets lancent les pneus, c'est super facile d'aller simplement sur Amazon, de lancer un script de confirmation et d'avoir un cluster Aerospike en cours d'exécution dans les cinq minutes. D'un autre côté, nous voulons donner plus aux entreprises clientes.
Dez Blanchfield: Nous approchons en quelque sorte du haut de l'heure, donc je vais revenir à Rebecca dans un instant, mais s'il n'y avait qu'un seul paquebot que vous jetteriez là-bas, une sorte de conseil vous donneriez aux gens qui cherchent à entrer dans l'espace de la technologie que vous avez apportée sur le marché et comment ils vont l'adopter, que diriez-vous que la première étape pour eux est de trier au moins leur et commencer à regarder comment ils vont obtenir un avantage concurrentiel de votre plate-forme?
Brian Bulkowski: Bien sûr, une partie du message ici est qu'il y a maintenant des niveaux de vitesse et de compétence qui sont faciles. Vous n'avez pas besoin d'un cluster Cassandra à mille nœuds pour réaliser des millions de transactions par seconde. Vous pouvez le faire dès les premières phases de votre projet. Les choses sont donc beaucoup plus faciles qu'avant. Ensuite, le deuxième conseil est que vous allez devoir trouver, comme vous le dites, des modèles d'engagement client des processus métier mathématiques qui utilisent toutes ces données, donc la bonne nouvelle est que les données sont disponibles, le la mauvaise nouvelle, c'est que vous devez trouver des modèles et des cas d'utilisation convaincants.
Dez Blanchfield: Oui, d'excellents conseils, donc je vais remettre à Rebecca maintenant. Merci beaucoup pour ça, c'était une super petite discussion sur la technologie, je l'apprécie.
Rebecca Jozwiak: Merci, Dez. J'ai quelques bonnes questions du public. Permettez-moi de lancer cette diapositive. Je sais que vous avez parlé du système d'enregistrement et de l'ordinateur central, mais à quelle fréquence voyez-vous le déchargement absolu ou la réplication est-elle une réconciliation de fin de journée, un peu ce que vous voyez le plus?
Brian Bulkowski: Ce que nous voyons dans Aerospike, c'est l'utilisation d'une base de données NoSQL devant ce système de réconciliation de fin de journée. Vous avez besoin intraday, la bonne réponse. Vous ne pouvez pas avoir la mauvaise réponse, et c'est ce que Robin a dit à propos de l'actif est sous-estimé, mais les processus commerciaux autour des exigences légales de la réconciliation peuvent devenir assez compliqués et il y a des décennies de technologie et des décennies de droit et de pratique du droit autour de la réconciliation. Donc, ce que nous voyons chez Aerospike, vous allez faire vos algorithmes sur une base de données plus chaude avec plus de transactions par seconde. Mais pour des raisons juridiques, vous avez absolument besoin d'un système de réconciliation qui a suivi ces processus juridiques. Nous voyons les deux, et nous voyons qu'il s'agit essentiellement de la pratique informatique à deux niveaux exposée par des personnes comme Anderson Consulting et Gartner dans une certaine mesure. Nous en voyons beaucoup.
Rebecca Jozwiak: D'accord, très bien. Quelqu'un d'autre a montré de l'intérêt pour cette diapositive en particulier, il a dit que c'était vraiment intéressant et s'est demandé si vous pouviez simplement comparer un peu plus le flash avec la mémoire.
Brian Bulkowski: Bien sûr, laissez-moi prendre une petite barre latérale, encore une fois, je sais que nous approchons de la fin des temps. Eh bien, le flash est de la mémoire - ce sont des puces - j'ai tendance à penser à la RAM. La RAM a donc des caractéristiques particulières, nécessite beaucoup de puissance, elle est très bonne pour les écritures aléatoires ainsi que pour les lectures aléatoires. Où NAND est capable de lectures aléatoires rapides et de puissance inférieure, mais il est très mauvais lors des écritures aléatoires. Il y a quelques différences subtiles dans le fonctionnement de ces deux puces au niveau de la lithographie, qui créent un certain nombre de différences techniques.
Dans le cas où vous effectuez des analyses et que vous devez ignorer de nombreuses données, ou dans le cas de l'Aerospike, où vous avez obtenu des index, les index sont toujours très bons à utiliser dans la RAM en raison du parallélisme et de l'accès aléatoire. Un niveau d'accès aléatoire supérieur est requis. Dans Aerospike, nous trouvons que l'utilisation de ces index pour trouver un objet particulier ou un bloc de données est l'endroit approprié pour atteindre une NAND car il devient en quelque sorte un magasin plus grand sous les index. Il s'agit alors d'une transaction vers un périphérique de stockage, mais toujours après avoir fait beaucoup de potentialités et de filtres dans votre système d'indexation.
Rebecca Jozwiak: D'accord, très bien. Et puis, je sais que nous avons déjà beaucoup parlé de l'IoT et un participant a déclaré que l'IoT était largement bénéfique, mais les entreprises, les entités gouvernementales et les développeurs croissent-ils en toute sécurité et sécurisent-ils les données au même rythme, pensez-vous?
Brian Bulkowski: Peut - être Dez, aimeriez-vous intervenir?
Dez Blanchfield: Oui, je suis heureux de sauter dans celui-là. Je pense que la réponse est non. En fait, une de mes lignes préférées sur ce sujet est très, très brièvement, je pense que l'explosion de machine à machine et l'internet des objets en général, la communication et la sécurité, le risque qui l'entoure, nous sommes au point où les gouvernements ne peuvent pas suivre le rythme du changement. Et en fait, nous savons que beaucoup d'organisations ne peuvent pas suivre le rythme du changement. En fait, si je l'ai paraphrasée, le taux de changement aujourd'hui est si grand que les organisations doivent sprinter juste pour suivre, mais elles doivent sprinter dans plusieurs courses. Je ne pense pas que la loi, et je ne pense pas que le gouvernement en général, au niveau des États ou au niveau fédéral, soit en mesure de suivre le rythme du changement.
Maintenant, mon conseil général aux gens est en quelque sorte d'agir maintenant et de demander pardon plus tard. Il y a eu de nombreux exemples de cela dans le passé. Ils rattraperont leur retard, mais je pense qu'il appartient désormais aux entreprises et aux fournisseurs de technologies d'innover dans ce domaine et de s'assurer que nous connaissons les risques de sécurité ou de confidentialité et que nous devons y faire face. Les banques en particulier, comme vous l'avez mentionné, lorsque vous pensez à ce qu'une organisation bancaire a traditionnellement fait avec des choses comme la lutte contre le blanchiment d'argent et que vous connaissez votre client, le défi AML / KYC, c'était le cas tous les trois à cinq ans, nous essayions et respecter la conformité.
Maintenant, je pense que cela doit être intégré à chaque transaction. Vous avez toujours été en mesure de le faire au niveau des offres avec la publicité et le commerce des actions et des obligations et des actions, je pense que nous sommes au point où les performances que vous apportez avec la plate-forme Aerospike nous permettent de réfléchir maintenant à la façon dont nous apportons confidentialité, comment pouvons-nous intégrer la sécurité dans cette chaîne de décision immédiate en temps réel? Et donc la réponse est non, je ne pense pas que les gouvernements suivent. Je pense que les entreprises doivent suivre le rythme et je pense que nous devons agir maintenant et demander pardon plus tard.
Brian Bulkowski: Permettez-moi d'ajouter quelques points également. Les gars avec qui je traite, les entreprises technologiques avec lesquelles je traite, sont très conscients de s'assurer qu'ils sont du bon côté de la loi, et une bonne partie de la discussion est, est-ce PII, puis-je utiliser cela, comment suis-je J'utilise ce morceau de données particulier? Quelle était sa providence, et est-ce une décision ou une expérience protégée? Comment je fais tout ça? Voilà donc la bonne nouvelle. Je m'interroge parfois sur notre discussion en tant que société vers laquelle nous nous dirigeons, et si même notre discussion sur la société est au niveau approprié en termes d'utilisation des nouvelles capacités de l'IoT jusqu'à l'apprentissage automatique, qui est le seul moyen pour trier les volumes de données dont nous disposons. Mais la bonne nouvelle est que les gars à qui j'ai parlé sont vraiment du bon côté pour essayer de bien faire les décisions juridiques que nous avons prises.
Rebecca Jozwiak: Ce sont de très bonnes réponses de vous deux, et je suis totalement d'accord. Je ne pense pas que la sécurité progresse aussi rapidement que le développement technologique, en particulier en ce qui concerne l'Internet des objets, mais je dois penser que les gens font de leur mieux et j'espère que nous y arriverons. Il est toujours un peu difficile de garder une longueur d'avance sur les cyber voleurs et les cybercriminels, mais nous y arriverons.
Eh bien les amis, nous sommes passés huit minutes après le début de l'heure. Je remercie nos invités Brian Bulkowski d'Aerospike et Dez Blanchfield et Robin Bloor. Merci beaucoup. Vous pouvez toujours trouver nos archives sur insideanalysis.com, SlideShare, YouTube, nous avons beaucoup de bonnes webémissions à venir, ça a été un mois chargé. Ce sera un mois chargé le mois prochain, alors restez à l'écoute et nous espérons vous voir la prochaine fois. Merci les gens, au revoir.