Données, grandes et petites: où est la vraie valeur?

2025

Table des matières:

Comment le Big Data est utilisé
Où est la vraie valeur?
Parfois, les petites données ont un impact plus important (et moins coûteux)

Les mégadonnées sont un mot générique utilisé pour désigner le traitement de gros volumes de données. Nous comprenons tous que plus le volume de données est important, plus il devient complexe. Les solutions de bases de données traditionnelles ne parviennent souvent pas à gérer correctement de gros volumes de données en raison de leur complexité et de leur taille. Par conséquent, la gestion de grands volumes de données et l'extraction d'informations réelles est une tâche difficile. Le même concept de «valeur» est également applicable aux petites données.

Comment le Big Data est utilisé

Les solutions de bases de données conventionnelles basées sur le concept SGBDR peuvent très bien gérer les données transactionnelles et sont largement utilisées dans différentes applications. Mais lorsqu'il s'agit de gérer un grand ensemble de données (données archivées et en téraoctets ou pétaoctets), ces solutions de base de données échouent souvent. Ces ensembles de données sont trop volumineux et la plupart du temps, ils ne rentrent pas dans l'architecture des bases de données traditionnelles. De nos jours, les mégadonnées sont devenues une approche rentable pour gérer de plus grands ensembles de données. D'un point de vue organisationnel, l'utilisation des mégadonnées peut être répartie dans les catégories suivantes, dans lesquelles réside la valeur réelle des mégadonnées:

Utilisation analytique

Les analystes du Big Data ont révélé de nombreux aspects cachés importants des données qui sont trop coûteux à traiter. Par exemple, si nous devons vérifier l'intérêt tendanciel des étudiants sur un certain nouveau sujet, nous pouvons le faire en analysant les registres de fréquentation quotidienne et d'autres faits sociaux et géographiques. Ces faits sont saisis dans la base de données. Si nous ne pouvons pas accéder à ces données de manière efficace, nous ne pouvons pas voir les résultats.

Activer les nouveaux produits

Dans un passé récent, de nombreuses nouvelles sociétés Web, telles que Facebook, ont commencé à utiliser les mégadonnées comme solution pour lancer de nouveaux produits. Nous savons tous à quel point Facebook est populaire - il a préparé avec succès une expérience utilisateur haute performance en utilisant les mégadonnées.

Où est la vraie valeur?

Différentes solutions de Big Data diffèrent dans l'approche dans laquelle elles stockent les données, mais au final, elles stockent toutes les données dans une structure de fichier plate. En général, Hadoop se compose du système de fichiers et de certaines abstractions de données au niveau du système d'exploitation. Cela inclut un moteur MapReduce et le système de fichiers distribués Hadoop (HDFS). Un cluster Hadoop simple comprend un nœud maître et plusieurs nœuds de travail. Le nœud maître se compose des éléments suivants:

Suivi des tâches
Job Tracker
Nœud de nom
Noeud de données

Le nœud de travail se compose des éléments suivants:

Suivi des tâches
Noeud de données

Certaines implémentations n'ont que le nœud de données. Le nœud de données est la zone réelle où se trouvent les données. HDFS stocke des fichiers volumineux (de l'ordre de téraoctets à pétaoctets) répartis sur plusieurs machines. La fiabilité des données sur chaque nœud est obtenue en répliquant les données sur tous les hôtes. Ainsi, les données sont disponibles même lorsque l'un des nœuds est en panne. Cela permet d'obtenir une réponse plus rapide aux requêtes. Ce concept est très utile dans le cas d'applications volumineuses comme Facebook. En tant qu'utilisateur, nous recevons une réponse à notre demande de chat, par exemple, presque immédiatement. Considérez un scénario dans lequel un utilisateur doit attendre longtemps avant de discuter. Si le message et la réponse subséquente ne sont pas envoyés immédiatement, combien de personnes utiliseront réellement ces outils de discussion?

Pour en revenir à l'implémentation de Facebook, si les données ne sont pas répliquées dans les clusters, il ne sera pas possible d'avoir une implémentation attrayante. Hadoop distribue les données sur les machines d'un cluster plus important et stocke les fichiers sous forme de séquence de blocs. Ces blocs sont de taille identique sauf le dernier bloc. La taille du bloc et le facteur de réplication peuvent être personnalisés selon les besoins. Les fichiers dans HDFS suivent strictement l'approche d'écriture unique et ne peuvent donc être écrits ou modifiés que par un seul utilisateur à la fois. Les décisions concernant la réplication des blocs sont prises par le nœud de nom. Le nœud de nom reçoit des rapports et des réponses d'impulsions de chacun des nœuds de données. Les réponses impulsionnelles assurent la disponibilité du nœud de données correspondant. Le rapport contient les détails des blocs sur le nœud de données.

Une autre implémentation de Big Data, Cassandra, utilise également un concept de distribution similaire. Cassandra distribue des données en fonction de l'emplacement géographique. Par conséquent, à Cassandra, les données sont séparées en fonction de l'emplacement géographique de l'utilisation des données.

Parfois, les petites données ont un impact plus important (et moins coûteux)

Selon Rufus Pollock de l'Open Knowledge Foundation, il est inutile de créer un battage médiatique autour des mégadonnées alors que les petites données sont toujours l'endroit où se trouve la vraie valeur.

Comme son nom l'indique, les petites données sont un ensemble de données ciblées à partir d'un plus grand ensemble de données. Les petites données ont l'intention de détourner l'attention de l'utilisation des données et visent également à contrer la tendance à se diriger vers les grandes données. L'approche des petites données aide à recueillir des données en fonction d'exigences spécifiques en utilisant moins d'efforts. En conséquence, c'est la pratique commerciale la plus efficace lors de la mise en œuvre de l'intelligence d'affaires.

À la base, le concept de petites données tourne autour des entreprises qui exigent des résultats qui nécessitent des actions supplémentaires. Ces résultats doivent être récupérés rapidement et l'action suivante doit également être exécutée rapidement. Ainsi, nous pouvons éliminer les types de systèmes couramment utilisés dans l'analyse des mégadonnées.

En général, si nous considérons certains des systèmes spécifiques requis pour l'acquisition de mégadonnées, une entreprise peut investir dans la mise en place d'un grand nombre de stockage de serveur, utiliser des serveurs haut de gamme sophistiqués et les dernières applications d'exploration de données pour gérer différents bits de données, y compris les dates et heures des actions des utilisateurs, des informations démographiques et d'autres informations. L'ensemble de ces données se déplace vers un entrepôt de données central, où des algorithmes complexes sont utilisés pour trier et traiter les données à afficher sous forme de rapports détaillés.

Nous savons tous que ces solutions ont profité à de nombreuses entreprises en termes d'évolutivité et de disponibilité; certaines organisations estiment que l'adoption de ces approches nécessite des efforts importants. Il est également vrai que dans certains cas, des résultats similaires sont obtenus en utilisant une stratégie d'exploration de données moins robuste.

Les petites données offrent aux organisations un moyen de renoncer à l'obsession des technologies les plus récentes et les plus récentes qui prennent en charge des processus métier plus sophistiqués. Les entreprises qui font la promotion des petites données affirment qu'il est important du point de vue commercial d'utiliser leurs ressources de manière efficace, afin d'éviter les dépenses excessives en technologie dans une certaine mesure.

Nous avons beaucoup discuté des réalités du big data et du small data, mais nous devons comprendre que la sélection de la bonne plateforme (big data ou small data) pour la bonne utilisation est la partie la plus importante de l'exercice. Et la vérité est que même si les mégadonnées peuvent offrir de nombreux avantages, elles ne sont pas toujours les meilleures.