Accueil l'audio Peut-il jamais y avoir trop de données dans les mégadonnées?

Peut-il jamais y avoir trop de données dans les mégadonnées?

Anonim

Q:

Peut-il jamais y avoir trop de données dans les mégadonnées?

UNE:

La réponse à la question est un OUI retentissant. Il peut absolument y avoir trop de données dans un projet Big Data.

Il existe de nombreuses façons dont cela peut se produire, et diverses raisons pour lesquelles les professionnels doivent limiter et conserver les données de plusieurs façons pour obtenir les bons résultats. (Lisez 10 grands mythes sur les mégadonnées.)

En général, les experts parlent de différencier le "signal" du "bruit" dans un modèle. En d'autres termes, dans une mer de mégadonnées, les données pertinentes pertinentes deviennent difficiles à cibler. Dans certains cas, vous cherchez une aiguille dans une botte de foin.

Par exemple, supposons qu'une entreprise essaie d'utiliser les mégadonnées pour générer des informations spécifiques sur un segment d'une base de clients et leurs achats sur une période spécifique. (Lire Que font les mégadonnées?)

Prendre une énorme quantité de ressources de données peut entraîner la prise de données aléatoires qui ne sont pas pertinentes, ou cela peut même produire un biais qui biaise les données dans un sens ou dans un autre.

Cela ralentit également considérablement le processus, car les systèmes informatiques doivent lutter avec des ensembles de données de plus en plus volumineux.

Dans tant de types de projets différents, il est très important pour les ingénieurs de données de conserver les données dans des ensembles de données restreints et spécifiques - dans le cas ci-dessus, ce ne seraient que les données pour ce segment de clients à l'étude, uniquement les données pour cette période cadre à l'étude, et une approche qui élimine les identifiants supplémentaires ou des informations de fond qui peuvent confondre les choses ou ralentir les systèmes. (Rôle ReadJob: Data Engineer.)

Pour en savoir plus, regardons comment cela fonctionne à la frontière de l'apprentissage automatique. (Lire Machine Learning 101.)

Les experts en apprentissage automatique parlent de quelque chose appelé «surajustement», où un modèle trop complexe conduit à des résultats moins efficaces lorsque le programme d'apprentissage automatique est lâche sur les nouvelles données de production.

Le surapprentissage se produit lorsqu'un ensemble complexe de points de données correspond trop bien à un ensemble de formation initiale et ne permet pas au programme de s'adapter facilement aux nouvelles données.

Désormais, techniquement, le sur-ajustement n'est pas dû à l'existence d'un trop grand nombre d'échantillons de données, mais au couronnement d'un trop grand nombre de points de données. Mais vous pourriez faire valoir que le fait d'avoir trop de données peut également être un facteur contribuant à ce type de problème. Faire face à la malédiction de la dimensionnalité implique certaines des mêmes techniques que celles utilisées dans des projets de Big Data antérieurs alors que les professionnels tentaient de déterminer ce qu'ils alimentaient les systèmes informatiques.

L'essentiel, c'est que les mégadonnées peuvent être extrêmement utiles aux entreprises, ou elles peuvent devenir un défi majeur. Un aspect de cela est de savoir si l'entreprise a les bonnes données en jeu. Les experts savent qu'il n'est pas conseillé de simplement vider tous les actifs de données dans une trémie et de fournir des informations de cette façon - dans les nouveaux systèmes de données natifs et sophistiqués du cloud, il y a un effort pour contrôler et gérer et conserver les données afin d'obtenir plus de précision et de utilisation efficace des ressources de données.

Peut-il jamais y avoir trop de données dans les mégadonnées?