Comment le grattage des données pour l'apprentissage automatique est-il devenu le goulot d'étranglement le plus exigeant en main-d'œuvre depuis la saisie manuelle des données dans la migration héritée?

2026

Comment le grattage des données pour l'apprentissage automatique est-il devenu le goulot d'étranglement le plus exigeant en main-d'œuvre depuis la saisie manuelle des données dans la migration héritée?

UNE:

L'un des problèmes pratiques que les entreprises peuvent rencontrer lorsqu'elles tentent de démarrer un projet d'apprentissage automatique (ML) est le défi que représente l'acquisition des ensembles de données de formation initiale. Cela peut inclure des processus à forte intensité de main-d'œuvre comme le raclage Web ou d'autres grattages de données.

Les termes grattage Web et grattage de données se réfèrent en grande partie à l'activité automatisée par logiciel informatique, mais pour de nombreux projets ML, il y aura des cas où les ordinateurs n'auront pas la sophistication pour collecter les bonnes données ciblées, donc cela devra être fait "par la main." C'est ce que vous pourriez appeler le "raclage de données / web humain", et c'est un travail ingrat. Il s'agit généralement de sortir et de rechercher des données ou des images pour «alimenter» le programme ML à travers des ensembles de formation. C'est souvent assez itératif, ce qui rend le travail fastidieux, lent et exigeant.

Téléchargement gratuit: apprentissage automatique et pourquoi c'est important

Le grattage des données pour les ensembles de formation ML représente un goulot d'étranglement problématique unique dans l'apprentissage automatique, en partie parce qu'une grande partie des autres travaux sont hautement conceptuels et non répétitifs. Beaucoup de gens peuvent trouver une excellente idée pour une nouvelle application qui effectue des tâches d'apprentissage automatique, mais les écrous et boulons et le travail pratique peuvent être beaucoup plus difficiles. En particulier, déléguer le travail d'assemblage des ensembles de formation peut en fait être l'une des parties les plus difficiles d'un projet ML, comme l'explique en détail l'émission télévisée "Silicon Valley" de Mike Judge. Dans un épisode de la saison quatre, un entrepreneur en démarrage intimide d'abord un partenaire pour effectuer le travail à forte intensité de main-d'œuvre, puis essaie de le faire passer pour des étudiants en le déguisant en devoir.

Cet exemple est instructif car il montre à quel point le grattage manuel des données est détesté et apparemment sans importance. Cependant, cela montre également que ce processus est nécessaire pour une large gamme de produits d'apprentissage automatique. Bien que la plupart des gens détestent la saisie de données, les ensembles de formation doivent être assemblés d'une manière ou d'une autre. Les experts du processus recommandent souvent d'utiliser un service de grattage Web - essentiellement l'externalisation de ce travail très laborieux à des parties externes, mais cela pourrait avoir des ramifications de sécurité et causer d'autres problèmes. En gardant le travail manuel de collecte des données en interne, encore une fois, il doit y avoir une disposition pour ce qui est souvent un processus très manuel et long.

À certains égards, le "grattage des données humaines" pour l'apprentissage automatique ressemble à la saisie manuelle des données qui devait parfois être effectuée lors de la migration héritée. À mesure que le cloud devenait de plus en plus populaire et que les entreprises mettaient leurs processus et leurs flux de travail dans le cloud, certaines ont constaté qu'elles n'avaient pas étudié les aspects pratiques de la façon de transférer leurs données d'entreprise d'un système hérité isolé dans des applications natives du cloud. En conséquence, certaines personnes qui étaient par ailleurs des scientifiques des données ou des personnes créatives dotées de compétences informatiques essentielles se sont retrouvées à effectuer des tâches de saisie de données désagréables.

La même chose est susceptible de se produire avec l'apprentissage automatique. Vous pourriez entendre un scientifique des données se plaindre que «je suis une personne créative» ou «je suis du côté du développement» - mais quelqu'un doit faire le sale boulot.

Encore une fois, si le flux créatif n'est pas associé à une évaluation pratique de la délégation du flux de travail, il y aura un décalage dans la façon dont la gestion des tâches est dirigée. Lorsqu'une entreprise n'a pas de personnes pour effectuer le travail de grattage des données dans la collecte des ensembles de données, il lui manque un élément clé de la chaîne de procédure pour un projet réussi. Il convient de garder cela à l'esprit chaque fois qu'une entreprise tente de concrétiser une idée basée sur le développement de nouvelles applications d'apprentissage automatique.

Comment le grattage des données pour l'apprentissage automatique est-il devenu le goulot d'étranglement le plus exigeant en main-d'œuvre depuis la saisie manuelle des données dans la migration héritée?

Plus n'est pas toujours mieux. comment les organisations peuvent-elles réduire le bruit dans leurs données pour obtenir des analyses ciblées et précises?

Comment de nouvelles capacités d'apprentissage automatique peuvent-elles permettre l'extraction de documents de stock pour des données financières?

Pourquoi le goulot d'étranglement de l'information est-il une théorie importante dans l'apprentissage en profondeur?

Le choix des éditeurs

Qu'est-ce qu'un connecteur de matrice graphique vidéo (VGA)? - définition de techopedia

Qu'est-ce que le langage d'exécution des processus métier (bpel)? - définition de techopedia

Qu'est-ce que le réseau edonkey (ed2k)? - définition de techopedia

Qu'est-ce qu'un moteur de règles métier (bre)? - définition de techopedia

Le choix des éditeurs

Qu'est-ce que la résolution et l'analyse d'entité (ER&A)? - définition de techopedia

Qu'est-ce qu'un smartphone d'entrée de gamme? - définition de techopedia

Qu'est-ce que la qualité des données en tant que service (dqaas)? - définition de techopedia

Qu'est-ce que l'externalisation des centres de données (DCO)? - définition de techopedia

Le choix des éditeurs

Qu'est-ce qu'un zettaflop? - définition de techopedia

Qu'est-ce que la gestion avancée de l'alimentation (APM)? - définition de techopedia

Qu'est-ce que le stockage en ligne? - définition de techopedia

Qu'est-ce qu'une porte ni? - définition de techopedia

Le choix des éditeurs

Qu'est-ce que le public en C Sharp? - définition de techopedia

Qu'est-ce qu'une variable en c forte? - définition de techopedia

Qu'est-ce que l'héritage en C Sharp? - définition de techopedia

Qu'est-ce que les opérateurs arithmétiques? - définition de techopedia

Le choix des éditeurs

Qu'est-ce que la visualisation logicielle? - définition de techopedia

Qu'est-ce qu'un langage de programmation visuel (vpl)? - définition de techopedia

Qu'est-ce qu'une variable volatile? - définition de techopedia

Qu'est-ce que la programmation vaudou? - définition de techopedia

Catégories populaires