Q:
Comment le grattage des données pour l'apprentissage automatique est-il devenu le goulot d'étranglement le plus exigeant en main-d'œuvre depuis la saisie manuelle des données dans la migration héritée?
UNE:L'un des problèmes pratiques que les entreprises peuvent rencontrer lorsqu'elles tentent de démarrer un projet d'apprentissage automatique (ML) est le défi que représente l'acquisition des ensembles de données de formation initiale. Cela peut inclure des processus à forte intensité de main-d'œuvre comme le raclage Web ou d'autres grattages de données.
Les termes grattage Web et grattage de données se réfèrent en grande partie à l'activité automatisée par logiciel informatique, mais pour de nombreux projets ML, il y aura des cas où les ordinateurs n'auront pas la sophistication pour collecter les bonnes données ciblées, donc cela devra être fait "par la main." C'est ce que vous pourriez appeler le "raclage de données / web humain", et c'est un travail ingrat. Il s'agit généralement de sortir et de rechercher des données ou des images pour «alimenter» le programme ML à travers des ensembles de formation. C'est souvent assez itératif, ce qui rend le travail fastidieux, lent et exigeant.
Téléchargement gratuit: apprentissage automatique et pourquoi c'est important |
Le grattage des données pour les ensembles de formation ML représente un goulot d'étranglement problématique unique dans l'apprentissage automatique, en partie parce qu'une grande partie des autres travaux sont hautement conceptuels et non répétitifs. Beaucoup de gens peuvent trouver une excellente idée pour une nouvelle application qui effectue des tâches d'apprentissage automatique, mais les écrous et boulons et le travail pratique peuvent être beaucoup plus difficiles. En particulier, déléguer le travail d'assemblage des ensembles de formation peut en fait être l'une des parties les plus difficiles d'un projet ML, comme l'explique en détail l'émission télévisée "Silicon Valley" de Mike Judge. Dans un épisode de la saison quatre, un entrepreneur en démarrage intimide d'abord un partenaire pour effectuer le travail à forte intensité de main-d'œuvre, puis essaie de le faire passer pour des étudiants en le déguisant en devoir.
Cet exemple est instructif car il montre à quel point le grattage manuel des données est détesté et apparemment sans importance. Cependant, cela montre également que ce processus est nécessaire pour une large gamme de produits d'apprentissage automatique. Bien que la plupart des gens détestent la saisie de données, les ensembles de formation doivent être assemblés d'une manière ou d'une autre. Les experts du processus recommandent souvent d'utiliser un service de grattage Web - essentiellement l'externalisation de ce travail très laborieux à des parties externes, mais cela pourrait avoir des ramifications de sécurité et causer d'autres problèmes. En gardant le travail manuel de collecte des données en interne, encore une fois, il doit y avoir une disposition pour ce qui est souvent un processus très manuel et long.
À certains égards, le "grattage des données humaines" pour l'apprentissage automatique ressemble à la saisie manuelle des données qui devait parfois être effectuée lors de la migration héritée. À mesure que le cloud devenait de plus en plus populaire et que les entreprises mettaient leurs processus et leurs flux de travail dans le cloud, certaines ont constaté qu'elles n'avaient pas étudié les aspects pratiques de la façon de transférer leurs données d'entreprise d'un système hérité isolé dans des applications natives du cloud. En conséquence, certaines personnes qui étaient par ailleurs des scientifiques des données ou des personnes créatives dotées de compétences informatiques essentielles se sont retrouvées à effectuer des tâches de saisie de données désagréables.
La même chose est susceptible de se produire avec l'apprentissage automatique. Vous pourriez entendre un scientifique des données se plaindre que «je suis une personne créative» ou «je suis du côté du développement» - mais quelqu'un doit faire le sale boulot.
Encore une fois, si le flux créatif n'est pas associé à une évaluation pratique de la délégation du flux de travail, il y aura un décalage dans la façon dont la gestion des tâches est dirigée. Lorsqu'une entreprise n'a pas de personnes pour effectuer le travail de grattage des données dans la collecte des ensembles de données, il lui manque un élément clé de la chaîne de procédure pour un projet réussi. Il convient de garder cela à l'esprit chaque fois qu'une entreprise tente de concrétiser une idée basée sur le développement de nouvelles applications d'apprentissage automatique.