Accueil l'audio Quels sont les principaux moyens d'automatiser et d'optimiser les processus de science des données?

Quels sont les principaux moyens d'automatiser et d'optimiser les processus de science des données?

Anonim

Q:

Quels sont les principaux moyens d'automatiser et d'optimiser les processus de science des données?

UNE:

Les processus de science des données dans le contexte de l'apprentissage automatique et de l'IA peuvent être divisés en quatre phases distinctes:

  1. acquisition et exploration de données,
  2. construction de modèles,
  3. déploiement de modèle et
  4. évaluation et perfectionnement en ligne.

D'après mon expérience, les phases les plus gênantes sont les phases d'acquisition de données et de déploiement de modèle dans tout processus de science des données basé sur l'apprentissage automatique, et voici deux façons de les optimiser:

1. Créez un magasin de données hautement accessible.

Dans la plupart des organisations, les données ne sont pas stockées dans un emplacement central. Prenons simplement les informations relatives aux clients. Vous disposez des informations de contact client, des e-mails d'assistance client, des commentaires des clients et de l'historique de navigation des clients si votre entreprise est une application Web. Toutes ces données sont naturellement dispersées, car elles servent à des fins différentes. Ils peuvent résider dans différentes bases de données et certains peuvent être entièrement structurés et d'autres non structurés, et peuvent même être stockés sous forme de fichiers en texte brut.

Malheureusement, la dispersion de ces ensembles de données limite fortement le travail de science des données, car la base de tous les problèmes de PNL, d'apprentissage automatique et d'IA sont les données . Donc, avoir toutes ces données en un seul endroit - la banque de données - est primordial pour accélérer le développement et le déploiement de modèles. Étant donné qu'il s'agit d'un élément crucial de tous les processus de science des données, les organisations devraient embaucher des ingénieurs de données qualifiés pour les aider à créer leurs banques de données. Cela peut facilement commencer comme de simples vidages de données dans un seul emplacement et devenir lentement un référentiel de données bien pensé, entièrement documenté et interrogeable avec des outils utilitaires pour exporter des sous-ensembles de données dans différents formats à des fins différentes.

2. Exposez vos modèles en tant que service pour une intégration transparente.

En plus de permettre l'accès aux données, il est également important de pouvoir intégrer dans le produit les modèles développés par les data scientists. Il peut être extrêmement difficile d'intégrer des modèles développés en Python avec une application Web qui s'exécute sur Ruby. En outre, les modèles peuvent présenter de nombreuses dépendances de données que votre produit peut ne pas être en mesure de fournir.

Une façon de résoudre ce problème consiste à mettre en place une infrastructure solide autour de votre modèle et à exposer juste assez de fonctionnalités nécessaires à votre produit pour utiliser le modèle en tant que «service Web». Par exemple, si votre application a besoin d'une classification des sentiments sur les évaluations de produits, tout ce qu'il doit faire est d'invoquer le service Web, en fournissant le texte pertinent et le service rendrait la classification de sentiment appropriée que le produit peut utiliser directement. De cette façon, l'intégration se fait simplement sous la forme d'un appel API. Le découplage du modèle et du produit qui l'utilise rend très facile pour les nouveaux produits que vous proposez d'utiliser également ces modèles avec peu de tracas.

Désormais, la mise en place de l'infrastructure autour de votre modèle est une toute autre histoire et nécessite un investissement initial important de la part de vos équipes d'ingénierie. Une fois que l'infrastructure est là, il suffit de construire des modèles d'une manière qui s'intègre à l'infrastructure.

Quels sont les principaux moyens d'automatiser et d'optimiser les processus de science des données?