Accueil Dans les nouvelles Pourquoi la sélection des fonctionnalités est-elle si importante dans l'apprentissage automatique?

Pourquoi la sélection des fonctionnalités est-elle si importante dans l'apprentissage automatique?

Anonim

Q:

Pourquoi la sélection des fonctionnalités est-elle si importante dans l'apprentissage automatique?

UNE:

La sélection des fonctionnalités est extrêmement importante dans l'apprentissage automatique, principalement parce qu'elle sert de technique fondamentale pour diriger l'utilisation des variables vers ce qui est le plus efficace et le plus efficace pour un système d'apprentissage automatique donné.

Les experts parlent de la façon dont la sélection et l'extraction des fonctionnalités fonctionnent pour minimiser la malédiction de la dimensionnalité ou aider à faire face au sur-ajustement - ce sont différentes façons d'aborder l'idée d'une modélisation trop complexe.

Téléchargement gratuit: apprentissage automatique et pourquoi c'est important

Une autre façon de le dire est que la sélection des fonctionnalités permet de donner aux développeurs les outils nécessaires pour utiliser uniquement les données les plus pertinentes et utiles dans les ensembles de formation d'apprentissage automatique, ce qui réduit considérablement les coûts et le volume de données.

Un exemple est l'idée de mesurer une forme complexe à l'échelle. À mesure que le programme évolue, il identifie un plus grand nombre de points de données et le système devient beaucoup plus complexe. Mais une forme complexe n'est pas l'ensemble de données typique qu'un système d'apprentissage automatique utilise. Ces systèmes peuvent utiliser des ensembles de données qui ont des niveaux de variance très disparates entre différentes variables. Par exemple, dans la classification des espèces, les ingénieurs peuvent utiliser la sélection des fonctionnalités pour étudier uniquement les variables qui leur donneront les résultats les plus ciblés. Si chaque animal du tableau a le même nombre d'yeux ou de pattes, ces données peuvent être supprimées ou d'autres points de données plus pertinents peuvent être extraits.

La sélection des fonctionnalités est le processus discriminant par lequel les ingénieurs dirigent les systèmes d'apprentissage automatique vers une cible. En plus de l'idée de supprimer la complexité des systèmes à grande échelle, la sélection des fonctionnalités peut également être utile pour optimiser les aspects de ce que les experts appellent le "compromis de variance de biais" dans l'apprentissage automatique.

Les raisons pour lesquelles la sélection des caractéristiques aide à l'analyse du biais et de la variance sont plus compliquées. Une étude de l'Université Cornell sur la sélection des caractéristiques, la variance des biais et l'ensachage sert à illustrer comment les projets de sélection des caractéristiques aident.

Selon les auteurs, l'article «examine le mécanisme par lequel la sélection des fonctionnalités améliore la précision de l'apprentissage supervisé».

L'étude indique en outre:

Une analyse empirique du biais / de la variance à mesure que la sélection des caractéristiques progresse indique que l'ensemble de caractéristiques le plus précis correspond au meilleur point de compromis biais-variance pour l'algorithme d'apprentissage.

Lorsqu'ils discutent de l'utilisation d'une pertinence forte ou faible, les auteurs parlent de la sélection des caractéristiques comme d'une «méthode de réduction de la variance» - cela a du sens lorsque vous considérez la variance comme essentiellement la quantité de variation d'une variable donnée. S'il n'y a pas de variance, le point de données ou le tableau peut être essentiellement inutile. S'il y a une variance extrêmement élevée, cela peut se traduire par ce que les ingénieurs peuvent considérer comme du «bruit» ou des résultats arbitraires non pertinents qui sont difficiles à gérer pour le système d'apprentissage automatique.

À la lumière de cela, la sélection des fonctionnalités est un élément fondamental de la conception dans l'apprentissage automatique.

Pourquoi la sélection des fonctionnalités est-elle si importante dans l'apprentissage automatique?