Accueil l'audio Pourquoi l'ensachage dans l'apprentissage automatique diminue-t-il la variance?

Pourquoi l'ensachage dans l'apprentissage automatique diminue-t-il la variance?

Anonim

Q:

Pourquoi l'ensachage dans l'apprentissage automatique diminue-t-il la variance?

UNE:

L'agrégation de bootstrap, ou «bagging», dans l'apprentissage automatique diminue la variance en créant des modèles plus avancés d'ensembles de données complexes. Plus précisément, l'approche d'ensachage crée des sous-ensembles qui se chevauchent souvent pour modéliser les données de manière plus impliquée.

Une façon intéressante et simple de savoir comment appliquer l'ensachage consiste à prélever un ensemble d'échantillons aléatoires et à extraire la moyenne simple. Ensuite, en utilisant le même ensemble d'échantillons, créez des dizaines de sous-ensembles construits comme des arbres de décision pour manipuler les résultats éventuels. La deuxième moyenne devrait montrer une image plus vraie de la façon dont ces échantillons individuels sont liés les uns aux autres en termes de valeur. La même idée peut être appliquée à n'importe quelle propriété de n'importe quel ensemble de points de données.

Téléchargement gratuit: apprentissage automatique et pourquoi c'est important

Étant donné que cette approche consolide la découverte dans des limites plus définies, elle diminue la variance et aide au sur-ajustement. Pensez à un nuage de points avec des points de données quelque peu répartis; en utilisant une méthode d'ensachage, les ingénieurs «réduisent» la complexité et orientent les lignes de découverte vers des paramètres plus lisses.

Certains parlent de la valeur de l'ensachage comme «diviser pour mieux régner» ou comme un type d '«heuristique assistée». L'idée est que, grâce à la modélisation d'ensemble, comme l'utilisation de forêts aléatoires, ceux qui utilisent l'ensachage comme technique peuvent obtenir des résultats de données dont la variance est plus faible. En termes de réduction de la complexité, l'ensachage peut également aider à sur-ajuster. Pensez à un modèle avec trop de points de données: disons, connectez les points avec 100 points non alignés. La ligne de données visuelles résultante sera irrégulière, dynamique et volatile. Puis «aplanissez» la variance en rassemblant des ensembles d'évaluations. Dans l'apprentissage en ensemble, cela est souvent considéré comme la jonction de plusieurs «apprenants faibles» pour fournir un résultat collaboratif «d'apprentissage fort». Le résultat est une ligne de données plus lisse, plus profilée et moins de variance sauvage dans le modèle.

Il est facile de voir comment l'idée de l'ensachage peut être appliquée aux systèmes informatiques d'entreprise. Les chefs d'entreprise veulent souvent une «vue d'ensemble» de ce qui se passe avec les produits, les clients, etc. Un modèle surajusté peut renvoyer des données moins digestes et des résultats plus «dispersés», où l'ensachage peut «stabiliser» un modèle et le rendre plus utile aux utilisateurs finaux.

Pourquoi l'ensachage dans l'apprentissage automatique diminue-t-il la variance?