Accueil l'audio Comment le regroupement maximal aide-t-il à faire d'Alexnet une excellente technologie pour le traitement d'images?

Comment le regroupement maximal aide-t-il à faire d'Alexnet une excellente technologie pour le traitement d'images?

Anonim

Q:

Comment le regroupement maximal aide-t-il à faire d'AlexNet une excellente technologie pour le traitement d'images?

UNE:

Dans AlexNet, un réseau neuronal convolutif innovant, le concept de mise en commun maximale est inséré dans un modèle complexe avec plusieurs couches convolutives, en partie pour aider à l'ajustement et à rationaliser le travail que le réseau neuronal fait en travaillant avec des images avec ce que les experts appellent une «stratégie de sous-échantillonnage non linéaire».

AlexNet est largement considéré comme un très bon CNN, ayant remporté le ILSVRC 2012 (ImageNet Large-Scale Visual Recognition Challenge), qui est considéré comme un événement décisif pour l'apprentissage automatique et la progression du réseau de neurones (certains l'appellent les «Jeux olympiques» de la vision par ordinateur). ).

Dans le cadre du réseau, où la formation est divisée en deux GPU, il y a cinq couches convolutives, trois couches entièrement connectées et une mise en œuvre de mise en commun maximale.

Essentiellement, la mise en commun maximale prend la «réserve» de sorties d'une collection de neurones et les applique aux valeurs d'une couche suivante. Une autre façon de comprendre cela est qu'une approche de mise en commun maximale peut consolider et simplifier les valeurs afin de mieux ajuster le modèle.

La mise en commun maximale peut aider à calculer les gradients. On pourrait dire qu'il «réduit la charge de calcul» ou «réduit le sur-ajustement» - grâce au sous-échantillonnage, la mise en commun maximale engage ce que l'on appelle la «réduction de dimensionnalité».

La réduction de la dimensionnalité traite du problème d'avoir un modèle trop compliqué qui est difficile à exécuter à travers un réseau de neurones. Imaginez une forme complexe, avec de nombreux petits contours irréguliers et chaque petit bout de cette ligne représenté par un point de données. Grâce à la réduction de la dimensionnalité, les ingénieurs aident le programme d'apprentissage automatique à «dézoomer» ou à échantillonner moins de points de données, pour simplifier le modèle dans son ensemble. C'est pourquoi si vous regardez une couche de regroupement maximale et sa sortie, vous pouvez parfois voir une pixellisation plus simple correspondant à une stratégie de réduction de dimensionnalité.

AlexNet utilise également une fonction appelée unités linéaires rectifiées (ReLU), et la mise en commun maximale peut être complémentaire de cette technique dans le traitement des images via le CNN.

Les experts et les personnes impliquées dans le projet ont fourni d'abondants modèles visuels, équations et autres détails pour montrer la construction spécifique d'AlexNet, mais dans un sens général, vous pouvez considérer la mise en commun maximale comme une fusion ou une consolidation de la sortie de plusieurs neurones artificiels. Cette stratégie fait partie de la construction globale du CNN, qui est devenu synonyme de vision industrielle et de classification d'images de pointe.

Comment le regroupement maximal aide-t-il à faire d'Alexnet une excellente technologie pour le traitement d'images?