Accueil l'audio Pourquoi les réseaux de neurones artificiels récurrents sont-ils souvent difficiles à former?

Pourquoi les réseaux de neurones artificiels récurrents sont-ils souvent difficiles à former?

Anonim

Q:

Pourquoi les réseaux de neurones artificiels récurrents sont-ils souvent difficiles à former?

UNE:

La difficulté de former des réseaux de neurones artificiels récurrents est liée à leur complexité.

L'un des moyens les plus simples d'expliquer pourquoi les réseaux de neurones récurrents sont difficiles à former est qu'ils ne sont pas des réseaux de neurones à action directe.

Dans les réseaux de neurones à action directe, les signaux ne se déplacent que dans un sens. Le signal se déplace d'une couche d'entrée vers diverses couches cachées, et vers l'avant, vers la couche de sortie d'un système.

En revanche, les réseaux de neurones récurrents et d'autres types différents de réseaux de neurones ont des mouvements de signaux plus complexes. Classés comme réseaux de «rétroaction», les réseaux de neurones récurrents peuvent avoir des signaux se déplaçant vers l'avant et vers l'arrière et peuvent contenir diverses «boucles» dans le réseau où des nombres ou des valeurs sont réinjectés dans le réseau. Les experts associent cela à l'aspect des réseaux de neurones récurrents associés à leur mémoire.

De plus, il existe un autre type de complexité affectant les réseaux de neurones récurrents. Un excellent exemple de cela est dans le domaine du traitement du langage naturel.

Dans le traitement sophistiqué du langage naturel, le réseau neuronal doit pouvoir se souvenir des choses. Il doit également prendre les contributions en contexte. Supposons qu'il existe un programme qui souhaite analyser ou prédire un mot dans une phrase d'autres mots. Il peut y avoir, par exemple, une longueur fixe de cinq mots à évaluer par le système. Cela signifie que le réseau neuronal doit avoir des entrées pour chacun de ces mots, ainsi que la capacité de «se souvenir» ou de s'entraîner sur le contexte de ces mots. Pour ces raisons et d'autres raisons similaires, les réseaux de neurones récurrents ont généralement ces petites boucles et rétroactions cachées dans le système.

Les experts déplorent que ces complications rendent difficile la formation des réseaux. L'une des façons les plus courantes d'expliquer cela est de citer le problème du gradient explosant et disparaissant. Essentiellement, les poids du réseau entraîneront une explosion ou une disparition des valeurs avec un grand nombre de passes.

Le pionnier des réseaux de neurones, Geoff Hinton, explique ce phénomène sur le Web en disant que les passages linéaires en arrière entraîneront une réduction exponentielle des poids plus petits et une explosion des poids plus importants.

Ce problème, continue-t-il, s'aggrave avec de longues séquences et des pas de temps plus nombreux, dans lesquels les signaux croissent ou se dégradent. L'initialisation du poids peut aider, mais ces défis sont intégrés dans le modèle de réseau de neurones récurrent. Il y aura toujours ce problème lié à leur conception et à leur construction particulières. Essentiellement, certains des types de réseaux de neurones les plus complexes défient vraiment notre capacité à les gérer facilement. Nous pouvons créer une complexité pratiquement infinie, mais nous voyons souvent des défis de prévisibilité et d'évolutivité croître.

Pourquoi les réseaux de neurones artificiels récurrents sont-ils souvent difficiles à former?