Cette page présente les principales limitations des réseaux de neurones sans couches cachées sur un exemple simpliste.
Considérons le réseaux suivant sans couche cachée avec deux entrées ( \(a, b \) ) et une sortie ( \(y\) ).
Supposons que l'on veuille entraîner le réseau pour qu'il modélise des portes logiques. Commençons avec la fonction logique OU:
a | b | y = a + b |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 1 |
L'espace de la fonction OU peut être représenté graphiquement. L'axe des X et des Y sont respectivement les entrées \( a \) et \( b \). La ligne verte et la ligne de séparation ( \( y=0 \) ). Comme illustré ci-dessous, le réseau peut trouver une solution optimale :
Suppospons que l'on veuille maintenant entrainer le réseau sur la fonction OU exclusif (XOR) :
a | b | y = a ⊕ b |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
Comme pour la fonction OU, il est possible de représenter l'espace. Malheureusement, le réseau n'est plus capable de discriminer les uns des zéros.
La fonction de transfert de ce réseau sans couche cahcé est données par :
$$ \begin{equation} y= w_1a + w_2b +w_3 \label{eq:transfert-function} \end{equation} $$
L'équation \( \eqref{eq:transfert-function} \) est un modèle linéaire. Cela explique pourquoi la frontière entre les uns et les zérosest nécessairement une droite. La fonction OU exclusif est un problème non linéaire qui ne peut pas être modélisé par un modèle linéaire. Heureusement,les réseaux multi-couche permettent de résoudre des problèmes non linéaires.