Limitations des réseaux sans couches cachées

Cette page présente les principales limitations des réseaux de neurones sans couches cachées sur un exemple simpliste.

Architecture du réseau

Considérons le réseaux suivant sans couche cachée avec deux entrées ( \(a, b \) ) et une sortie ( \(y\) ).

Architecture du réseau sans couches cachées pour l'approximation d'une fonction logique

OU Logic (OR)

Supposons que l'on veuille entraîner le réseau pour qu'il modélise des portes logiques. Commençons avec la fonction logique OU:

a b y = a + b
0 0 0
0 1 1
1 0 1
1 1 1

L'espace de la fonction OU peut être représenté graphiquement. L'axe des X et des Y sont respectivement les entrées \( a \) et \( b \). La ligne verte et la ligne de séparation ( \( y=0 \) ). Comme illustré ci-dessous, le réseau peut trouver une solution optimale :

Solution optimale pour l'approximation de la fonction logique OU

OU exclusif (XOR)

Suppospons que l'on veuille maintenant entrainer le réseau sur la fonction OU exclusif (XOR) :

a b y = a ⊕ b
0 0 0
0 1 1
1 0 1
1 1 0

Comme pour la fonction OU, il est possible de représenter l'espace. Malheureusement, le réseau n'est plus capable de discriminer les uns des zéros.

Single layer neural network fail to learn XOR function

Conclusion

La fonction de transfert de ce réseau sans couche cahcé est données par :

$$ \begin{equation} y= w_1a + w_2b +w_3 \label{eq:transfert-function} \end{equation} $$

L'équation \( \eqref{eq:transfert-function} \) est un modèle linéaire. Cela explique pourquoi la frontière entre les uns et les zérosest nécessairement une droite. La fonction OU exclusif est un problème non linéaire qui ne peut pas être modélisé par un modèle linéaire. Heureusement,les réseaux multi-couche permettent de résoudre des problèmes non linéaires.

Voir aussi


Dernière mise à jour : 11/03/2020