Dans cet exemple, nous considérons un jeu de données où chaque vecteur d'entrée \( X = ( x , y) \) est associé à une classe A(+1) ou B(-1). La figure suivante illustre ce problème de classification :
L'architecture du réseau sans couches cachées est la suivante:
Comme nous souhaitons distinguer la classe A de la classe B, nous devons utiliser une fonction d'activation capable de séparer ces classes. Dans cet exemple, c'est la fonction tangente hyperbolique qui a été choisie :
Ce choix est motivé par le fait que cette fonction retourne une valeur comprise entre -1 et +1. La sortie du réseau peut être interprétée de deux façons. En terme de classes binaires (A ou B) ou en terme de probablités.
Pour déterminer si un échantillon appartient à la classe A ou B, nous pouvons utiliser la règle suivante: lorque la sortie est positive, l'échantillon appartient à la classe A, sinon à la classe B. Mathématiquement, cela revient à ajouter cette fonction à la sortie du réseau :
La seconde option pour interpréter la sortie du réseau est de la considérer comme une probabilité d'appartenir à la classe A ou B. Quand la sortie est égale à +1, la probablité de l'échantillon d'appartenir à la classe A ou B est respectivement donnée par un et zéro. L'équation suivante généralise ce concept et convertit la sortie du réseau en probabilités :
Probabilité d'appartenir à la classe A :
$$ p_A = \frac{o+1}{2} $$
Probabilité d'appartenir à la classe B :
$$ p_B = \frac{1-o}{2} $$
Notons que la somme des probabilité est toujours égale à 1 ( \( p_A + p_B = 1\) ).
La figure suivante montre comment l'espace est divisé en deux classes après l'apprentissage:
La figure suivante donne une vue d'ensemble des résultats d'apprentissage.