Blocs Protéiques

Une couche de neurones d'entrée définit l'espace des entrées possibles. une couche de neurones de sorties sera mise en correspondance avec l'espace des prototypes. Les poids synaptiques reliant les neurones de la couche d'entrée à un neurone de la couche de sortie définissent les coordonnées dans l'espace des entrées du prototype représenté par le neurone de sortie.

L'apprentissage tient compte de la structure topologique de la grille des entrées. L'accroissement de l'algorithme de d'apprentissage concurrentiel est appliqué au plus proche prototype du motif d'entrée mais aussi aux voisins de ce motif.

Dans un premier temps, une phase de structuration topologique voit la grille de la couche des sorties se positionne dans l'espace des entrées. Ses points s'ordonnent les uns par rapport aux autres.

Ensuite, une phase de convergence où la grille se déforme lentement en conservant sa structuration pour converger vers un échantillonnage régulier de la distribution de probabilités de l'espace des entrées.

Après apprentissage, un motif d'entrée sera représenté par le neurone dont il s'approche le plus. Par conséquent, une fois l'apprentissage achevé, les valeurs des connexions définissent un pavage de l'espace des entrées qui doit échantillonner au mieux la distribution de probabilité des motifs d'entrée. La principale caractéristique est que la carte topologique obtenue n'a aucun rapport avec les dimensions de l'espace des entrées. Elle est stable, robuste et d'une représentation simple.

**Figure 7.3:** Schéma récapitulatif du travail effectué par Schuchhardt et collaborateurs, avec la traduction de la structure tridimensionnelle des protéines en termes d'angles $\phi$ et $\psi$ , puis leur utilisation dans une carte de Kohonen pour obtenir des blocs structuraux.
$\begin{figure} \centerline{\epsfxsize=10cm \epsfbox{Images/Chapitre_6_ANNxs/koho_shu1.ps}} \end{figure}$

L'intérêt des cartes topologiques est la diffusion latérale qui permet de diminuer les risques de minimum local comme dans une méthode de nuées dynamiques ou de k-means. Une carte topologique est représentée par un réseau de N neurones. Il est initialisé en tirant au hasard des fragments de la base de données pour donner des valeurs initiales aux neurones. Pour expliciter ceci, l'article de Schuchhardt et collabarateurs servira d'exemple (pour la problématique), la figure 7.3 récapitule les étapes décrites au paragraphe 2.3.2.3.

La figure 7.4 explicite les différentes étapes pour un exemple de 16 blocs :

$\begin{sidewaysfigure}% latex2html id marker 3766 [htbp] \centerline{\epsfxsize... ...us est r\'ep\'et\'e jusqu'\\lq a stabilisation du syst\'eme.} \end{sidewaysfigure}$

ii)- Comparaison de ce fragment avec tous les neurones. Pour connaître le neurone le plus proche du fragment présenté, nous avons cherché le minimum de différence entre le fragment et les neurones de la carte :

avec w^Prochain le vecteur de poids le plus proche de v le fragment présenté

$\begin{displaymath}RMSda (s,t)= \sqrt{\frac{1}{16} \sum_{1}^{8} (\phi_s^i-\phi_t^i)^2 + (\phi_s^{i+1}-\phi_t^{i+1})^2}\end{displaymath}$

avec s et t représentent deux motifs structuraux distincts. Les différences angulaires se font sur 180^o au maximum.

iii)- Le neurone le plus proche (valeur de rmsda la plus faible) est modifié très légèrement pour ressembler au fragment qui lui est présenté. Les poids (vecteur de 8 coordonnées pour chaque neurone) sont pondérés à chaque présentation de fragments :

$\begin{displaymath}w^k(t+1) = w^k(t) + [v - w^k(t+1)] \nu e^{-\frac{1}{2\rho^2}(r^k-r^{Prochain})}\end{displaymath}$

$\begin{displaymath}\rho =\frac{\rho_0}{1+\frac{t}{\theta}} \end{displaymath}$

Avec $\theta$ le nombre total de motifs à passer, t le nombre de motifs déjà passés, $\nu$ le coefficient d'apprentissage pris classiquement entre 0,01 et 0,02 $\rho$ est un coefficient qui définit la distance de propagation (cf. iii bis) autour du neurone le plus proche wProchain et r l'amplitude des modifications autorisées.

iii bis)- De même les voisins les plus proches seront très légèrement modifiés, la variation dépend la distance r^k-r^Prochain qui a été calculée avec la formule de la distance euclidienne

iv)- Le processus recommence depuis le i)- jusqu'à la stabilisation du système. La valeur des modifications diminuera donc avec le temps. La carte se déformera peu à peu pour atteindre un équilibre.

Les paramètres d'apprentissage sont capitaux dans l'apprentissage ainsi la figure 7.5 montre l'évolution des paramètres . Cette influence est fortement perceptible, des coefficients trop faible tendent à dimininuer les mouvements et provoquent une fixation des neurones trop rapides, d'où une mauvaise classification.

**Figure 7.5:** Evolutioon des coefficients en fonction des cycles avec diffrents coeffcients $\nu$ et $\rho$ classiques.
$\begin{figure} \centerline{\epsfxsize=10cm \epsfbox{Images/Chapitre_6_ANNxs/annexe3.ps}} \end{figure}$

**Figure 7.6:** Mouvement lors des premiers cycles des neurones les plus proches des structures $\alpha$ et $\beta$ pour des valeurs d'apprentissage et de diffusion distincte.
$\begin{figure} \centerline{\epsfxsize=10cm \epsfbox{Images/Chapitre_6_ANNxs/annexe2.ps}} \end{figure}$

La figure 7.6 montre les différences de mouvement impliqués par des coefficients distincts. Sur l'exemple, le neurone de l'hélice $\alpha$ central a été placée en bas à droite, celui du feuillet en haut à gauche. Selon les coefficients utilisés soit les mouvements sont importants et l'apprentissage semble peu dépendant de l'initialisation, soit ils sont faibles et dépendent fortement de l'intialisation. Ainsi, le neurone $\beta$ peut ne pas se déplacer et donc se focaliser de maniére "injuste", génant les neurones qui lui sont proches.

Principe d'apprentissage et d'assignation