Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: Résultats Au-dessus: Application à l'étude des Précédent: données structures et données

Apprentissage de la protéine hybride

$\begin{sidewaysfigure}% latex2html id marker 3594 [htbp] \centerline{\epsfxsize... ...(4) Modification de l’'information locale dans l'’hybride.} \end{sidewaysfigure}$

Dans notre étude, la protéine hybride correspond à une succession de L fragments d'une longueur M = 5 résidus, chacun caractérisé en termes séquence-structure par un vecteur de m composantes (ici, m = 23). Elle est donc symbolisée par une matrice de dimension L x m. Le principe de base de MPH est d'apprendre "au mieux" l'ensemble de la base de vecteurs (au nombre de 86 980) par cet hybride de L vecteurs. L'apprentissage est similaire à celui d'une carte auto-organisée de Kohonen ("Self-Organizing Map" ou SOM [108,109]). Cependant, dans notre cas, l'apprentissage est monodimensionnel et la diffusion de l'information le long de l'hybride n'est pas réalisée artificiellement. Elle est implicite car plusieurs vecteurs successifs sont utilisés à la même étape de l'apprentissage. Ce point est distinct de celui de la précédente protéine hybride sur les séries de blocs protéiques où la continuité était comprise directement dans la série de blocs protéiques. Un vecteur d'observation était présenté avec un seul type de blocs pour chaque position alors qu'ici une sous-matrice de f vecteurs est utilisée (f = 5 dans cette étude). En effet, nous présentons f vecteurs consécutifs à l'hybride pour effectuer un apprentissage en continu à la fois de la séquence et de la structure. La méthode schématisée dans la figure 6.13 se décompose en trois étapes :

(i)

Initialisation de la protéine hybride : on effectue un tirage au hasard de L vecteurs dans les protéines codées.

(ii)

Apprentissage séquentiel des matrices d'observations :

(1) on tire un fragment avec son environnement de taille f de la base de données. Il est défini par une sous-matrice V de f vecteurs de taille m.

(2) Pour chacune position p de l'hybride un score de dissemblance S(p) (une distance euclidienne) est calculé entre la sous-matrice V et celle W(p) de même taille prise dans l'hybride. Ainsi un profil de scores est établi le long de l'hybride. (3) On recherche alors le score minimum S_min et la position p* = argmin{S(p)} associé à la plus forte ressemblance entre le fragment observé dans une protéine et celui dans la protéine hybride. (4) Ayant localisé le fragment, on va donc modifier légèrement le contenu de la sous-matrice W(p) pour qu'elle ressemble davantage à celle présentée, soit V. La transformation est définie par l'équation :

$\begin{displaymath}\textbf{\emph{W}}(p) \rightarrow \textbf{\emph{W}}(p) +( \textbf{\emph{V}} - \textbf{\emph{W}}(p)).\alpha(n) \end{displaymath}$

$\begin{displaymath}\alpha(n) = \alpha_0 /(1 + n/N) \end{displaymath}$

n désignant le nombre de sous-matrices présentées à l'hybride, N le nombre total de sous- matrices de la base de données et $\alpha_{0}$ le coefficient d'apprentissage initial. Le coefficient d'apprentissage $\alpha$ (n) décroit au cours de l'apprentissage. Ayant modifié l'hybride, on passe au fragment suivant jusqu'à traiter complétement la base.

(iii)

Renforçage de l'apprentissage : on effectue un certain nombre C de cycles d'apprentissage de la base en recommençant l'étape (ii). Cette relecture des informations permet de renforcer l'apprentissage en regroupant progressivement les blocs semblables.

Page 139