Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Construction des familles séquentielles Au-dessus: Les familles séquentielles Précédent: Les familles séquentielles

   
Principe des familles séquentielles

La méthode de prédiction bayésienne implique pour chaque bloc l'utilisation d'une matrice d'occurrence qui lui est propre. Ainsi, si un bloc est composé de deux types de séquences distinctes, l'utilisation d'une matrice commune entraîne un phénomène de moyennage qui fait perdre de l'informativité à ce bloc. Aussi pour améliorer la prédiction, nous avons mis au point la méthode "des familles séquentielles". Elle consite en la génération, pour un bloc protéique x de f matrices distinctes contenant chacune une partie des fragments protéiques du BP x. Pour cela, nous avons procédé à une classification des fragments par une méthode proche des cartes topologiques de Kohonen [109].

Pour un bloc protéique x, f matrices d'occurrence sont créées. Chacune des f matrices est initialisée en mettant les fréquences des acides aminés de la matrice associée au bloc x avec une légère variation pour les individualiser. Toutes les fréquences ont été recalculées pour avoir une fréquence égale à 1 en chaque position.

Ensuite, chaque fragment protéique associé au BP x est alloué à la matrice qui lui ressemble le plus parmi les f matrices. Pour cela, la probabilité conditionnelle Pl = P(XS/BPkl) est calculé pour l allant de 1 à f, avec XS la séquence en acide aminé correspondant au fragment. Ainsi, le score maximal Pl* = max {Pl} permet de caractériser la matrice l* correspondant au mieux au fragment XS. Cette matrice va être donc légèrement modifiée pour ressembler un peu plus au fragment XS. Chaque fréquence d'acides aminés faa en position k est modifiée.

-
pour l'acide aminé o présenté à la position k du fragment XS:


\begin{displaymath}f_o^k \leftarrow \frac{ f_o^k + \alpha}{1 + \alpha} \end{displaymath}

-
pour les 19 autres types d'acides aminés à la même position :


\begin{displaymath}f_{aa}^k \leftarrow \frac{ f_{aa}^k}{1 + \alpha} \end{displaymath}

Cette transformation permet de conserver en chaque position une somme des fréquences toujours égale à un. Le coefficient d'apprentissage $\alpha$ est égal à $\alpha_{0} /( 1 + t / N_x )$, avec $\alpha_{0}$ le taux initial d'apprentissage pris égal à 0,05, t représentant le nombre de fragments déjà vus et Nk, le nombre total de fragments associés au bloc protéique x. Le processus est itératif, l'ensemble des fragments est donc vu totalement à chaque cycle. Au bout d'un certain nombre de cycles, les fragments se focalisent sur une seule des f matrices. 5 cycles ont été utilisés dans cette apprentissage.


 \begin{sidewaysfigure}% latex2html id marker 2168
[htbp]
\centerline{\epsfxsize...
...'occurrences associ\'ees \\lq a des familles s\'equentielles.}
\end{sidewaysfigure}




Page 83

(c) 2001- Alexandre de Brevern