Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Stratégie globale Au-dessus: Stratégies de prédiction Précédent: Influence des familles séquentielles Neq

   
Exemple de prédiction


 \begin{sidewaystable}% latex2html id marker 2301
\centering
\begin{tabular}{r c ...
...s par ordre d\'ecroissant. Le bloc soulign\'e est le r\'eel.}\end{sidewaystable}

Pour mieux expliciter l'intérêt des stratégies, l'exemple suivant montre un exemple de la prédiction et le rôle du Neq. Le tableau 4.2 donne les prédictions des 18 premières positions de la protéine de conjugaison à l'ubiquitine (cf. paragraphe 3.3.2.4), avec la fenêtre de 15 résidus correspondant au 5 C$_{\alpha }$ du bloc et aux 5 résidus présents de part et d'autre de cette fenêtre. Cette partie N-terminale est composée d'une hélice $\alpha$ formée par 10 blocs protéiques m suivi par une boucle de 7 blocs qui mène à un feuillet $\beta$. Cet exemple est basé sur l'utilisation des familles séquentielles précédemment décrite. Chaque ligne correspond à une séquence, par exemple, la cinquième fenêtre centrée sur MRDFK est assignée au bloc protéique m. Les trois premières solutions ont été ordonnées suivant leur score de prédiction Rk, pour BP m, BP f et BP b, leurs scores respectifs étant de 22,13, 1,25 et 0,40.

Ainsi, le premier score indique que la probabilité du bloc m est 22,13 fois plus élevée que celle d'avoir ce bloc de façon purement aléatoire. En cette position, la prédiction est correcte. Les scores élevés des premières positions sont justifiés par la présence de résidus Leucine, Méthionine, Arginine, Lysine, Aspartate et Leucine en position (-3), (-2), (-1), (+2), (+3) et (+4). De même, le BP f est classé en seconde position du fait de la prsence de l'Aspartate en position centrale de la fenêtre. En ne conservant que les premiers rangs, 10 blocs protéiques sont correctement prédits sur 18. Sur l'ensemble des protéines, le taux de prédiction Q(1)* est de 40,8%. Sans tenir compte des familles séquentielles, il était de 30,4%, soit un gain de plus de 10%. Classiquement, les taux de prédiction ne sont calculés que pour les solutions optimales. Mais, en observant, les solutions des trois premiers rangs, 17 des 18 blocs y sont. La position erronée correspond à une fin d'hélices $\alpha$qui possède une composition inhabituelle en acides aminés, KRLQQDPPA en [-4;+4].

Aussi, au lieu de ne prendre en compte que les premiers rangs, une approche pertinente revient à examiner les taux de prédiction Q(r) pour un rang donné r. Le Neq permet de quantifier cette dispersion parmi les scores. Ainsi dans la première partie de l'hélice $\alpha$, le Neq varie entre 2,06 et 3,78; il est ainsi corrélé avec une bonne prédiction. Inversement, à la fin de l'hélice $\alpha$, la probabilité de trouver le bloc protéique réel décroît alors que le Neq augmente au-delà de 4,82. Les sites sont de moins en moins informatifs. Des Neq intermédiaires sont observés pour les 7 derniers résidus, le nombre de rang à conserver est alors de 2.

Cet exemple montre l'intérêt des stratégies de prédiction basées sur un nombre variable de blocs sélectionnés par site.




Page 89

(c) 2001- Alexandre de Brevern