Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Stratégie locale Au-dessus: Stratégies de prédiction Précédent: Exemple de prédiction

   
Stratégie globale

En utilisant la base de données, nous avons établi la relation qui existe entre la probabilité de trouver le bloc réel parmi les r blocs les plus probables pour un Neq donné. Cette démarche permet d'obtenir la figure 4.11 qui met en relation le taux de prédiction en fonction du Neq et du nombre de solutions conservées. Cet exemple utilise les familles séquentielles.


  
Figure 4.11: Taux de prédiction Q(r) associé à chaque taux de Neq pour r variant entre 1 et 6.
\begin{figure}
\centerline{\epsfxsize=12cm \rotatebox{270}{\epsfbox{Images/Chapitre_3_PBs/Neq_5_rangs.ps}}}
\end{figure}

La distribution du taux de prédiction associé à chaque Neq a été calculée. Pour chaque taux de prédiction Qg, le nombre de rangs, (i.e. nombre de blocs) à conserver pour atteindre Qg en fonction du Neq a été déterminé. Par exemple, pour un Neq inférieur à 6,32, il faut sélectionner les 3 PBs les plus probables pour avoir un taux de bonne prédiction de 70 %.


 \begin{sidewaysfigure}% latex2html id marker 2487
[htbp]
\centerline{\epsfxsiz...
...\^eme strat\'egie pour $Q_l$ =70 \% et \emph{r} = 3 rangs.}
\end{sidewaysfigure}

La figure 4.12 montre le résultat de cette stratégie pour la protéine 1aak (cf. paragraphes 3.3.2.4 et 4.2). Le profil des Neq (figure 4.12a) montre la variation de cet indice entre 1,06 et 9,79. La figure 4.12b donne en chaque site le rang véritable du bloc dans la prédiction. 77,8% des blocs réels sont parmi les 3 solutions les plus probables. Certaines zones de la protéine nécessite de conserver un grand nombre PBs, comme les deux boucles reliant les deux feuillets $\beta$ (positions 22 à 46), et la large boucle (positions 82 à 90) contenant une petite hélice $\alpha$.

La figure 4.12c montre le nombre de blocs protéiques devant être sélectionné pour avoir un taux global de prédiction Qg de 75%. Les séries de points en-dessous définissent les sites où le bloc réel est trouvé au premier rang, et parmi les rangs sélectionnés. Le nombre maximal de blocs protéiques est de 4. Le taux de prédiction au premier rang est de 40,7%; pour Qg=75%, de 1 à 4 blocs protéiques par site sont sélectionnés (8, 17, 37 et 72 sites respectivement). Les structures répétitives et les blocs proches de ces dernières (cf. figure 3.10) sont bien délimitées. Comme attendu, les boucles sont plus difficilement prédictibles. En observant les deux séries de points, il est net que les zones possédant des blocs bien prédits au premier rang sont les plus aisées à prédire avec un nombre restreint de blocs.

Cette stratégie amène à un excès de blocs en chaque position. Cependant, en contrepartie le taux de prédiction est toujours assuré.




Page 90

(c) 2001- Alexandre de Brevern