Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Stratégies de prédiction Au-dessus: Les familles séquentielles Précédent: Construction des familles séquentielles

   
Influence des familles séquentielles dans la prédiction

Avec les 26 matrices obtenues par l'utilisation des familles séquentielles, le taux de pédiction Q(1)* est passé à 40,7 %, en conservant les deux solutions les plus probables (Q(2)*), le taux est de 57,5 %, soit 5,4 % de gain par rapport à l'approche Bayésienne simple, de même Q(4)* = 75,8 % (gain de 4,4 %) et atteint 90,2 % pour Q(7)*, soit un gain d'un rang pour le même taux de probabilité.


  
Figure 4.8: Taux de prédiction pour chaque type de blocs protéiques en conservant de 1 à 16 solutions possibles avec utilisation des familles séquentielles
\begin{figure}
\centerline{\epsfxsize=12cm \rotatebox{270}{\epsfbox{Images/Chapitre_3_PBs/prediction_02.ps}}}
\end{figure}

La figure 4.8 montre, comme la figure 4.5 pour la prédiction bayésienne simple, l'évolution du taux de prédiction individuel des BPs en fonction du nombre de solutions conservées. L'effet de concentration des blocs dans un intervalle plus restreint est obtenu. L'écart entre le BP le meilleur et le plus mal prédit est passé de 47,2 % à 26,2 % avec une augmentation du taux de prédiction du BPb de 13,1 % à 27,0 % et une diminution de celui du BPa de 60,3 % à 53,2 %, ce dernier n'ayant pas été divisé.


  
Figure 4.9: Gain du taux de prédiction par l'utilisation des familles séquentielles, avec en abcisse le taux de prédiction Q(1) pour la méthode bayésienne simple et en ordonnée la différence entre ce taux Q(1) et celui obtenu avec les familles séquentielles Q(1)*. Les taux ont été donnés pour chaque protéine de la base de données: (*) les protéines tout-$\alpha$, (o) les protéines tout-$\beta$ et (.) les autres protéines; la classification suit la définition de Michie et collaborateurs [127].
\begin{figure}
\begin{center}
\centerline{\epsfxsize=14cm \rotatebox{270}{\epsf...
...Predicition_Bayes_Intiale_Famille_Sequentielle.ps}}}
\end{center}
\end{figure}

La figure 4.9 montre la différence qui existe entre le taux de prédiction initial Q(1) indiqué en abscisse et la différence entre ce taux et Q(1)*obtenu par les familles. Cette figure montre bien que le gain concerne la majorité des protéines, 95 % ont gagné en taux de prédiction. Maintenant 51,4 % des protéines ont un taux de prédiction supérieur à 40 % contre moins de 21 % auparavant. Ce gain n'est pas équivalent selon le type de protéine ainsi en moyenne les protéines tout-$\alpha$ ont un gain de 9,1 % (37,3% contre 46,4 %), les tout-$\beta$ ont un gain plus faible de 3%, (30,2 % contre 33,2 %), les $\alpha$+$\beta$ ont un gain de 4.9% (35,7 % - 40,6 %), et 4,8% pour les non-classifiées (33, 9% - 38,7%).

Globalement, on observe une augmentation des taux de prédiction pour les blocs ayant plusieurs familles séquentielles et en contre-partie une diminution pour les autres. Toutefois, cette diminution est faible. Il aurait été simple d'augmenter artificiellement les taux de prédiction des blocs les plus fréquents en les sub-divisant encore plus, jouant ainsi sur l'effet de l'importance numérique du bloc. Mais, alors les blocs moins fréquents auraient vu leur taux individuel décroître rapidement en dessous des 10 %, le taux global devenant par ailleurs largement supérieur à celui obtenu ici. La figure 4.8 montre que le nombre de familles séquentielles obtenues est raisonnable.

Nous pouvons noter que ce ne sont pas les blocs des structures répétitives les mieux prédits; le bloc protéique m (hélice $\alpha$) a un taux de 50,6 % et le bloc protéique d (feuillet $\beta$) de 34,6 %, le PB a, une entrée en feuillet $\beta$, atteint lui un taux de 53,2 %.




Page 85

(c) 2001- Alexandre de Brevern