Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Avec les 26 matrices obtenues par l'utilisation des familles séquentielles, le taux de pédiction Q(1)* est passé à 40,7 %, en conservant les deux solutions les plus probables (Q(2)*), le taux est de 57,5 %, soit 5,4 % de gain par rapport à l'approche Bayésienne simple, de même Q(4)* = 75,8 % (gain de 4,4 %) et atteint 90,2 % pour Q(7)*, soit un gain d'un rang pour le même taux de probabilité.
![]() |
La figure 4.8 montre, comme la figure 4.5 pour la prédiction bayésienne simple, l'évolution du taux de prédiction individuel des BPs en fonction du nombre de solutions conservées. L'effet de concentration des blocs dans un intervalle plus restreint est obtenu. L'écart entre le BP le meilleur et le plus mal prédit est passé de 47,2 % à 26,2 % avec une augmentation du taux de prédiction du BPb de 13,1 % à 27,0 % et une diminution de celui du BPa de 60,3 % à 53,2 %, ce dernier n'ayant pas été divisé.
![]() |
La figure 4.9 montre la différence qui existe entre le taux de prédiction initial
Q(1) indiqué en abscisse et la différence entre ce taux et Q(1)*obtenu par les familles. Cette figure montre bien que le gain concerne la majorité des protéines,
95 % ont gagné en taux de prédiction.
Maintenant 51,4 % des protéines ont un taux de prédiction supérieur à 40 % contre moins de 21 % auparavant.
Ce gain n'est pas équivalent selon le type de
protéine ainsi en moyenne les protéines tout- ont un gain de 9,1 %
(37,3% contre 46,4 %), les tout-
ont un gain plus faible de 3%, (30,2 % contre 33,2 %),
les
+
ont un gain de 4.9% (35,7 % - 40,6 %),
et 4,8% pour les non-classifiées (33, 9% - 38,7%).
Globalement, on observe une augmentation des taux de prédiction pour les blocs ayant plusieurs familles séquentielles et en contre-partie une diminution pour les autres. Toutefois, cette diminution est faible. Il aurait été simple d'augmenter artificiellement les taux de prédiction des blocs les plus fréquents en les sub-divisant encore plus, jouant ainsi sur l'effet de l'importance numérique du bloc. Mais, alors les blocs moins fréquents auraient vu leur taux individuel décroître rapidement en dessous des 10 %, le taux global devenant par ailleurs largement supérieur à celui obtenu ici. La figure 4.8 montre que le nombre de familles séquentielles obtenues est raisonnable.
Nous pouvons noter que ce ne sont pas les blocs des structures répétitives les
mieux prédits; le bloc protéique m (hélice ) a un taux de 50,6 %
et le bloc protéique d (feuillet
) de 34,6 %, le PB a,
une entrée en feuillet
, atteint lui un taux de 53,2 %.
(c) 2001- Alexandre de Brevern