Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
La seconde stratégie diffère de la précédente qui prenait un nombre variable de blocs protéiques sur l'ensemble de la protéine, en utilisant un nombre constant de blocs sur une partie de la protéine. Ainsi, un taux de prédiction Ql est garanti pour r blocs choisis. La figure 4.11 montre chaque valeur de Neq et pour un nombre r variant de 1 à 5. Pour calculer ces courbes, les sites compris entre 1 et chaque valeur de Neq ont été conservés et le taux de prédiction associé calculé. Cet étude a été répétée depuis r=1 (juste le premier rang, le plus probable des blocs) jusqu'au 6 premiers rangs inclus.
Pour donner un exemple, si l'on désire avoir 70 % des sites le Neq doit être inférieur à 4,8. En sélectionnant 1 (de même 2, 3 et 4) rang(s), le taux de prédiction associé est de 46,8 % (de même 63,4 % 73,1 % et 79,6 %). De la même manière pour un taux de prédiction donné de 80 %, le Neq est de 1,28 et 5,5 % des sites seront sélectionnés avec un seul rang; ils passent respectivement à 1,6 et 11,5 % pour les deux premiers rangs, 2,6 et 26,9 % pour les trois premiers, et, 4,6 et 66,4 % pour les quatres premiers.
La figure 4.12d est un exemple de cette stratégie appliquée à la protéine 1aak, les zones prises en compte représentent un taux de prédiction Ql de 75%, en conservant 3 rangs. Le Neq correspondant est alors inférieur à 5,11. 62 ont été sélectionnés, les points en dessous montrent les 49 positions où le bloc réel se trouve parmi les blocs sélectionnés. Le taux final de prédiction est de 79 % pour 46,3 % des sites de la protéine pris en compte. En comparant avec la précédente approche, il est clair que prendre 3 blocs de manière fixe est un excès. De la même manière avec r = 4 et Ql = 75 %, 52 % des résidus de la protéine sont alors utilisés.
La figure 4.12e montre la même stratégie pour Ql=70 % et r = 3 rangs. En utilisant un Neq maximal de 6,32, 122 sites, soit 91 % des sites de la protéine ont été sélectionnés et 95 de ces sites possèdent le bloc réel parmi ceux choisis soit un taux de prédiction de 77,9 %.
Ainsi, cette stratégie permet de localiser les sites les plus prédicitibles, cependant une recherche préalable doit être menée quand au nombre r de rangs qui doit être sélectionné. Par exemple, pour un taux de prédiction de Ql=70 %, la proportion des sites sélectionnés augmente fortement avec un passage de r =2 à 3 rangs. (une augmentation de 49 %). Pour de future application de ces stratégies, comme dans des méthodes ab initio, le choix du nombre de blocs sélectionnés par site pose un certain problème : augmenter le nombre de rangs conservé r permet une prise en compte d'une plus grande partie des sites, mais aussi induit une combinatoire plus complexe pour reconstruire un modèle moléculaire.
(c) 2001- Alexandre de Brevern