Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Pour mieux expliciter l'intérêt des stratégies, l'exemple suivant montre un exemple de la prédiction
et le rôle du Neq.
Le tableau 4.2 donne les prédictions des 18 premières positions de la protéine
de conjugaison à l'ubiquitine (cf. paragraphe 3.3.2.4), avec la fenêtre de 15 résidus
correspondant au 5 C du bloc et aux 5 résidus présents de part et d'autre de cette fenêtre.
Cette partie N-terminale est composée d'une hélice
formée par 10 blocs protéiques m
suivi par une boucle de 7 blocs qui mène à un feuillet
.
Cet exemple est basé sur l'utilisation des familles séquentielles précédemment décrite.
Chaque ligne correspond à une séquence, par exemple, la cinquième fenêtre
centrée sur MRDFK est assignée au bloc protéique m.
Les trois premières solutions ont été ordonnées suivant leur score de prédiction
Rk, pour BP m, BP f et BP b, leurs scores respectifs étant de
22,13, 1,25 et 0,40.
Ainsi, le premier score indique que la probabilité du bloc m
est 22,13 fois plus élevée que celle d'avoir ce bloc de façon purement aléatoire.
En cette position, la prédiction est correcte.
Les scores élevés des premières positions sont justifiés par la présence
de résidus Leucine, Méthionine, Arginine, Lysine, Aspartate et Leucine en position
(-3), (-2), (-1), (+2), (+3) et (+4).
De même, le BP f est classé en seconde position du fait de la
prsence de l'Aspartate en position centrale de la fenêtre.
En ne conservant que les premiers rangs, 10 blocs protéiques sont
correctement prédits sur 18.
Sur l'ensemble des protéines, le taux de prédiction Q(1)* est de 40,8%.
Sans tenir compte des familles séquentielles, il était de 30,4%, soit un gain de plus de 10%.
Classiquement, les taux de prédiction ne sont calculés que pour les solutions optimales.
Mais, en observant, les solutions des trois premiers rangs, 17 des 18 blocs y sont.
La position erronée correspond à une fin d'hélices qui possède une composition inhabituelle en acides aminés, KRLQQDPPA en [-4;+4].
Aussi, au lieu de ne prendre en compte que les premiers rangs,
une approche pertinente revient à examiner les taux de prédiction Q(r) pour un rang donné r.
Le Neq permet de quantifier cette dispersion parmi les scores.
Ainsi dans la première partie de l'hélice ,
le Neq varie entre 2,06 et 3,78; il est ainsi corrélé avec une bonne prédiction.
Inversement, à la fin de l'hélice
, la probabilité de trouver le bloc protéique réel
décroît alors que le Neq augmente au-delà de 4,82.
Les sites sont de moins en moins informatifs.
Des Neq intermédiaires sont observés pour les 7 derniers résidus, le nombre de rang
à conserver est alors de 2.
Cet exemple montre l'intérêt des stratégies de prédiction basées sur un nombre variable de blocs sélectionnés par site.
(c) 2001- Alexandre de Brevern