Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Utilisation des Z-scores pour Au-dessus: Relation entre blocs protéiques Précédent: Relation entre blocs protéiques

   
Quatre Exemples

La figure 3.13 montre la structure tridimensionnelle de fragments de 5 C$_{\alpha }$ associés à 4 blocs protéiques caractéristiques. Ils sont visualisés à l'aide du logiciel XmMol développé par P. Tufféry [194]. Sont donc représentés les blocs protéiques p, b, d et m, ainsi que leurs matrices d'occurrences normalisées en Z-scores (cf. paragraphe 3.3.5.2) et le KLd associé (cf. paragraphe 3.3.5.1).


 \begin{sidewaysfigure}% latex2html id marker 1722
\begin{center}
\centerline{\ep...
...ofils KLd
associ\'es \\lq a chaque type de blocs.}
\end{center}\end{sidewaysfigure}

Les blocs protéiques m, p et d ont une valeur de RMSd moyen assez faible (0,43 Å, 0,46 Å et 0,48 Å respectivement). Le PB b est légèrement plus variable avec un RMSd moyen de 0,51 Å. Cette variabilité est due principalement à une plus grande variabilité à ses extrémités.

L'analyse de la répartition des acides aminés est simplifiée avec l'utilisation des Z-scores. Les matrices ont été seuillées. Ainsi les rectangles noirs indiquent un Z-score > 4,4; inversement pour un rectangle blanc, un Z-score < -4,4. Ce seuil correspond à une erreur de type I avec une probabilité p inférieure à 10-5. Les zones en gris correspondent à un Z-score intermédiaire.

De même, l'analyse du KLd qui exprime la dissimilarité entre la distribution présente dans chaque matrice d'occurrence et la distribution dans la base de données, permet de définir les positions les plus informatives dans un bloc donné. Les 4 blocs protéiques de la figure 3.13 sont représentatifs de l'ensemble des 16 blocs protéiques. Ils ont été ordonnés en fonction de leur valeur de KLd maximale.

Le bloc protéique p est caractérisé par sa position centrale avec une sur-représentation de Glycine et d'Asparagine. Les sous-repésentations sont aussi importantes que les sur-représentations à cette position. Le KLd montre un profil très pointu (KLd = 0,55). Le bloc b possède lui un profil en cloche à fromage cinq fois moins accentué que le précédent avec un KLd maximum de 0,08. En contre-partie de cette diminution de l'importance d'un site, d'autres sites deviennent informatifs dans l'ensemble de l'intervalle [-2:+2] et plus seulement sur la seule position centrale. En parallèle de la diminution des valeurs de Kld, la spécificité en acides aminés devient plus complexe à voir, on peut observer des sur- et sous-représentations alternées de Proline et de Glycine.

Le bloc protéique d correspond à un feuillet $\beta$ régulier. Le profil du KLd est différent des précédents avec un KLd maximum de 0,06 sur le résidu central et une décroissance symétrique des deux côtés. Une forte différence dans les valeurs de Z-scores entre les Z-scores à l'intérieur et à l'extérieur du bloc structural [-2:+2] est observée. Les sur-représentations concernent principalement certains résidus hydrophobes Isoleucine et Valine et dans une moindre mesure la Phénylalanine, la Tyrosine, le Tryptophane et la Thréonine dans le bloc structural. Les sous-représentations concernent principalement des résidus polaires comme la Lysine, l'Arginine, l'Aspartate, la Glutamine et l'Asparagine; et à l'extérieur du bloc structural la Glycine et la Proline, ce qui est classique [90].

Le bloc protéique m, comme le bloc d, a un profil de KLd particulier. La majorité de la spécificité de la séquence se trouve dans la partie centrale et correspond aux 5 C$\alpha$ des positions -2 à +2 avec un KLd maximum de 0,05. Nous observons une sous-représentation des résidus aliphatiques, tels que la Leucine, la Méthionine, l'Alanine, et des résidus polaires, tels que la Glutamine, le Glutamate, l'Arginine, l'Aspartate et la Lysine. La sous-représentation des casseurs d'hélices $\alpha$que sont la Proline et la Glycine est importante à l'intérieur de la fenêtre structurale. Il en est de même pour l'Histidine et l'Asparagine sur l'ensemble de la fenêtre de 15 résidus [154,145,113].

Un autre type de profil existant est un profil bimodal caractéristique de certains blocs, le BPc (maximum en positions -2 et +2), BPe (positions -1 et +1), BPl (positions -2 et 0), BPk (positions -1 et +1) et BPp (positions 0 et +2). Ces positions sont principalement des casseurs de structures répétitives.


Prochain up previous
Prochain: Utilisation des Z-scores pour Au-dessus: Relation entre blocs protéiques Précédent: Relation entre blocs protéiques

Page 67

(c) 2001- Alexandre de Brevern