Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Utilisation d'un réseau de Au-dessus: Peu de blocs protéiques Précédent: Peu de blocs protéiques

Utilisation d'un regroupement hiérarchique (Rooman el al., 1990)

Les travaux de Rooman et collaborateurs ont consisté en l'obtention d'un petit nombre de blocs structuraux, représentant pertinement la base de données. Ces blocs sont de taille fixe, mais plusieurs longueurs ont été étudiées (1990, [162]). Ils ont été ensuite utilisés dans une méthode de prédiction de la structure protéique à partir de la séquence; les auteurs ont surtout mis en parallèle ces blocs et les structures secondaires (1990, [163]).

La base de données utilisée se compose de 75 protéines ayant une bonne résolution et possédant peu de similitude de séquence. Cela représente à 12 978 résidus.

La méthode d'apprentissage se base sur une classification hiérarchique qui utilise comme critère de distance entre fragments protéiques le RMSd (cf section 2.3.2.1). Dans un premier temps, les fragments de taille L sont tous comparés deux à deux grâce au RMSd sur les C$_{\alpha }$ du squelette polypeptidique. Ensuite, une classification hiérarchique est effectuée.

Des longueurs L allant de 4 à 7 C$_{\alpha }$ ont été testées, et, pour chaque longueur, 4 groupes distincts ont été déterminés. La table 2.7 récapitule le nombre d'observation et le RMSd moyen de chaque groupe. J'ai ajouté la fréquence relative pour avoir une idée de la contribution de chaque bloc.


 
Tableau 2.7: Nombre d'observations (N.obs.) pour chaque bloc obtenu, avec sa fréquence relative (freq. rel.) et le RMSd moyen (Figure3. p.332-333 [162])
  N.obs. freq. rel. RMSd moyen (Å)
$\eta_4$ 4858 38,1 0,33
$\epsilon_4$ 1795 14,1 0,24
$\zeta_4$ 3151 24,7 0,39
$\lambda_4$ 2949 23,1 0,60
$\eta_5$ 3917 31,0 0,48
$\epsilon_5$ 2639 20,9 0,44
$\zeta_5$ 3377 26,7 0,82
$\lambda_5$ 2700 21,4 1,07
$\eta_6$ 3645 29,1 0,76
$\epsilon_6$ 4845 38,7 1,00
$\zeta_6$ 1246 10,0 1,08
$\lambda_6$ 2779 22,2 1,32
$\eta_7$ 3997 32,2 1,14
$\epsilon_7$ 3469 27,9 1,06
$\zeta_7$ 2652 21,5 1,67
$\lambda_7$ 2284 18,4 1,56
 


  

Sur les 4 classes observées pour chaque longueur, la famille $\lambda$ représente toujours un ensemble exclusivement boucles, la famille $\eta$ étant composée d'hélices $\alpha$, la famille $\zeta$ de boucles et de feuillets $\beta$ et la famille $\epsilon$ de feuillets $\beta$. Cette classification hiérarchique est utilisée ensuite pour discriminer différentes familles protéiques. La figure 2.13 donne les valeurs des angles $\phi $ et $\psi $ obtenues. Je les ai caculées à partir de la figure 3 p.333 [162] pour pouvoir comparer mon alphabet avec le leur.

Dans un second temps [163], le lien existant entre ces structures et les séquences a été recherché. Pour cela, un travail important de formalisme de la significativité d'une séquence a été effectué. Chaque succession de 7 résidus a été traitée sous la forme x - my - nz, avec x, y et z des acides aminés déterminés compris dans une séquence de longueur 7, avec n+m=4 (7-3), n et m variant donc, entre 1 et 3, et représentant n'importe quel acide aminé. Les occurrences conservées sont représentatives à la fois de la séquence (un nombre d'occurrence supérieur à trois) et la structure (associée majoritairement à un type de structure donnée). Ce type de représentation avec des acides aminés non déterminés vient de la taille limitée de la base de données [164] et d'un précédent travail sur certaines formes de coudes [158].

Avec cette approche, les auteurs trouvent à partir de la séquence, un taux de prédiction compris entre 41% et 47%. Ce taux est à mettre en comparaison avec les taux des structures secondaires de l'époque qui avoisinent 60% pour 3 états [62,65], alors que les blocs en proposent 4. En parallèle de cette observation, ils trouvent un plus grand déterminisme dans les séquences observées avec leurs 4 blocs pour une longueur L=6, mais en contre-partie un bruit de fond, lui aussi accentué. Aucune amélioration de la prédiction n'est donc observée.

Ainsi, les blocs obtenus sont fortement liés aux structures secondaires répétitives. Le choix du nombre final de blocs peut porter à critiques. Il ne permet pas, comme pour les structures secondaires, de reconstruire directement une structure protéique à partir de cette information. La taille de la base de données est pour beaucoup dans le taux final de prédiction.

Par la suite, seule la méthode de prédiction, mais appliquée aux structures secondaires, sera réutilisée [159] et mise en oeuvre dans une recherche basée plus spécifiquement pour une recherche à partir de coordonnées extraites de 7 régions dans la carte de Ramachandran [159,160] et avec utilisation de protéines homologues [161].


Prochain:Utilisation d'un réseau de Au-dessus:Peu de blocs protéiques Précédent:Peu de blocs protéiques

Page 32

(c) 2001- Alexandre de Brevern
Figure 2.13: Représentation des angles des 4 blocs de (a) longueur 4, (b) longueur 5, (c) longueur 6 et (d) longueur 7 (recalculés à partir de la figure3. p.331-332 [162]).