Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Les autres formes régulières Au-dessus: La structure secondaire Précédent: La structure secondaire

hélices et feuillets

Hélice $\alpha$ et feuillet $\beta$ sont les deux formes répétitives les plus importantes des protéines représentant chacune respectivement 30 et 20 % des résidus. Cette importance vient de leur stabilité énergétique particulière [184].

Les hélices $\alpha$ tournent dans le sens dit "main droite". Les chaînes latérales sont situées à l'extérieur de l'hélice. L'ensemble s'inscrit dans un cylindre de 10,5 Å de diamètre, le tour de spire ou pas de l'hélice fait 5,4 Å soit 3.6 résidus. L'hélice $\alpha$ est une structure thermodynamiquement stable du fait de nombreuses liaisons hydrogènes entre groupements amines (NH2) et carboxyles(C=O). La figure 2.5a montre la structure de l'hémoglobine (code PDB : 1bbb) qui est une protéine pratiquement tout-$\alpha$, ces hélices assurent intégralement la fonction biologique de la protéine. La figure 2.5b montre le domaine 3 de l'hélicase de Escherichia coli (code PDB: 1cuk) qui est un domaine comportant trois hélices $\alpha$. La figure 2.5c montre le squelette de la chaîne polypeptidique. La répétitivité du motif est nette, les groupements carboxyles sont presque parallèles. Les liaisons hydrogènes existantes entre les résidus sont indiquées en pointillés. Ce sont des liaisons entre l'oxygène d'un résidu en position i et le groupement azoté d'un résidu en position i+4; cette liaison est notée [i:i+4].


  
Figure 2.5: a. Une proteine composée en majorité d'hélice $\alpha$, la 1bbb (les hélices sont en rouges et maintiennent les hèmes). b. Squelette de la première hélice d'une hélicase de Escherichia coli (code PDB: 1cuk). c. Les liaisons entre les résidus 154 à 163 de cette protéine sont indiquées en pointillés.
1bbb  1cukdomain 3b liaison hélice alpha

Les hélices, malgré leur définition, ne sont pas des tubes rigides. Plus d'un quart des hélices $\alpha$ sont fortement non-régulières [3]. Un lien direct entre la longueur de l'hélice et son degré de courbure a d'ailleurs été déterminé [113].

Les hélices possèdent une composition en acides aminés particulière. De nombreuses études ont montré aussi l'existence d'acides aminés sur-représentés aux extrémités C- et N-terminales des hélices. Une dizaine de successions spécifiques qui forment des terminaisons stables et qui induisent ces fins d'hélices ont été caractérisées [154,2]. En plus des acides aminés classiques du type Proline ou Glycine, certains acides aminés ont un rôle structural dans ces motifs. Les Glycines se trouvent dans la zone des $\Psi$ positifs (cf. figure 2.4b). Les hélices sont présentes dans la zone des $\Phi$ et $\Psi$ négatifs. Certaines classes d'hélices $\alpha$ ont été étudiées du fait de leur importance fonctionnelle comme les hélices amphipatiques (ayant une face polaire et une autre non-polaire) [176].

Les feuillets sont moins stables thermodynamiquement que les hélices $\alpha$ [184]. Ils sont dus à un aller-retour de la chaîne polypeptidique qui fait que les segments deviennent adjacents. Ils se retrouvent dans la zone des $\Phi$ négatifs et $\Psi$ positifs (cf. figure 2.4b).

La figure 2.6a montre une porine, protéine tout-$\beta$transmembranaire, son ouverture permet le passage de divers solutés. La figure 2.6b représente le premier domaine de la protéine ldu TNF (code PDB : 1ext) d'Escherichia coli, où se trouvent plusieurs feuillets $\beta$. La figure 2.6c montre un agrandissement du feuillet comprenant les résidus 126-130 et 150-154. Les liaisons stabilisantes existant entre les groupements CO et NH ont été notées en pointillés. Quand les segments sont orientés dans des directions opposées, les feuillets sont dits anti-parallèles. S'ils sont orientés dans la même direction, ils sont dits parallèles.


  
Figure 2.6: (a) Représentation d'une porine, protéine fortement $\beta$, les feuillets sont en bleu. (b) Domaine 1 extracellulaire du récepteur au TNF (code PDB: 1ext) fortement $\beta$. (c) Liaisons stabilisant un feuillet $\beta$.
porine  proteine fortement beta liaison feuillet beta

Ces deux conformations ne font pas intervenir les chaînes latérales mais seulement le squelette polypetidique. Ceci distingue la structure secondaire de la structure tertiaire. Les hélices $\alpha$ représentent environ 30% des protéines, les feuillets $\beta$ environ 20%. Le reste est souvent dénommé boucles et a fréquemment été considéré comme variable. Toutefois, on trouve d'autres formes régulières.


 
Tableau 2.2: valeurs classiques des angles des hélices $\alpha$ et des feuillets $\beta$

structures

nombre de résidus par tours tours par résidu (Å) rayon(Å) $\Phi$ $\Psi$
hélices $\alpha$ 3.6 1.5 2.3 -57 -47

feuillets $\beta$ anti-parallèle

2.0 3.4 1.0 -139 135
feuillets $\beta$parallèle 2.0 3.2 1.0 -119 113

 


L'attribution des structures secondaires est souvent un problème délicat. Cinq méthodes d'assignation sont actuellement utilisées :

(a)
DSSP[100] (1983): Cette méthode est fondée sur une recherche des liaisons hydrogènes spécifiques des structures répétitives. Pour les hélices $\alpha$, DSSP observe les liaisons en positions (i,i+3) ou (i,i+4), alors que pour les feuillets $\beta$ des liaisons plus éloignées sont en jeu. DSSP ne prend en compte que des structures secondaires répétitives d'au moins 4 résidus de long.

(b)
DEFINE[156] (1988): Elle se base sur les distances entre carbones $\alpha$. Ces distances sont comparées à des distances de structures secondaires connues. Quand au moins 4 distances successives correspondent à un même type de structure secondaire, la structure secondaire est attribuée au fragment. Les auteurs décrivent des "super" structures secondaires, qui ne sont pas implémentées dans le logiciel disponible.

(c)
P-CURVE[181] (1989): Les protéines sont décrites par un axe global, qui suit au mieux le squelette de la protéine. Cet axe est calculé avec une fonction de minimisation qui prend en compte la position des atomes de la chaîne polypeptidique et qui passe au mieux entre eux. Les structures secondaires sont alors définies en comparant les données obtenues avec des segments de structures idéales pour chaque structure secondaire.

(d)
Consensus[31] (1993): Les trois méthodes précédentes se basent sur des critères distincts. Colloc'h et collaborateurs ont observé que les assignations qu'ils donnaient étaient parfois fort divergentes. Plus d'un tiers des résidus ne sont pas assignés de la même façon par les trois algorithmes. Ceci peut poser des problèmes, principalement pour la prédiction de ces structures. Les différences se situent principalement aux extrémités des structures répétitives qui sont traitées de manière différente selon les algorithmes. Les assignations incompatibles ("$\alpha$" pour un algorithme "$\beta$" pour un autre) sont en nombre négligeable. Le consensus revient à choisir dans les cas litigieux la solution donnée par deux algorithmes.

(e)
STRIDE[58] (1995): STRIDE ajoute un critère angulaire défini dans DSSP [100] au notion des liaisons hydrogènes qui sont normalement présentes dans les structures répétitives. Pour cela, les mesures adéquates sont directement reliées à celles utilisées dans des travaux cristallographiques. En plus des hélices $\alpha$ et des feuillets $\beta$, ils utilisent leur approche pour définir d'autres types de structures caractéristiques. Celles-ci seront développées dans le paragraphe suivant.

(f)
P-SEA[116] (1997): L'assignation des structures secondaires par P-SEA (pour Protein Secondary Element Assignement) s'effectue exclusivement sur les positions des carbones $\alpha$. Trois distances et deux angles sont calculés avec d2i pour la distance C $\alpha_{i-1}$ C $\alpha_{i_+1}$, d3i pour la distance C $\alpha_{i-1}$ C $\alpha_{i+2}$, d4i pour la distance C $\alpha_{i-1}$ C $\alpha_{i+3}$, les angles $\alpha_i$ décrivant les carbones i-1, i, i+1, i+2 et $\tau_i$ décrivant les carbones i-1, i, i+1. L'assignation se fait si les distances et/ou les angles correspondent à des valeurs types décrivant les hélices et les feuillets.

Comparaison entre les différents algorithmes :

L'ensemble de ces méthodes, à l'exception du consensus, dépend d'un certain nombre de définitions sur la valeur des angles ou des distances et des variations autorisées autour de ces valeurs. Les différentes méthodes d'assignation sont donc loin d'être équivalentes. La méthode consensus dérive d'ailleurs de cette constatation, seulement 64 % des résidus assignés par les trois méthodes DSSP, P-CURVE et DEFINE étant attribués au même type de structure secondaire, et propose de prendre en compte l'ensemble des 3 algorithmes précédents.


 
Tableau 2.3: Assignement comparé entre DSSP, P-CURVE, DEFINE, STRIDE et la méthode consensus pour chacun des trois types de structures secondaires avec P-SEA (Table II, page 293 [116]).
  DSSP P-CURVE DEFINE STRIDE concensus
  (%) (%) (%) (%) (%)
hélice 93,8 92,4 83,6 93,2 94,2
feuillet 78,4 74,4 66,8 77,5 79,4
boucles 79,3 80,6 84,4 81,2 85,1
Total 83,4 82,4 79,0 84,1 86,5
 


 
Tableau 2.4: Fréquence d'assignation commune (en %) entre différents algorithmes d'assignation de structures secondaires effectuée avec 906 chaînes issues de la base de données de R. Dunbrack possédant moins de 50% de similitudes de séquences. Les différentes versions des logiciels utilisés sont mises entre parenthèse avec P-SEA (version 2.0), P-CURVE (version 3.1), DSSP (version DsspCMBI-April-2000, modification du programme original en 1988 et 1994), STRIDE (version 1995) et DEFINE (version 2, 1994).
  PSEA DSSP STRIDE DEFINE PCURVE
PSEA --- 74,81 83,03 68,73 76,81
DSSP   --- 87,25 63,30 67,53
STRIDE     --- 66,43 73,53
DEFINE       --- 62,32
 

Le tableau 2.3 récapitule les attributions comparées suivant le type de structure assigné par P-SEA. De fortes différences sont visibles principalement pour les feuillets $\beta$ qui sont les plus difficiles à caractériser. Dans le tableau 2.4, j'ai récapitulé les concordances d'assignation entre les 5 algorithmes actuellement disponibles (PSEA, DSSP, STRIDE, DEFINE, PCURVE) pour une base de données de 906 chaînes protéiques possédant moins de 50% de similitudes de séquences. Les fichiers ne pouvant être analysés par un programme donné n'ont pas été pris en compte. Les résultats obtenus sont en forte concordance avec ceux de la littérature. Un maximum de similitude se trouve entre l'assignation effectuée par DSSP et STRIDE, ce qui est logique du fait de l'utilisation par STRIDE des valeurs angulaires définies dans DSSP. Le logiciel qui possède une assignation la plus divergente des autres méthodes est le logiciel DEFINE qui utilise uniquement des distances sur les C$_{\alpha }$. Sa notice d'utilisation dit d'ailleurs qu'il est loin d'avoir les critères optimaux nécessaires à l'assignation. Par ailleurs, il a le taux le plus élevé d'impossibilité de lecture de fichiers PDB.


Prochain: Les autres formes régulières Au-dessus: La structure secondaire Précédent: La structure secondaire

Page 7

(c) 2001- Alexandre de Brevern