Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: Une méthode d'apprentissage sur Au-dessus: Peu de blocs protéiques Précédent: Utilisation d'un réseau de

Utilisation des Chaînes de Markov Cachées (Camproux et al., 1999)

Le but de cette étude est de définir un ensemble de prototypes pour approximer la structure tridimensionnelle des protéines en tenant compte principalement des transitions entre ces prototypes. Ils sont appelés blocs structuraux pour la reconstruction (Structural Building Blocs ou SBBs) [23]. La base de données est composée de 100 protéines ayant moins de 25 % de similitude de séquences [84,83], soit 19 317 résidus.

La méthode se base sur l'utilisation des Chaînes de Markov Cachées (CMC, ou Hidden Markov Model, HMM) [149,22] et utilise comme descripteur de la structure des protéines des distances entre C $_{\alpha }$ et une projection dans un plan. Les fragments de la base de données ont été découpés en fragments chevauchants d'une longueur de 4 résidus. La figure 2.15 montre les 3 distances utilisées: distance d₁ entre le C $\alpha_i$ et le C $\alpha_{i+2}$ , distance d₂ entre le C $\alpha_i$ et le C $\alpha_{i+3}$ et distance d₃ entre le C $\alpha_{i+1}$ et le C $\alpha_{i+3}$ . Une quatrième distance est calculée. Il s'agit de la distance d₄ qui est une projection du C $\alpha_{i+3}$ dans le plan défini par les C $\alpha_i$ , C $\alpha_{i+1}$ et C $\alpha_{i+2}$ . Cette dernière distance est normalisée par le produit des deux premières distances. Elle permet de donner la direction du fragment. Si d₄ est proche de 0, le fragment est allongé, sans volume, sinon il décrit une certaine torsion.

**Figure 2.15:** Les 3 distances inter-C $_{\alpha }$ et la projection décrivant les fragments de longueurs 4, avec d₁ distance entre C $\alpha_i$ et C $\alpha_{i+2}$ , d₂,C $\alpha_i$ et C $\alpha_{i+3}$ et d₃,C $\alpha_{i+1}$ et C $\alpha_{i+3}$ , la distance d₄ est une projection du C $\alpha_{i+3}$ dans le plan C $\alpha_i$ , C $\alpha_{i+1}$ , C $\alpha_{i+2}$ .

Le modèle est complexe. Il tend à maximiser le passage d'un état i à un nombre d'états limités. Il demande l'établissement au préalable d'un type de loi. Ici, la dispersion des observations associées à chaque état (SBB) a été considérée comme gaussienne.

**Figure 2.16:** Représentation des 12 SBBs suivant les deux premières composantes principales de l'ACP effectuée sur les 4 distances décrites (cf. figure 2.15).

Figure 2.17: Graphe de transition entre les 12 SBBs. Seules les occurrences supérieures à 100 sont représentées, avec en rouge, les SBBs des hélices alpha, en rosé, les SBBs Nterminaux des hélices alpha, en gris les SBBs impliqués dans les boucles, en vert, les SBBs des feuillets beta et en bleu les SBBs aux extrêmités des feuillets beta.

Après avoir testé plusieurs possibilités, Camproux et collaborateurs [23] ont décidé de conserver un jeu de 12 blocs protéiques.

L'Analyse en Composantes Principales (ACP) effectuée sur la base de données codée suivant les 4 distances montre certaines tendances distinctes suivant les types de structures secondaires. La figure 2.16 montre le nuage de point associé à chaque bloc obtenu. On voit clairement l'efficacité de la méthode pour bien discriminer les différents groupes qui sont tous bien compacts.

Deux SBBs sont caractéristiques des hélices , SBB $\alpha_1$ et SBB $\alpha_2$ , le premier représente 63,3 % des hélices de la base de données, le second 28,3 %. Ils ne restent donc que 8,4 % des hélices assignées à un autre bloc. De même, deux SBBs sont caractéristiques des feuillets , SBB $\beta_1$ et SBB $\beta_2$ . Le premier représente 57,6 % des feuillets et le second 21,1 %. Il reste donc 21,6 % des feuillets associés à un autre bloc. Deux SBBs sont particulièrement liés aux boucles, les SBBs $\gamma_1$ et $\gamma_2$ . Les autres sont liés à des entrées et/ou des sorties de structures répétitives. Les SBBs obtenus sont particulièrement stables d'un point de vue structural avec des RMSd compris entre 0,15 Å et 1,4 Å.

Un des intérêts des CMC est l'apprentissage basé sur les transitions. Ainsi la figure 2.17 montre le graphe des transitions existantes entre les 12 SBBs, pour des occurrences supérieures à 100.

Figure 2.18: Matrice de transition entre les 12 SBBs.

La polarité existante entre les SBBs est extrêmement marquée. La matrice de transition représentée sur la figure 2.18 montre clairement le regroupement qui existe entre chaque groupe de SBBs qui suit bien les structures secondaires mais avec une certaine flexibilité. Ainsi le bloc $\beta_{+}$ (encore noté $\gamma_{\beta}$ ) possède 5 transitions possibles vers un autre type de SBB. Ce type d'apprentissage permet d'apprendre en suivant les transitions, mais sans focalisation excessive quand cela n'est plus possible.

Figure 2.19: Comparaison entre l'attribution par les 12 SBBs à gauche et les structures secondaires à droite avec l'aide du logiciel XmMol [194].

La figure 2.19 montre la protéine de liaison au L-arabinose (code PDB: 8abp) colorisée à gauche suivant les SBBs, à droite suivant la définition classique des structures secondaires. On observe ainsi nettement la bonne correspondance entre les deux types d'information avec des changements ponctuels. Cette figure montre l'intérêt de ce type d'approche qui permet de bien distinguer, par exemple, le début d'une hélice assigné à un bloc $\alpha_+'$ colorié en jaune.

Figure 2.16: Fréquences des acides aminés en chaque SBB pour les 4 positions. Les fréquences sont normalisées en Z-scores (bleu sur-représentation, en rosé sous-représentation). Les couleurs pâles représentent des Z-scores dont la valeur absolue est comprise entre 2 et 4, les autres sont supérieures à 4.

Une information pertinente à prendre en compte est alors la distribution en acides aminés. Les distributions classiques associées aux structures répétitives sont retrouvées, comme des acides aminés hydrophobes associés au bloc $\alpha_1$ . Le SBB $\alpha_2$ du fait de sa composition en Acide Aspartique, Proline et Acide Glutamique semble être plutôt un coude . Le seul point véritablement critique est la longueur des blocs. 4 C $_{\alpha }$ ne permet pas l'établissement de liaisons hydrogénes.
Deux travaux distincts ont suivi l'élaboration de cet alphabet structural, tout deux portant sur une analyse des parties boucles entre deux structures répétitives et/ou [24,21].

Prochain: Une méthode d'apprentissage sur Au-dessus: Peu de blocs protéiques Précédent: Utilisation d'un réseau de
Page 34

(c) 2001- Alexandre de Brevern