Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Le but de cette étude est de définir un ensemble de prototypes pour approximer la structure tridimensionnelle des protéines en tenant compte principalement des transitions entre ces prototypes. Ils sont appelés blocs structuraux pour la reconstruction (Structural Building Blocs ou SBBs) [23]. La base de données est composée de 100 protéines ayant moins de 25 % de similitude de séquences [84,83], soit 19 317 résidus.
La méthode se base sur l'utilisation des Chaînes de Markov Cachées (CMC, ou Hidden Markov Model, HMM)
[149,22] et utilise comme descripteur de la structure des protéines des
distances entre C
et une projection dans un plan. Les fragments
de la base de données ont été découpés en fragments chevauchants
d'une longueur de 4 résidus. La figure 2.15 montre
les 3 distances utilisées: distance d1 entre le C
et le C
,
distance d2 entre le C
et le C
et distance d3 entre le C
et le C
.
Une quatrième distance est calculée.
Il s'agit de la distance d4
qui est une projection du C
dans le plan défini par les C
, C
et C
.
Cette dernière distance est normalisée par le produit des deux premières distances.
Elle permet de donner la direction du fragment.
Si d4 est proche de 0, le fragment est allongé,
sans volume, sinon il décrit une certaine torsion.
![]() |
Le modèle est complexe. Il tend à maximiser le passage d'un état i à un nombre d'états limités. Il demande l'établissement au préalable d'un type de loi. Ici, la dispersion des observations associées à chaque état (SBB) a été considérée comme gaussienne.
|
Après avoir testé plusieurs possibilités, Camproux et collaborateurs [23]
ont décidé de conserver un jeu de 12 blocs protéiques.
L'Analyse en Composantes Principales (ACP) effectuée sur la base de données codée suivant les 4 distances
montre certaines tendances distinctes suivant les types de structures secondaires.
La figure 2.16 montre le nuage de point associé à chaque bloc obtenu.
On voit clairement l'efficacité de la méthode pour bien discriminer les différents groupes qui sont tous bien compacts.
Deux SBBs sont caractéristiques des hélices
Un des intérêts des CMC est l'apprentissage basé sur les transitions.
Ainsi la figure 2.17
montre le graphe des transitions existantes entre les 12 SBBs, pour des occurrences supérieures à 100.
La figure 2.19 montre la protéine de liaison au L-arabinose (code PDB: 8abp) colorisée à gauche
suivant les SBBs, à droite suivant la définition classique des structures secondaires.
On observe ainsi nettement la bonne correspondance entre les deux types d'information avec des
changements ponctuels. Cette figure montre l'intérêt de ce type d'approche
qui permet de bien distinguer, par exemple, le début d'une hélice
assigné à un bloc
Une information pertinente à prendre en compte est alors la distribution en acides aminés.
Les distributions classiques associées aux structures répétitives sont retrouvées,
comme des acides aminés hydrophobes associés au bloc
Deux travaux distincts ont suivi l'élaboration de cet alphabet structural, tout
deux portant sur une analyse des parties boucles entre deux structures répétitives
, SBB
et SBB
, le premier représente
63,3 % des hélices
de la base de données, le second 28,3 %. Ils ne restent donc que 8,4 % des
hélices
assignées à un autre bloc. De même, deux SBBs sont caractéristiques des
feuillets
, SBB
et SBB
.
Le premier représente 57,6 % des feuillets
et le second 21,1 %. Il reste donc 21,6 % des feuillets associés à un autre bloc.
Deux SBBs sont particulièrement liés aux boucles, les SBBs
et
.
Les autres sont liés à des entrées et/ou des sorties de structures répétitives.
Les SBBs obtenus sont particulièrement stables d'un point de vue structural avec des RMSd compris
entre 0,15 Å et 1,4 Å.
(encore noté
) possède 5 transitions possibles vers
un autre type de SBB. Ce type d'apprentissage permet d'apprendre en suivant les transitions,
mais sans focalisation excessive quand cela n'est plus possible.

colorié en jaune.
. Le SBB
du fait
de sa composition en Acide Aspartique, Proline et Acide Glutamique semble être plutôt un coude
.
Le seul point véritablement critique est la longueur des blocs.
4 C
ne permet pas l'établissement de liaisons hydrogénes.
et/ou
[24,21].
Prochain: Une méthode d'apprentissage sur
Au-dessus: Peu de blocs protéiques
Précédent: Utilisation d'un réseau de
Page 34