Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Nous nous sommes intéressés aux mots (i.e. succession) de 5 blocs protéiques,
ce qui représente 9 C soit
la taille moyenne d'un feuillet
avec entrée et sortie complète.
La base de données est celle utilisée auparavant (342 protéines ayant moins de 25% d'identité de séquence).
L'ensemble des structures protéiques a été recodée en BPs selon la règle du RMSda minimal.
Le réseau que l'on désire
construire est un graphe orienté. Un graphe G correspond à un ensemble T de
nuds ("vertices") et d'un ensemble E de segments ("edges") qui les relient.
Le graphe est orienté si chaque
segment possède une seule direction, G(V,E).
Dans notre étude, chaque n
ud de l'ensemble V est caractérisé
par un bloc protéique, et chaque lien orienté une transition entre deux blocs protéiques.
L'objectif est de caractériser le graphe orienté des séries de blocs protéiques les plus
fréquemment observés dans une base de structures protéiques. Pour réaliser cet objectif,
les séries de 5 blocs protéiques les plus fréquents (fréquence supérieure à 150 observations
soit 0,18 % de la base étudiée)
ont été sélectionnés, puis en se basant sur un principe de séquentialité, le graphe
orienté a été construit. Un motif de 5 blocs est représenté par un sous-graphe orienté. Par exemple, le motif
mnopac est décrit par le sous-graphe m
n
o
p
a
c.
Le principe de séquentialité consiste à
trouver dans la liste des motifs ceux dont les 4 derniers blocs d'une série se retrouvent dans les
4 premières d'une autre série, (a1
a2
a3
a4
a5) et
(a2
a3
a4
a5
a6) devient
(a1
a2
a3
a4
a5
a6).
Par exemple, le motif mnopa est suivi par le motif nopac par continuité.
Par superposition des sous-graphes, le graphe est étendu. Le sous-graphe devient
dans ce cas m
n
o
p
a
c.
Le graphe peut présenter des bifurcations, une série
étant suivie par plusieurs séries distinctes, ainsi, le motif mnopa est suivi par deux motifs nopac et
nopaf dans des proportions respectives de 68 et 32 %.
Les structures secondaires répétitives hélices et
feuillets sont considérées chacune comme un seul n
ud retournant sur lui même ainsi la
succession fklmmmmmmmmmmnop se traduira par la succession des n
uds fkl(m*)nop.
La répétitivité
des blocs sera notée par une étoile.
Cette méthode va nous permettre de bien mettre en relief des transitions à plus longue distance.
(c) 2001- Alexandre de Brevern