Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
L'intérêt principal de MPH appliqué séries de blocs protéiques est bien sur la compaction d'une base de donnée structurale. Toutefois, l'utilisation de la protéine hybride n'est pas limitée qu'à ce seul point. En chaque position, un ensemble de fragments proches se trouve localisé. Donc, si l'on recherche des fragments similaires courts d'un point de vue structural il suffit de trouver la position correspondante sur la protéine hybride. Pour trouver des fragments plus longs, le principe est identique. Des fragments longs et similaires structuralement seront théoriquement localisés aux mêmes positions sur la protéine hybride. En outre, la continuité étant forte, ces positions seront souvent consécutives.
Nous avons donc mis au point une méthode qui tient compte de ces concepts pour rechercher des fragments structuraux proches. La figure 6.8 explicite l'ensemble du processus. Une première étape consiste à recoder la structure tridimensionnelle des protéines en blocs protéiques. A ce niveau simple, la recherche d'homologie est difficile, les structures répétitives gênant particulièrement la recherche. Aussi, la méthode utilise directement la protéine hybride.
![]() |
Les séries de blocs, structures locales sont recodées en position sur le protéine hybride. Ensuite, un dotplot est calculé. Un dotplot est une matrice de taille N1 par N2 avec N1 longueur de la première protéine sur N2 longueur de la seconde protéine. Cette matrice est remplie comme suit :
Dans un premier temps, le dotplot est une matrice composée de 0 et de 1.
Cette information doit donc être travaillée pour ne conserver que
les plus longues successions identiques.
Ainsi, le dotplot est filtré en ne conservant que les diagonales de
longueur G où un nombre H de points est égal à 1.
Travaillant sur des protéines proches, H a été pris égal à G.
Au départ G a été pris élevé pour extraire les diagonales les plus longues,
puis progressivement a été réduit.
Les deux protéines étant proches et ayant des longueurs comparables entre 400 et 450 acides aminés,
l'extraction des diagonales n'a été effectuée que dans une zone médiane [-,+
].
Cela veut dire que pour une position c d'une protéine, la recherche de similitude
s'est focalisée dans une région [c-
,c+
] de la seconde
protéine et inversement.
était fixé à 50 résidus.
En outre, quand une diagonale était sélectionnée, les zones correspondantes
dans les deux protéines n'étaient plus réutilisées ce qui permet de construire des
véritables séries de fragments similaires distincts.
Enfin, pour vérifier que le fait de passer par les blocs protéiques, puis le recodage par la protéine hybride n'entraîne pas de faux positifs, chaque couple de fragments similaires a été superposée et le RMSd résultant calculé. Cette approche permet ainsi la recherche de structures possédant un repliement proche.
(c) 2001- Alexandre de Brevern