Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Le choix de 16 BPs est adéquat pour analyser la structure tridimensionnelle des protéines. Deux BPs sont spécifiques des parties régulières des protéines, les autres blocs permettent ainsi de bien analyser les extrémités N- et C-terminales de ces structures. Quatre PBs sont même totalement localisés dans les parties "boucles". La correspondance avec les structures secondaires classiques sont bien retrouvées, mais les PBs permettent une analyse beaucoup plus poussée de l'ensemble des structures protéiques.
La prédiction de la structure 3D en termes de blocs protéiques
à partir de la séquence par une approche bayésienne
atteint un taux de 30,0 % avec une fenêtre initiale de 5 résidus.
L'agrandissement de cette fenêtre à 15 résidus permet un gain de 4,4 %.
La mise au point d'une méthode
de séparation des séquences (1 repliement local
n séquences ) en classes,
dites familles séquentielles, pour les blocs les plus fréquents permet
un taux final de prédiction de 40,7 %.
La spécificité séquentielle importante des blocs a
montré, en plus, de ce taux correct de prédiction,
que la majorité des blocs réels se trouvait parmi les plus
probables.
Ce fait a permis, en plus de la méthode bayésienne de prédiction,
de mettre en uvre deux stratégies basées sur cette information
(1 séquence
n repliements locaux): (i) une stratégie globale qui permet
de déterminer le nombre de blocs protéiques à conserver en chaque
site pour atteindre un taux de prédiction donné, (ii) une stratégie locale
qui permet de délimiter un certain nombre de zones ayant un taux de prédiction donné
en prenant un nombre fixe de blocs protéiques.
La recherche des motifs de 5 BPs les plus fréquents dans la base de données
a permis de construire un réseau qui les connectent. Plus de 83 % des sites
protéiques sont contenus dans ce graphe et l'analyse de leur répartion en acides
aminés montrent que ce réseau permet de voir des différences
significatives selon la position du BP dans le réseau.
La vérification de la stabilité structurale du réseau a donné
des résultats particulièrement bons avec des RMSd faibles (2 Å)
pour des fragments ayant des longueurs allant de 8 à 11 C.
Allant plus loin dans l'utilisation de l'alphabet structural, nous avons élaboré la méthode de la protéine hybride (MPH). Elle permet la réduction d'une base de données structurales protéiques à une centaine de fragments prototypes d'une longueur de 10 PBs chacun. La grande majorité de ces fragments est bien approximée. Leur répartition en acides aminés montre, en outre, une spécificité importante qui est, de plus, liée dans les 3 cas sur 4 des cas à une information structurale bien déterminée. MPH appliquée aux blocs protéiques permet, de plus, une recherche d'homologie structurale rapide et performante.
Enfin, la méthode MPH appliquée à des informations séquences et structures recodées en paramètres physico-chimiques et angulaires a montré son intérêt dans l'analyse des relations entre les deux types d'information. Les blocs protéiques montrent ici aussi leur pertinence dans le domaine de l'analyse en permettant une description bien plus complexe des repliements qu'une simple description en structures secondaires.
(c) 2001- Alexandre de Brevern