Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: b. Perspectives Au-dessus: Conclusion et perspectives Précédent: Conclusion et perspectives

a. Conclusion générale

Lors de cette thèse, j'ai mis au point une nouvelle méthodologie pour concevoir des petits prototypes protéiques, les blocs protéiques (BPs). Après avoir conçu plusieurs séries ayant des nombre de BPs variables, nous avons conservé un alphabet structural composé de 16 BPs. Il permet à la fois une approximation correcte de la structure tridimensionnelle des protéines et une prédiction acceptable. La qualité structurale des blocs a été vérifiée, ils sont à la fois bien distincts les uns des autres et permettent une assignation non ambiguë. Les BPs sont, d'un point de vue structural, hautement spécifiques.

Le choix de 16 BPs est adéquat pour analyser la structure tridimensionnelle des protéines. Deux BPs sont spécifiques des parties régulières des protéines, les autres blocs permettent ainsi de bien analyser les extrémités N- et C-terminales de ces structures. Quatre PBs sont même totalement localisés dans les parties "boucles". La correspondance avec les structures secondaires classiques sont bien retrouvées, mais les PBs permettent une analyse beaucoup plus poussée de l'ensemble des structures protéiques.

La prédiction de la structure 3D en termes de blocs protéiques à partir de la séquence par une approche bayésienne atteint un taux de 30,0 % avec une fenêtre initiale de 5 résidus. L'agrandissement de cette fenêtre à 15 résidus permet un gain de 4,4 %. La mise au point d'une méthode de séparation des séquences (1 repliement local $\rightarrow$ n séquences ) en classes, dites familles séquentielles, pour les blocs les plus fréquents permet un taux final de prédiction de 40,7 %.

La spécificité séquentielle importante des blocs a montré, en plus, de ce taux correct de prédiction, que la majorité des blocs réels se trouvait parmi les plus probables. Ce fait a permis, en plus de la méthode bayésienne de prédiction, de mettre en $\oe$ uvre deux stratégies basées sur cette information (1 séquence $\rightarrow$ n repliements locaux): (i) une stratégie globale qui permet de déterminer le nombre de blocs protéiques à conserver en chaque site pour atteindre un taux de prédiction donné, (ii) une stratégie locale qui permet de délimiter un certain nombre de zones ayant un taux de prédiction donné en prenant un nombre fixe de blocs protéiques.

La recherche des motifs de 5 BPs les plus fréquents dans la base de données a permis de construire un réseau qui les connectent. Plus de 83 % des sites protéiques sont contenus dans ce graphe et l'analyse de leur répartion en acides aminés montrent que ce réseau permet de voir des différences significatives selon la position du BP dans le réseau. La vérification de la stabilité structurale du réseau a donné des résultats particulièrement bons avec des RMSd faibles (2 Å) pour des fragments ayant des longueurs allant de 8 à 11 C $_{\alpha }$ .

Allant plus loin dans l'utilisation de l'alphabet structural, nous avons élaboré la méthode de la protéine hybride (MPH). Elle permet la réduction d'une base de données structurales protéiques à une centaine de fragments prototypes d'une longueur de 10 PBs chacun. La grande majorité de ces fragments est bien approximée. Leur répartition en acides aminés montre, en outre, une spécificité importante qui est, de plus, liée dans les 3 cas sur 4 des cas à une information structurale bien déterminée. MPH appliquée aux blocs protéiques permet, de plus, une recherche d'homologie structurale rapide et performante.

Enfin, la méthode MPH appliquée à des informations séquences et structures recodées en paramètres physico-chimiques et angulaires a montré son intérêt dans l'analyse des relations entre les deux types d'information. Les blocs protéiques montrent ici aussi leur pertinence dans le domaine de l'analyse en permettant une description bien plus complexe des repliements qu'une simple description en structures secondaires.

Page 146