Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: Description des protéines Au-dessus: Méthode d'apprentissage Précédent: Méthode d'apprentissage

Base de données

La base de données protéique est un critère primordial pour comprendre la relation existant entre la structure tridimensionnelle et la séquence (cf paragraphe 2.3, Les alphabets structuraux). Actuellement, la base de données des structures protéiques, la PDB (Protein Data Bank [6]) est composée de plus de 10 000 protéines. Conserver l'ensemble des protéines de la PDB reviendrait à travailler principalement sur quelques grands groupes, les plus "aisément" cristallisables (les plus nombreux dans la base alors), comme les lyzozymes, ce qui biaiserait les analyses (en particulier statistique). Ne conserver que des protéines ayant une faible homologie de séquence permet de limiter ce type d'erreur. La base utilisée est composée de 342 protéines ayant moins de 25% d'identité de séquence [84,83].

Les structures secondaires ont été assignées au préalable par une méthode consensuelle ([31] et cf. paragraphe 2.1.2.1) de trois algorithmes DSSP [100], P-CURVE [181] et DEFINE [154]. Ensuite, les protéines ont été classées suivant la nomenclature de Michie et collaborateurs [127] qui considèrent 4 classes de protéines : tout $\alpha$ , tout $\beta$ , $\alpha/\beta$ et non-classées.

Page 41