Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: L'apprentissage Au-dessus: Méthode d'apprentissage Précédent: Description des protéines

Les fragments protéiques

Les 342 protéines de la base de données ont été ensuite découpées en fragment d'une longueur de M = 5 résidus consécutifs. Cette taille est suffisante pour décrire les courtes hélices qui ont une taille de 4 résidus [113] ainsi que les petits feuillets de 3 acides aminés [31]. De plus, 5 résidus est une taille acceptable pour permettre l'établissement de liaisons hydrogènes qui sont importantes d'un point de vue structural (cf paragraphe 2.1.2.1). Il faut bien noter que les fragments sont chevauchants; ainsi une protéine de longueur L sera représentée par L-4 fragments. La base de données comprend 86 628 fragments protéiques. Chaque fragment centré sur le carbone alpha ( $C{\alpha}_{n}$ ) représente donc les carbones alpha $C{\alpha}_{n-2}, C{\alpha}_{n-1}, C{\alpha}_{n}, C{\alpha}_{n+1}$ et $C{\alpha}_{n+2}$ . Lors de l'apprentissage, il sera représenté par un vecteur V de 2(M-1) résidus, soit 8 angles dièdres ( $\psi_{n-2}, \phi_{n-1}, \psi_{n-1}, \phi_{n}, \psi_{n}, \phi_{n+1},\psi_{n+1}, \phi_{n+2}$ ). Ainsi, un fragment (position i) possède 4 C $_{\alpha }$ en commun avec le fragment suivant (position i+1), soit 6 angles dièdres en commun.

Page 43