Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Les 342 protéines de la base de données ont été ensuite découpées
en fragment d'une longueur de M = 5 résidus
consécutifs. Cette taille est suffisante pour décrire les courtes
hélices
qui ont une taille de 4 résidus [113] ainsi que les petits feuillets
de 3 acides
aminés [31]. De plus, 5 résidus est une taille acceptable pour permettre
l'établissement de liaisons hydrogènes qui sont importantes d'un point de vue structural
(cf paragraphe 2.1.2.1).
Il faut bien noter que les fragments sont chevauchants; ainsi une
protéine de longueur
L sera représentée par L-4 fragments.
La base de données comprend 86 628 fragments
protéiques.
Chaque fragment centré sur le carbone alpha (
) représente donc les
carbones alpha
et
.
Lors de l'apprentissage, il sera représenté par un vecteur
V de 2(M-1) résidus,
soit 8 angles dièdres
(
).
Ainsi, un fragment (position i)
possède 4 C
en commun avec le fragment suivant (position i+1), soit 6 angles dièdres en commun.
(c) 2001- Alexandre de Brevern