Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
La base de données est celle préalablement utilisée, composée de 342 protéines ayant moins de 25% d'identités [84,83]. Les protéines ont été découpées en fragments de M = 5 acides aminés consécutifs, ce qui donnent un base de données contenant 86980 fragments. Chaque acide aminé a été recodé selon trois variables :
Les deux premières variables ont été normalisées entre -1,0 et +1,0 et sont représentées sur la figure 6.12. Les grandes catégories sont retrouvées (cf. figure 2.2). Les valeurs des trois échelles sont données dans le tableau 6.3
![]() |
|
La structure trimensionnelle de la chaîne carbonée associée à 5
résidus consécutifs (le résidu central étant en position s dans la séquence protéique)
est caractérisée par
8 angles dièdres
,
,
,
,
,
,
,
)
qui ont été normalisés entre -1,0 et +1,0.
Ils ont été préalablement décalés pour les angles
supérieurs à 120o de -360oet pour les angles
inférieurs à -120o de +360o.
Chaque fragment de 5 résidus est donc défini
par un vecteur V ayant m = 23
composantes (15 pour la séquence et 8 pour la structure),
toutes comprises dans l'intervalle [-1,0:+1,0].
(c) 2001- Alexandre de Brevern