Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Apprentissage de la protéine Au-dessus: Application à l'étude des Précédent: Principe

   
données structures et données séquences

La base de données est celle préalablement utilisée, composée de 342 protéines ayant moins de 25% d'identités [84,83]. Les protéines ont été découpées en fragments de M = 5 acides aminés consécutifs, ce qui donnent un base de données contenant 86980 fragments. Chaque acide aminé a été recodé selon trois variables :

*
l'hydrophobicité suivant l'échelle de Kyte et Doolitle [115].

*
le volume de la chaîne latèrale suivant l'échelle de Zamyatin [207].

*
la charge avec trois niveaux : -0.5 attribué à K, R et H, +0.5 à D et E, et 0 aux autres acides aminés.

Les deux premières variables ont été normalisées entre -1,0 et +1,0 et sont représentées sur la figure 6.12. Les grandes catégories sont retrouvées (cf. figure 2.2). Les valeurs des trois échelles sont données dans le tableau 6.3


  
Figure 6.12: Représentation de l'échelle des volumes des acides aminé de Zamyatin [207] en fonction de celle de Kyte et Doolittle [115]. Les deux échelles sont normalisées entre -1,00 et +1,00.
\begin{figure}
\centerline{\epsfxsize=8cm \rotatebox{270}{\epsfbox{Images/Chapitre_4_HPM/Repartition_Char_Vol.ps}}}
\end{figure}


 
Tableau 6.3: Ensemble des variables avec les échelles normalisées de l'hydrophobicité [115], du volume [207] et de la polarité.
acide hydrophobicité volume polarité
aminé      
A -0,66 +0,40 0,00
R +0,36 -1,00 -0,50
D -0,39 -0,78 +0,50
N -0,36 -0,78 +0,50
C -0,42 +0,56 0,00
E -0,06 -0,78 0,00
Q 0,00 -0,78 0,00
G -1,00 -0,09 0,00
H +0,11 -0,71 -0,50
I +0,27 +1,00 0,00
L +0,27 +0,84 0,00
K +0,30 -0,87 -0,50
M +0,23 +0,42 0,00
F +0,55 +0,62 0,00
P -0,37 -0,36 0,00
S -0,65 -0,18 0,00
T -0,33 -0,16 0,00
W +1,00 -0,20 0,00
Y +0,59 -0,29 0,00
V -0,04 +0,93 0,00
 

La structure trimensionnelle de la chaîne carbonée associée à 5 résidus consécutifs (le résidu central étant en position s dans la séquence protéique) est caractérisée par 8 angles dièdres $\psi_{s-2}$, $\phi_{s-1}$, $\psi_{s-1}$, $\phi_{s}$, $\psi_{s}$, $\phi_{s+1}$, $\psi_{s+1}$, $\phi_{s+2}$) qui ont été normalisés entre -1,0 et +1,0. Ils ont été préalablement décalés pour les angles $\phi $ supérieurs à 120o de -360oet pour les angles $\phi $ inférieurs à -120o de +360o. Chaque fragment de 5 résidus est donc défini par un vecteur V ayant m = 23 composantes (15 pour la séquence et 8 pour la structure), toutes comprises dans l'intervalle [-1,0:+1,0].




Page 138

(c) 2001- Alexandre de Brevern