Blocs Protéiques

La base de données est celle préalablement utilisée, composée de 342 protéines ayant moins de 25% d'identités [84,83]. Les protéines ont été découpées en fragments de M = 5 acides aminés consécutifs, ce qui donnent un base de données contenant 86980 fragments. Chaque acide aminé a été recodé selon trois variables :

Les deux premières variables ont été normalisées entre -1,0 et +1,0 et sont représentées sur la figure 6.12. Les grandes catégories sont retrouvées (cf. figure 2.2). Les valeurs des trois échelles sont données dans le tableau 6.3

**Figure 6.12:** Représentation de l'échelle des volumes des acides aminé de Zamyatin [207] en fonction de celle de Kyte et Doolittle [115]. Les deux échelles sont normalisées entre -1,00 et +1,00.
$\begin{figure} \centerline{\epsfxsize=8cm \rotatebox{270}{\epsfbox{Images/Chapitre_4_HPM/Repartition_Char_Vol.ps}}} \end{figure}$

Tableau 6.3: Ensemble des variables avec les échelles normalisées de l'hydrophobicité [115], du volume [207] et de la polarité.

acide	hydrophobicité	volume	polarité
aminé
A	-0,66	+0,40	0,00
R	+0,36	-1,00	-0,50
D	-0,39	-0,78	+0,50
N	-0,36	-0,78	+0,50
C	-0,42	+0,56	0,00
E	-0,06	-0,78	0,00
Q	0,00	-0,78	0,00
G	-1,00	-0,09	0,00
H	+0,11	-0,71	-0,50
I	+0,27	+1,00	0,00
L	+0,27	+0,84	0,00
K	+0,30	-0,87	-0,50
M	+0,23	+0,42	0,00
F	+0,55	+0,62	0,00
P	-0,37	-0,36	0,00
S	-0,65	-0,18	0,00
T	-0,33	-0,16	0,00
W	+1,00	-0,20	0,00
Y	+0,59	-0,29	0,00
V	-0,04	+0,93	0,00

La structure trimensionnelle de la chaîne carbonée associée à 5 résidus consécutifs (le résidu central étant en position s dans la séquence protéique) est caractérisée par 8 angles dièdres $\psi_{s-2}$ , $\phi_{s-1}$ , $\psi_{s-1}$ , $\phi_{s}$ , $\psi_{s}$ , $\phi_{s+1}$ , $\psi_{s+1}$ , $\phi_{s+2}$ ) qui ont été normalisés entre -1,0 et +1,0. Ils ont été préalablement décalés pour les angles $\phi$ supérieurs à 120^o de -360^oet pour les angles $\phi$ inférieurs à -120^o de +360^o. Chaque fragment de 5 résidus est donc défini par un vecteur V ayant m = 23 composantes (15 pour la séquence et 8 pour la structure), toutes comprises dans l'intervalle [-1,0:+1,0].

données structures et données séquences