Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: Résultats Au-dessus: Application au compactage des Précédent: Principe

Application du Modèle de la Protéine Hybride aux séries de blocs protéiques

Pour compacter notre base de données structurales, nous avons donc utilisé la méthode de la protéine hybride (cf. paragraphe 6.2). La protéine hybride est une protéine chimérique composée de N sites où chaque position i n'est pas définie par un seul bloc, mais par une loi de probabilité f_i (b_x), b_x étant un des 16 BPs (x=1, 2,..., 16).

$\begin{sidewaysfigure}% latex2html id marker 2933 [htbp] \centerline{\epsfxsize... ...a partir de (c) jusqu'\\lq a la stabilisation du syst\\lq eme.} \end{sidewaysfigure}$

La figure 6.1 récapitule les différentes étapes de l'apprentissage. Dans un premier temps, la base de données de 553 protéines ayant moins de 25% de similitude de séquence (cf. paragraphe 3.3.2.6) établie par Romain Gautier a été traduite en terme de blocs protéiques.

Ensuite, l'apprentissage proprement dit consiste en une recherche de la position optimale de chaque fragment dans la protéine hybride (cf. figure 6.1c à 6.1f). L'apprentissage est proche des cartes auto-organisées (cf. Annexe 1), mais sans processus de diffusion. Ainsi, la protéine hybride correspond à des séries de structures locales "floues".

L'intérêt principal de la méthode est de maintenir la séquentialité pour créer des séries de structures locales successives ayant un fort taux de recouvrement. Cette stratégie diffère donc fortement d'une classification classique où les groupes sont indépendants.

Un fragment F est tiré aléatoirement dans la base de données (cf. figure 6.1c). Chaque structure locale F est définie par L blocs consécutifs $\{$ b₁^*,b₂^*,...,b_L^* $\}$ (ici L=10 BPs, soit 14 C $_{\alpha }$ ).

Localisation de la structure locale dans la protéine hybride. Un score S_i est calculé en chaque position i de la protéine hybride :

$\begin{displaymath}S_i=\sum_{k=1}^{k=L} ln[f_{i+k-1}(b_k^*)]\end{displaymath}$

avec k=1,2,...,L. Ainsi le score S_i (i.e. le logarithme de la vraisemblance d'observation de la structure locale F en un site donné i) mesure la similitude entre la structure locale et une région donnée de même dimension dans la protéine hybride (cf. figure 6.1d). La région la plus proche de la structure locale possède le moins de différence avec celle-ci et donc son score est maximal. Ainsi cette position i₀ est définie comme (cf. figure 6.1e):

$\begin{displaymath}i_0 =\hspace{0.2cm}argmax{[S_i]}\end{displaymath}$

Modification locale de la protéine hybride. Ayant trouvé une zone de plus forte ressemblance, cette zone va être légèrement modifiée pour ressembler à la structure locale F. Les positions i₀ à i₀+L-1 seront ainsi modifiées (cf. 6.1f):

si b = b_k^* (i.e. le bloc protéique présent à la position k dans la structure locale), alors

$\begin{displaymath}f_{i_0+k-1}(b) \leftarrow \frac{f_{i_0+k-1}(b) + \alpha}{1 + \alpha}\end{displaymath}$

si $b \neq b_k^*$ (i.e. les autres blocs protéiques présents à la position k), alors

$\begin{displaymath}f_{i_0+k-1}(b) \leftarrow \frac{f_{i_0+k-1}(b)}{1 + \alpha}\end{displaymath}$

Le symbole $\leftarrow$ signifie que la valeur calculée remplace la valeur précédente. Le coefficient d'apprentissage $\alpha$ est encore égal à $\alpha_{0} /( 1 + t / \nu )$ , avec $\alpha_{0}$ le taux initial d'apprentissage (ici $\alpha_{0}$ = 0.1), t le nombre de structures locales de L blocs déjà utilisées dans l'apprentissage et $\nu$ le nombre de structures locales présentes dans la base de données. L'apprentissage est progressif, ainsi l'ensemble de la base de données a été examiné entièrement C fois, ici C = 15 (phases: figure 6.1c à la figure 6.1f pour chaque structure locale de la base de données). Un passage complet de la base de données est appelé cycle. Pendant le premier cycle, le coefficient d'apprentissage $\alpha$ est maintenu constant ( $\alpha$ = $\alpha_{0}$ ) pour modifier de façon importante la protéine hybride et ainsi faire moins jouer l'initialisation [109].

Initialisation. La protéine hybride est initialement définie par une série de N distributions sur les blocs f_i(b_x) quasiment identiques :

$\begin{displaymath}f_{i}(b_x) = f(b_x).(1+\epsilon_{i}) \end{displaymath}$

avec f(b_x) la fréquence du bloc protéique b_x dans la base de données, $\epsilon_i$ est une valeur aléatoire tirée dans l'intervalle [- $\tau$ ;+ $\tau$ ] ( $\tau$ a été fixé à 0,20). En chaque position la somme des probabilités des blocs a été réajustée à 1, en recalculant :

$\begin{displaymath}f_i(b_x) \leftarrow \frac{f_i(b_x)}{\sum_{i=1}^{i=16} f_i(b_x)}\end{displaymath}$

Il faut noter que la protéine hybride est "fermée" dans le sens où le Nème site est contigu avec le premier, ainsi, il n'existe pas d'effet de bord.

Page 115