Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Utilisation des Chaînes de Au-dessus: Peu de blocs protéiques Précédent: Utilisation d'un regroupement hiérarchique

Utilisation d'un réseau de neurones (Fetrow et al., 1993, 1997)

L'objectif de ce travail est de reclassifier les structures protéiques en "super" structures secondaires avec des blocs obtenus à l'aide d'une méthode de compression de l'information, puis de regroupements des données ainsi traitées en quelques prototypes (1993, [208] et 1997, [53]).

Plusieurs bases de données ont été utilisées. La plus ancienne [208,209] est composée de 74 chaînes ayant un taux d'identité de séquence inférieur à 50%, une résolution de moins de 2,5 Å, et, un facteur R inférieur à 0,3. La base est composée de 13 114 acides aminés. La plus importante, et plus récente [53], possède moins de 25 % d'identité de séquence pour 116 chaînes protéiques représentant 23 355 résidus.

La méthode repose sur un réseau de neurones dit réseau auto-associatif (autoANN). Le principe, exposé dans la figure 2.14, est de prendre un vecteur d'information en couche d'entrée, de le comprimer dans la couche cachée comme pour tout réseau neuronal artificiel classique, mais au lieu d'avoir en couche de sortie une information nouvelle tirée des observations mises en couche d'entrée, on recherche la même information que les observations mises en entrée. En résumé, le réseau doit restituer ce qu'il voit.


  
Figure 2.14: Schéma représentant le réseau auto-associatif avec sa couche d'entrée à 43 neurones, la couche cachée de 8 neurones et la couches de sorties avec 43 neurones.
\begin{figure}
\centerline{\epsfxsize=8cm \epsfbox{Images/Chapitre_2_Proteines/Fetrow_01.eps}}
\end{figure}
A REFAIRE

Le groupe de Fetrow a utilisé 3 types d'informations structurales mises dans un réseau autoANN et ils se sont servis de la couche cachée comme nouveau descripteur des informations. Ils ont appliqué sur les données "compressées" par la couche cachée un algorithme classique de classification, les k-moyennes (ou k-means) qui est décrit dans l'Annexe 1.

Pour décrire les protéines, ils ont travaillé sur des fragments de 7 résidus consécutifs, qu'ils ont décrits par :

(-)
15 distances liant les C$_{\alpha }$ (sauf pour les C$_{\alpha }$ contigus). Ayant observé que la distribution des distances est bi-modale, chaque distance a été codée sur deux valeurs (bits). La valeur entre les deux pics de la courbe bi-modale a été prise comme seuil ($\tau$). Si la distance di est inférieure à $\tau$, le second bit est mis à zéro, et, dans le premier le rapport di/$\tau$ est introduit. Si la distance di est supérieure à $\tau$, le premier bit est mis à un, et, dans le second le rapport $d_i-\tau$/ $v_{m}-\tau$ est introduit. vm est la valeur maximale des distances observées. Ce système donne pour 15 distances 30 valeurs, toutes normalisées entre 0 et 1.

(-)
les 4 angles dièdres, qu'ils ont codé avec leurs sinus et cosinus, soit 8 valeurs au final, ce qui élimine les problèmes de rotation.

(-)
5 angles de valences (C$\alpha_i$,C $\alpha_{i+1}$,C $\alpha_{i+2}$,C $\alpha_{i+3}$).

Ainsi 7 résidus sont traduits en un vecteur de 43 composantes, toutes comprises entre zéro et un. Pour le premier autoANN [208,209], la moitié de leur base de données (6 422 fragments) a été utilisée pour l'apprentissage, le reste (6 242) servant pour sa validation. Ensuite, les auteurs utilisent les vecteurs recodés par la couche cachée (8 valeurs au lieu de 43) et les séparent en 6 groupes grâce à la méthode des k-moyennes ou k-means (cf. Annexe 1).

Leur première étude [208] (il n'y a aucune évolution notable dans leur seconde publication [209]), montre surtout une recherche de la corrélation entre leurs 6 blocs obtenus et les structures secondaires. Ainsi, plusieurs initialisations ont été testées et le maximum de ressemblance entre les résultats dans les différentes expériences a été recherché, les blocs obtenus devant être les plus proches possibles.

Différentes remarques sont à faire sur cette étude. Aucune notion de ressemblance 3D n'est mentionnée. Les auteurs décident de conserver 6 groupes soit 6 blocs. Ces blocs ne sont décrits que comme une entrée en hélice, une partie centrale, une extrémité C-terminale. Il en va de même pour les feuillets. La répartition précise dans les différents blocs des boucles (près de 50% de la base de données) n'est pas explicitée. Avec une absence totale de vérification de la fiabilité structurale et de la variabilité des blocs, des questions restent en suspens. Dans la même perspective, il aurait été intéressant de savoir ce que donne directement une méthode de classification sur les observations recodées en 43 composantes.

Fetrow et collaborateurs ont repris ce travail en 1997 avec une nouvelle base et aboutissent à des résultats similaires. Un travail intéressant est fait concernant les successions de doublets de blocs (i,i+1) et des triplets (i,i+1,i+2).

En conclusion, aucune précision n'est donnée quant à l'approximation structurale qu'engendrent les blocs. Cette information n'est retrouvée indirectement que dans la base de données mise sur le web ftp://ftp.cs.albany.edu/pub/compbio/db/2.2A/cat/, et, l'absence d'explication quant aux chiffres donnés la rend difficilement utilisable. Les doublets et triplets de blocs ne sont donnés qu'en fonction de leurs fréquences attendues et observées. Une étude statistique plus élaborée aurait permis de voir les plus significatifs (qui ne sont pas obligatoirement les plus fréquents). Les quelques exemples montrant l'intérêt de la méthode sont peu nombreux et reposent principalement sur des successions très rares (entre 1 et 4 observations dans la base de données).

Plus récemment, Fetrow et Berg [52] ont tenté de mettre en évidence une relation existant entre leurs blocs et les chaînes latérales. Ils ne présentent que quelques graphiques sans véritable conclusion.


Prochain: Utilisation des Chaînes de Au-dessus: Peu de blocs protéiques Précédent: Utilisation d'un regroupement hiérarchique

Page 33

(c) 2001- Alexandre de Brevern