Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
L'objectif de ce travail est de reclassifier les structures protéiques en "super" structures secondaires avec des blocs obtenus à l'aide d'une méthode de compression de l'information, puis de regroupements des données ainsi traitées en quelques prototypes (1993, [208] et 1997, [53]).
Plusieurs bases de données ont été utilisées. La plus ancienne [208,209] est composée de 74 chaînes ayant un taux d'identité de séquence inférieur à 50%, une résolution de moins de 2,5 Å, et, un facteur R inférieur à 0,3. La base est composée de 13 114 acides aminés. La plus importante, et plus récente [53], possède moins de 25 % d'identité de séquence pour 116 chaînes protéiques représentant 23 355 résidus.
La méthode repose sur un réseau de neurones dit réseau auto-associatif (autoANN). Le principe, exposé dans la figure 2.14, est de prendre un vecteur d'information en couche d'entrée, de le comprimer dans la couche cachée comme pour tout réseau neuronal artificiel classique, mais au lieu d'avoir en couche de sortie une information nouvelle tirée des observations mises en couche d'entrée, on recherche la même information que les observations mises en entrée. En résumé, le réseau doit restituer ce qu'il voit.
![]() |
Le groupe de Fetrow a utilisé 3 types d'informations structurales mises dans un réseau autoANN et ils se sont servis de la couche cachée comme nouveau descripteur des informations. Ils ont appliqué sur les données "compressées" par la couche cachée un algorithme classique de classification, les k-moyennes (ou k-means) qui est décrit dans l'Annexe 1.
Pour décrire les protéines, ils ont travaillé sur des fragments de 7 résidus consécutifs, qu'ils ont décrits par :
Ainsi 7 résidus sont traduits en un vecteur de 43 composantes, toutes comprises entre zéro et un. Pour le premier autoANN [208,209], la moitié de leur base de données (6 422 fragments) a été utilisée pour l'apprentissage, le reste (6 242) servant pour sa validation. Ensuite, les auteurs utilisent les vecteurs recodés par la couche cachée (8 valeurs au lieu de 43) et les séparent en 6 groupes grâce à la méthode des k-moyennes ou k-means (cf. Annexe 1).
Leur première étude [208] (il n'y a aucune évolution notable dans leur seconde publication [209]), montre surtout une recherche de la corrélation entre leurs 6 blocs obtenus et les structures secondaires. Ainsi, plusieurs initialisations ont été testées et le maximum de ressemblance entre les résultats dans les différentes expériences a été recherché, les blocs obtenus devant être les plus proches possibles.
Différentes remarques sont à faire sur cette étude. Aucune notion de ressemblance 3D n'est mentionnée. Les auteurs décident de conserver 6 groupes soit 6 blocs. Ces blocs ne sont décrits que comme une entrée en hélice, une partie centrale, une extrémité C-terminale. Il en va de même pour les feuillets. La répartition précise dans les différents blocs des boucles (près de 50% de la base de données) n'est pas explicitée. Avec une absence totale de vérification de la fiabilité structurale et de la variabilité des blocs, des questions restent en suspens. Dans la même perspective, il aurait été intéressant de savoir ce que donne directement une méthode de classification sur les observations recodées en 43 composantes.
Fetrow et collaborateurs ont repris ce travail en 1997 avec une nouvelle base et aboutissent à des résultats similaires. Un travail intéressant est fait concernant les successions de doublets de blocs (i,i+1) et des triplets (i,i+1,i+2).
En conclusion, aucune précision n'est donnée quant à l'approximation structurale qu'engendrent les blocs. Cette information n'est retrouvée indirectement que dans la base de données mise sur le web ftp://ftp.cs.albany.edu/pub/compbio/db/2.2A/cat/, et, l'absence d'explication quant aux chiffres donnés la rend difficilement utilisable. Les doublets et triplets de blocs ne sont donnés qu'en fonction de leurs fréquences attendues et observées. Une étude statistique plus élaborée aurait permis de voir les plus significatifs (qui ne sont pas obligatoirement les plus fréquents). Les quelques exemples montrant l'intérêt de la méthode sont peu nombreux et reposent principalement sur des successions très rares (entre 1 et 4 observations dans la base de données).
Plus récemment, Fetrow et Berg [52] ont tenté de mettre en évidence une relation existant entre leurs blocs et les chaînes latérales. Ils ne présentent que quelques graphiques sans véritable conclusion.
(c) 2001- Alexandre de Brevern