Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
La méthode utilise le principe des cartes auto-organisées de Kohonen (Kohonen Maps, ou Self-Organized Maps noté SOM [107,109], cf. Annexe 1 et paragraphe 2.3.2.3). Elle procède par une lecture un certain nombre de fois (étape appelée cycle) de la base de donnée d'apprentissage. Dans la terminologie des SOMs, les neurones sont des classes d'objets. Leurs poids sont des informations moyennes associées à chaque neurone. Dans notre cas, il s'agit des blocs protéiques (les neurones) qui sont des vecteurs (8 angles dièdres).
Deux étapes d'apprentissage sont effectuées :
la première consiste à apprendre les blocs protéiques seuls (par série de 5 C);
la seconde permet de renforcer les transitions entre les blocs
comme dans les Chaînes de Markov Cachées (CMC, [149]).
Cette seconde étape est effectuée
pour tenir compte de l'architecture des protéines.
Elle revient à optimiser la succession des blocs protéiques.
Pour expliciter ceci d'un point de vue structural,
cette méthode revient à faire qu'une partie centrale, régulière, d'une hélice
assignée donc à un bloc "partie centrale
"
aille préférentiellement vers un bloc "sortie d'hélice
".
Cette optique permet, en outre, de n'avoir qu'un nombre limité de blocs "sorties d'hélices
".
D'un point de vue plus formel quand un fragment protéique (exemple) en position i dans une protéine
est associé à un bloc protéique (neurone) j, le fragment (exemple)
en position suivante i+1 devrait
être associé à un bloc protéique (neurone) k
qui n'est pas n'importe lequel des B blocs (neurones),
mais un des quelques v blocs (neurones) qui suivent normalement le bloc (neurone) j.
Cette approche ne repose sur aucune hypothèse ou loi de distribution
a priori, contrairement aux CMC.
(c) 2001- Alexandre de Brevern