Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain : Mesure de similitude Au-dessus: L'apprentissage Précédent: L'apprentissage

Principe de l'apprentisage

La méthode utilise le principe des cartes auto-organisées de Kohonen (Kohonen Maps, ou Self-Organized Maps noté SOM [107,109], cf. Annexe 1 et paragraphe 2.3.2.3). Elle procède par une lecture un certain nombre de fois (étape appelée cycle) de la base de donnée d'apprentissage. Dans la terminologie des SOMs, les neurones sont des classes d'objets. Leurs poids sont des informations moyennes associées à chaque neurone. Dans notre cas, il s'agit des blocs protéiques (les neurones) qui sont des vecteurs (8 angles dièdres).

Deux étapes d'apprentissage sont effectuées : la première consiste à apprendre les blocs protéiques seuls (par série de 5 C $_{\alpha }$ ); la seconde permet de renforcer les transitions entre les blocs comme dans les Chaînes de Markov Cachées (CMC, [149]). Cette seconde étape est effectuée pour tenir compte de l'architecture des protéines. Elle revient à optimiser la succession des blocs protéiques. Pour expliciter ceci d'un point de vue structural, cette méthode revient à faire qu'une partie centrale, régulière, d'une hélice $\alpha$ assignée donc à un bloc "partie centrale $\alpha$ " aille préférentiellement vers un bloc "sortie d'hélice $\alpha$ ". Cette optique permet, en outre, de n'avoir qu'un nombre limité de blocs "sorties d'hélices $\alpha$ ". D'un point de vue plus formel quand un fragment protéique (exemple) en position i dans une protéine est associé à un bloc protéique (neurone) j, le fragment (exemple) en position suivante i+1 devrait être associé à un bloc protéique (neurone) k qui n'est pas n'importe lequel des B blocs (neurones), mais un des quelques v blocs (neurones) qui suivent normalement le bloc (neurone) j. Cette approche ne repose sur aucune hypothèse ou loi de distribution a priori, contrairement aux CMC.

Page 45