Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Après C cycles d'apprentissage, une première série de blocs protéiques a été obtenue (cf. figure 3.4). Ces derniers sont utilisés pour recoder en terme de blocs protéiques l'ensemble de la base de données d'apprentissage. Ceci permet de calculer une matrice de transition entre les BPs en comptant les occurrences des paires de BPs consécutifs et en les transformant ensuite en fréquences.
Le principe est un peu similaire au précédent. (1) Une protéine est tirée au hasard. (2) En première position, la recherche du BPr, le bloc réel est effectué à l'aide du critère du RMSda minimal, comme précédemment. Pour les autres fragments, le processus est un peu différent. Leur vecteur d'observation V(m) est comparé à chacun des blocs protéiques PBk à l'aide du critère du RMSda et B comparaisons sont donc calculées. Toutefois, le bloc vainqueur est choisi suivant des critères plus différents. (i) n blocs ayant un RMSda faible (inférieur à une valeur donnée) sont sélectionnés. (ii) Le bloc protéique choisi est celui qui possède la fréquence de transition maximale entre le BPr et BPr+1 pour les n blocs conservés. (4) Le processus est répété jusqu'au fragment C-terminal de la protéine. Ainsi, les transitions sont renforçées entre les différents blocs. À chaque cycle, la matrice de transition est réevaluée.
Au bout de C cycles d'apprentissage non supervisé, puis de C cycles d'apprentissage tenant compte des transitions, de nouveau C cycles d'apprentissage non supervisé sont effectués pour ne pas biaiser l'apprentissage.
![]() |
(c) 2001- Alexandre de Brevern