Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Analyse des matrices d'occurrences Au-dessus: L'alphabet structural Précédent: Relations avec les structures

   
Les acides aminés présents dans blocs protéiques

Après la phase d'apprentissage, l'ensemble des protéines est codé à l'aide des blocs protéiques (pour chacune des séries de B blocs obtenus), en utilisant toujours comme critère d'attribution le RMSda minimal. Chaque bloc est donc associé avec un ensemble de séquences protéiques. Les matrices d'occurrence des différents acides aminés pour chaque position ont donc été calculées. Ainsi, chaque bloc protéique d'une longueur de M=5 résidus est représenté par une matrice de taille M x 20, pour chaque type d'acides aminés. Pour améliorer la specificité des matrices, le calcul n'a pas été fait sur M résidus, mais pour une fenêtre plus étendue entre -w et +w autour du résidu central. Nous avons testé différentes longueurs w (avec w>2). De manière plus formelle, le nombre d'occurrences nkij pour un type d'acide aminé donné (indexé par i = 1,2,...,20) localisé à une position j (j variant dans l'intervalle [-w,+w]) de la fenêtre est calculé. Ensuite, nous en déduisons la probabilité d'avoir ce type d'acide aminé en cette position pour le bloc, P(ai en j / PBk) à l'aide du rapport nkij/ NkNk est le nombre de PBk de la base de donnée d'apprentissage. P(ai en j / PBk) est la probabilité conditionnelle pour l'acide aminé aien position j pour le bloc PBk. Nous avons défini une fenêtre de longueur 15 (w = 7). Ce choix est discuté ultérieurement car il dépend des résultats de la méthode de prédiction.


Prochain up previous
Prochain: Analyse des matrices d'occurrences Au-dessus: L'alphabet structural Précédent: Relations avec les structures

Page 62

(c) 2001- Alexandre de Brevern