Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
La figure 4.6 illustre le principe de la séparation en deux matrices du bloc protéique b en deux familles séquentielles. On peut observer sur les matrices normalisées en Z-scores une différence de localisation des sur- et des sous-représentations. Ceci se retrouve dans les zones de plus grande informativité obtenues par le profil KLd (cf. figure 4.7). Le Kld maximal est passé de 0,1 à 0,3. En n'observant que les valeurs supérieures à 0,08, on voit que pour la première famille séquentielle la zone d'intérêt se trouve dans l'intervalle -3 à +2, ainsi que pour les positions (-7) et (+4); pour le second, la zone est restreinte à l'intervalle [-2;+2]. Leurs modes aussi sont différents, respectivement en (-1) et (0).
![]() |
En comparant les deux matrices associées, des différences nettes en composition en acides aminés sont visibles en la première et la seconde famille séquentielle, comme une sur-représentation en Alanine en position (-7), Acide Aspartique (-2), Proline en (-1), Histidine et Aspartate en (0), Proline en (+1) and Phénylalanine en (+6), ainsi que des sous-représentations en Lysine en position (-2), Glycine en (+1) et Cystéine en (+4). Les caractéristiques principales du bloc protéique b sont retrouvées dans ses deux familles séquentielles, comme la sous-représentation en Proline en position (+2).
Des essais pour tout les blocs ont été effectués en prenant un nombre de familles f compris entre 2 et 6. Les blocs divisés en familles séquentielles ont été choisis en prenant comme critère le taux de prédiction globale au premier rang, soit Q(1). Comme plusieurs matrices pour le même bloc protéique étaient utilisées, seule celle ayant le plus haut score est conservée pour la prédiction bayésienne. Un autre critère a été pris en compte, il s'agissait de rééquilibrer les taux de prédiction entre tous les blocs. Le tableau 4.1 récapitule le nombre de familles séquentielles conservées. Le taux de prédiction Q(1) est passé de 34,4 % à 40,7 % (gain de 6,3 %), avec les taux de prédiction initial et avec l'utilisation des familles séquentielles.
En résumé, ce sont les blocs les plus fréquents qui ont pu être subdivisés, la fréquence finale de leur famille séquentielle se rapproche d'ailleurs alors de la fréquence des autres blocs protéiques.
Par ailleurs, il a fallu vérifier que la création de ces nouvelles familles séquentielles construites sur le plan de la séquence n'ait pas eu de conséquence sur le plan de la structure. Aussi, pour chaque famille séquentielle, le vecteur d'observation moyen des 8 angles dièdres (cf. paragraphe 3.2) le caractérisant a été calculé à l'aide des fragments appartenant à chaque nouvelle matrice. Ces vecteurs ont été comparés au vecteur décrivant le bloc dont ils sont issus (cf. tableau 3.1) ainsi qu'à celui des autres familles séquentielles du même bloc. Un seul angle se trouve à plus de 3 degrés de différences. En conclusion, les familles séquentielles n'ont pas créé de "nouveau" bloc protéique.
(c) 2001- Alexandre de Brevern