Blocs Protéiques

Alexandre de Brevern - Thèse de Bioinformatique Moléculaire

Prochain: La prédiction locale Au-dessus: Résultats Précédent: Résultats

Choix du nombre de blocs

La prédiction bayésienne a été effectuée pour chaque série de blocs obtenue, allant de B = 34 blocs, à 22, puis 19, 16, 14, 12, 11 et enfin 10 blocs. La taille de la fenêtre de prédiction a été prise égale à 15 résidus, soit 5 de part et d'autre du bloc structural. La figure 4.3 récapitule les résultats obtenus pour la série de 16 blocs avec des tailles de fenêtre allant de 5 à 19 résidus. A partir de 15 résidus, il y a une saturation dans le gain du taux de prédiction, des résultats similaires ont été obtenus pour les autres séries. Comme attendu, plus le nombre B de blocs augmente, plus le taux de prédiction diminue (cf. figure 4.3).

**Figure 4.3:** Evolution du taux de prédiction en fonction de la longueur de la fenêtre pour la série de 16 blocs protéiques, avec la taille de la fenêtre de prédiction, en abcisses et le pourcentage de prédiction associé, en ordonnés.
$\begin{figure} \centerline{\epsfxsize=8cm \rotatebox{270}{\epsfbox{Images/Chapitre_3_PBs/taille_aa.ps}}} \end{figure}$

**Figure 4.4:** Evolution du taux de prédiction en fonction du nombre de blocs, avec le nombre de blocs protéiques dans chaque série, en abcisses, et le pourcentage de prédiction associé, en ordonnés.
$\begin{figure} \centerline{\epsfxsize=8cm \rotatebox{270}{\epsfbox{Images/Chapitre_3_PBs/pred_nb_blocs.ps}}} \end{figure}$

Dans le choix du nombre de blocs conservés, deux séries (11 et 18 PBs) ont été enlevés car ils avaient un taux de prédiction inférieur à des séries ayant plus de blocs protéiques. En observant les différentes séries obtenues (cf. figure 4.4), on s'aperçoit qu'avec peu de bloc (B = 10), le taux de prédiction est bon (39 %), mais l'approximation structurale est alors plus faible (RMSda moyen de 32^o). Le choix de 16 est le plus approprié car le taux de prédiction est acceptable (34 %), le RMSda moyen reste correct (30^o). En outre, le bloc le moins représenté est égal à un pour cent de la base de données. Cette dernière remarque a son importance: pour la série précédente, les blocs les moins observés représentent moins de 0,5 % de la base de données et il est donc difficilement utilisable pour la prédiction (le nombre d'observations étant alors trop faible).

Page 80