Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Modèles protéiques Au-dessus: La structure secondaire Précédent: Méthode consensus

   
Bases de données

La base de données utilisée est capitale pour la validité de l'expérimentation. Ainsi, une base ne contenant que des protéines avec des taux d'hélices $\alpha$ importants fera que la méthode de prédiction sera particulièrement appropriée pour des protéines ayant de forts taux en hélices $\alpha$, mais le résultat pour une protéine $\beta$ sera peu probant. Cuff et collaborateurs récapitulent ainsi les problèmes liés aux premières prédictions. Faits sur des bases de données peu importantes, les taux de prédiction annonçés étaient compris entre 63 et 77 %. Des tests effectués sur de nouvelles protéines montrent en réalité des taux compris entre 50 % et 56 % [33].

Aussi, ne faut-il pas utiliser des bases complètes, mais des bases "nettoyées". Ces bases doivent satisfaire à deux critères : (i) être suffisament peuplées pour représenter la spécificité du plus grand nombre de repliements possibles, sans déséquilibre particulier, et (ii) être dépourvues de biais en terme de séquence, de façon à optimiser la détermination de la relation séquence-structure.

Une approche intéressante a été développée en Finlande [11], mais restée sans suite (sans doute du fait de sa non-disponibilité sur le web). La procédure est de type hiérarchique. Elle utilise la séquence pour avoir un taux d'identités faible, mais aussi la structure en définissant des taux de structures répétitives par DSSP [100], pour ne pas avoir des protéines trop reliées entre elles. Les deux bases de données "nettoyées" sont PDBselect et HSSP. La première est un ensemble de protéines possédant un taux d'identité de séquences inférieur ou égal à un seuil choisi ( http://swift.embl-heidelberg.de/pdbsel/ ) [84,83]. Aucun lien avec la structure n'est testé. La méthode est basée sur l'exclusion des séquences proches jusqu'à obtention d'un taux maximal. La seconde prend en compte la structure et se base principalement sur des alignements de séquences [174,43]. Ainsi, des séquences proches sont exclues et donc des repliements proches normalement aussi.


Prochain: Modèles protéiques Au-dessus: La structure secondaire Précédent: Méthode consensus Nouveu-suppl: bases de données version 2
Page 16

(c) 2001- Alexandre de Brevern