Alexandre de Brevern - Thèse de Bioinformatique Moléculaire
Prochain: Méthode consensus
Au-dessus: La structure secondaire
Précédent: Méthodes statistiques
Réseaux neuronaux et alignements de séquence
Avec l'augmentation du nombre de protéines disponibles, l'utilisation de méthodes
d'apprentissage plus gourmandes en données comme les réseaux neuronaux était possible.
Les premières études n'ont utilisé comme information que les séquences brutes
avec un réseau à une couche [148,85,173]
ou encore avec deux réseaux imbriqués [133].
Pour une explication rapide des réseaux neuronaux, voir l'Annexe 1.
La prise en compte des alignements de séquences a permis une augmentation importante du taux de
prédiction :
- -
- PHD [166,165], développé par Rost et Sander, est l'un des plus
connus du fait d'une diffusion importante sur
le Web [167]. PHD est un ensemble composé de deux réseaux
possédant chacun une couche cachée.
Le premier apprend la succession des acides aminés avec en plus des informations
arrivant des alignements de séquences et d'échelle d'hydrophobicité.
Le second réseau, lui, utilise les mêmes
informations avec en plus le résultat de la prédiction et ainsi élimine les
incohérences possibles de type "passage direct d'une hélice à un feuillet". Cet
ensemble d'information permet de dépasser aisément les 72 % de bonne prédiction.
- -
- NNSSP utilise un réseau avec une seule couche cachée [168]. Il a été conçu pour
prendre une séquence seule ou un alignement de séquences. Le pourcentage de
bonne prédiction passe alors de 71,0 % à 73,5 % en utilisant des
séquences possédant des homologies. Ces résultats sont à
mettre en parallèle avec l'ancienne version SSP (purement statistique)
dont les taux de prédiction étaient respectivement 65,1 et 68,2 % [182].
- -
- Des travaux montrent l'importance de la taille de la base de données impliquée
dans l'apprentissage, et celui du nombre de neurones dans les couches cachées.
L'optimisation de tels paramètres permet une augmentation importante du taux de prédiction de 2 à 4 % [27,28]
et, récemment, le taux de 80 % aurait été dépassé [144]. Les valeurs maximales
attendues de ce type d'analyse avoisineraient les 85 % dans un futur proche [59].
Prochain: Méthode consensus
Au-dessus: La structure secondaire
Précédent: Méthodes statistiques
Page 14
(c) 2001- Alexandre de Brevern