Alexandre de Brevern - Thèse de Bioinformatique Moléculaire


Prochain: Méthode consensus Au-dessus: La structure secondaire Précédent: Méthodes statistiques

   
Réseaux neuronaux et alignements de séquence

Avec l'augmentation du nombre de protéines disponibles, l'utilisation de méthodes d'apprentissage plus gourmandes en données comme les réseaux neuronaux était possible. Les premières études n'ont utilisé comme information que les séquences brutes avec un réseau à une couche [148,85,173] ou encore avec deux réseaux imbriqués [133]. Pour une explication rapide des réseaux neuronaux, voir l'Annexe 1.

La prise en compte des alignements de séquences a permis une augmentation importante du taux de prédiction :

-
PHD [166,165], développé par Rost et Sander, est l'un des plus connus du fait d'une diffusion importante sur le Web [167]. PHD est un ensemble composé de deux réseaux possédant chacun une couche cachée. Le premier apprend la succession des acides aminés avec en plus des informations arrivant des alignements de séquences et d'échelle d'hydrophobicité. Le second réseau, lui, utilise les mêmes informations avec en plus le résultat de la prédiction et ainsi élimine les incohérences possibles de type "passage direct d'une hélice à un feuillet". Cet ensemble d'information permet de dépasser aisément les 72 % de bonne prédiction.

-
NNSSP utilise un réseau avec une seule couche cachée [168]. Il a été conçu pour prendre une séquence seule ou un alignement de séquences. Le pourcentage de bonne prédiction passe alors de 71,0 % à 73,5 % en utilisant des séquences possédant des homologies. Ces résultats sont à mettre en parallèle avec l'ancienne version SSP (purement statistique) dont les taux de prédiction étaient respectivement 65,1 et 68,2 % [182].

-
Des travaux montrent l'importance de la taille de la base de données impliquée dans l'apprentissage, et celui du nombre de neurones dans les couches cachées. L'optimisation de tels paramètres permet une augmentation importante du taux de prédiction de 2 à 4 % [27,28] et, récemment, le taux de 80 % aurait été dépassé [144]. Les valeurs maximales attendues de ce type d'analyse avoisineraient les 85 % dans un futur proche [59].


Prochain: Méthode consensus Au-dessus: La structure secondaire Précédent: Méthodes statistiques
Page 14

(c) 2001- Alexandre de Brevern