Blocs Protéiques

L'intérêt principal de MPH appliqué séries de blocs protéiques est bien sur la compaction d'une base de donnée structurale. Toutefois, l'utilisation de la protéine hybride n'est pas limitée qu'à ce seul point. En chaque position, un ensemble de fragments proches se trouve localisé. Donc, si l'on recherche des fragments similaires courts d'un point de vue structural il suffit de trouver la position correspondante sur la protéine hybride. Pour trouver des fragments plus longs, le principe est identique. Des fragments longs et similaires structuralement seront théoriquement localisés aux mêmes positions sur la protéine hybride. En outre, la continuité étant forte, ces positions seront souvent consécutives.

Nous avons donc mis au point une méthode qui tient compte de ces concepts pour rechercher des fragments structuraux proches. La figure 6.8 explicite l'ensemble du processus. Une première étape consiste à recoder la structure tridimensionnelle des protéines en blocs protéiques. A ce niveau simple, la recherche d'homologie est difficile, les structures répétitives gênant particulièrement la recherche. Aussi, la méthode utilise directement la protéine hybride.

**Figure 6.8:** Principe de la recherche d'homologues structuraux. Avec de bas en haut, le codage des deux structures tridimensionnelles en blocs protéiques, puis la localisation des séries de blocs protéiques sur la protéine hybride et enfin le dotplot des positions sur la protéine hybride des deux protéines et enfin la recherche des fragments les plus longs en commun.
$\begin{figure} \centerline{\epsfxsize=17cm \rotatebox{0}{\epsfbox{Images/Chapitre_4_HPM/TCA/dot_X1b.ps}}} \end{figure}$

Les séries de blocs, structures locales sont recodées en position sur le protéine hybride. Ensuite, un dotplot est calculé. Un dotplot est une matrice de taille N₁ par N₂ avec N₁ longueur de la première protéine sur N₂ longueur de la seconde protéine. Cette matrice est remplie comme suit :

Dans un premier temps, le dotplot est une matrice composée de 0 et de 1. Cette information doit donc être travaillée pour ne conserver que les plus longues successions identiques. Ainsi, le dotplot est filtré en ne conservant que les diagonales de longueur G où un nombre H de points est égal à 1. Travaillant sur des protéines proches, H a été pris égal à G. Au départ G a été pris élevé pour extraire les diagonales les plus longues, puis progressivement a été réduit. Les deux protéines étant proches et ayant des longueurs comparables entre 400 et 450 acides aminés, l'extraction des diagonales n'a été effectuée que dans une zone médiane [- $\theta$ ,+ $\theta$ ]. Cela veut dire que pour une position c d'une protéine, la recherche de similitude s'est focalisée dans une région [c- $\theta$ ,c+ $\theta$ ] de la seconde protéine et inversement. $\theta$ était fixé à 50 résidus. En outre, quand une diagonale était sélectionnée, les zones correspondantes dans les deux protéines n'étaient plus réutilisées ce qui permet de construire des véritables séries de fragments similaires distincts.

Enfin, pour vérifier que le fait de passer par les blocs protéiques, puis le recodage par la protéine hybride n'entraîne pas de faux positifs, chaque couple de fragments similaires a été superposée et le RMSd résultant calculé. Cette approche permet ainsi la recherche de structures possédant un repliement proche.

Principe de la recherche