Structure tertiaire Flashcards
Méthode Homologie : principe
• Identification d’une protéine de structure connue dont la séquence présente une homologie → construction d’un modèle par homologie
Structures mieux conservées que les séquences -> Existe une homologie de séq -> existe une homologie de struct => Prédiction d’une struct par homologie possible
Degré d’homologie
Identité de séquence | Modélisation par homologie
• > 35% Possible
• 25 − 35% Possible sous conditions
• < 25% Difficile voire impossible
Plus le pourcentage d’identité / homologie est grand, plus la modélisation sera fiable
On estime que 28% des protéines ont au moins 25% d’identité de
séquence avec une protéine de structure connue
Modélisation par homologie : les étapes
- Identification d’une ou plusieurs protéines de structure connue et de séquence(s) homologue(s)
- Alignement cible / support(s) (target / template(s))
- Construction du modèle 3D
- Optimisation du modèle 3D
- Validation du modèle 3D
Identification d’une ou plusieurs protéines de structure
connue et de séquence(s) homologue(s)
- Recherche de séquence(s) homologue(s) dans les bases de données
- BLAST ( Basic Local Alignment Search Tool)
- Requête : séquence de la protéine cible
- Cible : séquences de la PDB uniquement
- But : trouver au moins une protéine de séquence homologue qui servira de support (template) pour la construction du modèle
Niveau d’homologie
• Prise en compte de l’identité (mêmes acides aminés) et de la similarité
(acides aminés ayant les mêmes propriétés physico-chimiques)
Que regarder dans BLAST ?
E-value : Expected value
• Comparaison au “bruit de fond˝
• Nombre de touches avec le même score que l’on peut s’attendre à avoir en cherchant au hasard dans une base de données
• Prend en compte la longueur de la séquence
• Plus la E-value est faible, plus le résultat est
significatif
Alignement cible / support (target : template(s)
Alignement entre :
• 1 la séquence de la protéine dont on veut connaître la structure 3D (cible ou target)
• 2 la ou les séquences des protéines identifiées comme présentant une homologie de séquence suffisante (support(s) ou template(s))
Avec quel algorithme aligner les séquences ?
- Algorithmes habituels d’alignement multiple : clustal, fasta, . . .
- Comparaisons et combinaisons possibles et même souhaitables
- Alignement structural si plusieurs templates
Comment juger la pertinence des résultats ?
• Pourcentages d’identité et similarité, nombre de gaps, position des changements
• Attention particulière aux résidus importants (conservés, porteur de
l’activité, . . .)
• Alignement des structures secondaires
• Alignement des parties hydrophiles / hydrophobes (homologie HCA -Hydrophobic Cluster Analysis
Améliorer l’alignement
- Jouer sur la matrice de substitution
- Alignement local vs. alignement global
- Intervention manuelle
Construction du modèle 3D
À partir de :
1 Séquence cible
2 Structure(s) support(s)
3 Alignement des séquences cible et support(s)
Modeller
Logiciel phare de la modélisation par homologie
• Utilise un jeu de contraintes pour guider˝ la construction du modèle
Contraintes spatiales
• Obtenues à partir de l’analyse statistique des similarités existantes
entre des nombreuses paires de structures homologues
• Prend en compte les effets d’interdépendance éventuelle entre les
contraintes :
• Dépendance ou indépendance des caractéristiques
• Quantification de l’association entre les caractéristiques
Satisfaire les contraintes spatiales
• Contraintes spatiales + champ de forces → fonction objective
• 10 000 atomes → ~200 000 contraintes
• Le modèle est obtenu en optimisant la fonction objective en modifiant
de manière itérative la position des atomes
Champ de forces
Ensemble de fonctions et de paramètres décrivant les interactions entre les atomes d’un système
Variable target function
- Début = minimisation énergétique : contraintes locales puis introduction de contraintes longues distances
- Fin = optimisation par dynamique moléculaire
Optimisation du modèle 3D
- Minimisation énergétique
- Dynamique moléculaire
- . . .
Validation du modèle 3D
• Comparaison :
- entre les modèles prédits entre eux (flexibilité, . . .)
- avec les templates
• Contrôle de la géométrie :
- Diagramme de Ramachandran
- Conflits stériques
- Distribution des distances, angles, . . .
• Confrontation aux données expérimentales
• Résidus enfouis mieux prédits que les résidus accessibles
• Zones de faible homologie moins bien prédites
• Boucles sont plus variables
Méthodes de predictions struct tertiaires :
• Modélisation par homologie / comparative
• Modélisation ab initio / de novo : principes physiques
• Modélisation par reconnaissance de repliement (threading) : enfilage
d’une séquence sur un repliement
Modélisation ab initio : principe
- Construction de modèles 3D sur la base de la séquence et uniquement de la séquence
- S’appuie sur des base de données structurales et / ou les principes physiques à l’origine du repliement des protéines → modèle construit à partir des propriétés structurales des protéines en général
- Généralement, recherche d’un assemblage optimal de fragments structuraux
Fragments structuraux
- Structures canoniques très courantes
* 3 à 10 résidus de long
rosetta : principe général
• À partir d’une banque de fragments → bibliothèque de fragments correspondants aux fragments obtenus en découpant la séquence
• Fragments de 3 ou 9 acides aminés
• Sélection selon la corrélation structure locale /séquence locale
• Classement des fragments en fonction :
- chevauchement stérique minimal
- angles de torsion favorables
- structure secondaire compatible avec les structures secondaires attribuées (DSSP)
rosetta : principe général
Commence par la chaîne principale uniquement :
- Structure de départ : conformation étendue (c’est-à-dire non repliée) de la protéine
- Fragments assemblés
- Fragments de plus haut score sont plus souvent testés
- ~30000 insertions de fragments de 9 résidus puis ~10000 insertions de fragments de 3 résidus
rosetta : principe général
Optimisation :
• Perturbations au hasard des angles de torsion φ et ψ
• Chaînes latérales ajustées en parcourant l’espace conformationnel des rotamères
• Minimisation énergétique finale sur tous les angles dièdres (chaîne principale et chaînes latérales)
→ 20 000 à 50 000 modèles générés
→ Besoin d’une fonction de score pour les classer