Structure tertiaire Flashcards
Méthode Homologie : principe
• Identification d’une protéine de structure connue dont la séquence présente une homologie → construction d’un modèle par homologie
Structures mieux conservées que les séquences -> Existe une homologie de séq -> existe une homologie de struct => Prédiction d’une struct par homologie possible
Degré d’homologie
Identité de séquence | Modélisation par homologie
• > 35% Possible
• 25 − 35% Possible sous conditions
• < 25% Difficile voire impossible
Plus le pourcentage d’identité / homologie est grand, plus la modélisation sera fiable
On estime que 28% des protéines ont au moins 25% d’identité de
séquence avec une protéine de structure connue
Modélisation par homologie : les étapes
- Identification d’une ou plusieurs protéines de structure connue et de séquence(s) homologue(s)
- Alignement cible / support(s) (target / template(s))
- Construction du modèle 3D
- Optimisation du modèle 3D
- Validation du modèle 3D
Identification d’une ou plusieurs protéines de structure
connue et de séquence(s) homologue(s)
- Recherche de séquence(s) homologue(s) dans les bases de données
- BLAST ( Basic Local Alignment Search Tool)
- Requête : séquence de la protéine cible
- Cible : séquences de la PDB uniquement
- But : trouver au moins une protéine de séquence homologue qui servira de support (template) pour la construction du modèle
Niveau d’homologie
• Prise en compte de l’identité (mêmes acides aminés) et de la similarité
(acides aminés ayant les mêmes propriétés physico-chimiques)
Que regarder dans BLAST ?
E-value : Expected value
• Comparaison au “bruit de fond˝
• Nombre de touches avec le même score que l’on peut s’attendre à avoir en cherchant au hasard dans une base de données
• Prend en compte la longueur de la séquence
• Plus la E-value est faible, plus le résultat est
significatif
Alignement cible / support (target : template(s)
Alignement entre :
• 1 la séquence de la protéine dont on veut connaître la structure 3D (cible ou target)
• 2 la ou les séquences des protéines identifiées comme présentant une homologie de séquence suffisante (support(s) ou template(s))
Avec quel algorithme aligner les séquences ?
- Algorithmes habituels d’alignement multiple : clustal, fasta, . . .
- Comparaisons et combinaisons possibles et même souhaitables
- Alignement structural si plusieurs templates
Comment juger la pertinence des résultats ?
• Pourcentages d’identité et similarité, nombre de gaps, position des changements
• Attention particulière aux résidus importants (conservés, porteur de
l’activité, . . .)
• Alignement des structures secondaires
• Alignement des parties hydrophiles / hydrophobes (homologie HCA -Hydrophobic Cluster Analysis
Améliorer l’alignement
- Jouer sur la matrice de substitution
- Alignement local vs. alignement global
- Intervention manuelle
Construction du modèle 3D
À partir de :
1 Séquence cible
2 Structure(s) support(s)
3 Alignement des séquences cible et support(s)
Modeller
Logiciel phare de la modélisation par homologie
• Utilise un jeu de contraintes pour guider˝ la construction du modèle
Contraintes spatiales
• Obtenues à partir de l’analyse statistique des similarités existantes
entre des nombreuses paires de structures homologues
• Prend en compte les effets d’interdépendance éventuelle entre les
contraintes :
• Dépendance ou indépendance des caractéristiques
• Quantification de l’association entre les caractéristiques
Satisfaire les contraintes spatiales
• Contraintes spatiales + champ de forces → fonction objective
• 10 000 atomes → ~200 000 contraintes
• Le modèle est obtenu en optimisant la fonction objective en modifiant
de manière itérative la position des atomes
Champ de forces
Ensemble de fonctions et de paramètres décrivant les interactions entre les atomes d’un système
Variable target function
- Début = minimisation énergétique : contraintes locales puis introduction de contraintes longues distances
- Fin = optimisation par dynamique moléculaire
Optimisation du modèle 3D
- Minimisation énergétique
- Dynamique moléculaire
- . . .
Validation du modèle 3D
• Comparaison :
- entre les modèles prédits entre eux (flexibilité, . . .)
- avec les templates
• Contrôle de la géométrie :
- Diagramme de Ramachandran
- Conflits stériques
- Distribution des distances, angles, . . .
• Confrontation aux données expérimentales
• Résidus enfouis mieux prédits que les résidus accessibles
• Zones de faible homologie moins bien prédites
• Boucles sont plus variables
Méthodes de predictions struct tertiaires :
• Modélisation par homologie / comparative
• Modélisation ab initio / de novo : principes physiques
• Modélisation par reconnaissance de repliement (threading) : enfilage
d’une séquence sur un repliement
Modélisation ab initio : principe
- Construction de modèles 3D sur la base de la séquence et uniquement de la séquence
- S’appuie sur des base de données structurales et / ou les principes physiques à l’origine du repliement des protéines → modèle construit à partir des propriétés structurales des protéines en général
- Généralement, recherche d’un assemblage optimal de fragments structuraux
Fragments structuraux
- Structures canoniques très courantes
* 3 à 10 résidus de long
rosetta : principe général
• À partir d’une banque de fragments → bibliothèque de fragments correspondants aux fragments obtenus en découpant la séquence
• Fragments de 3 ou 9 acides aminés
• Sélection selon la corrélation structure locale /séquence locale
• Classement des fragments en fonction :
- chevauchement stérique minimal
- angles de torsion favorables
- structure secondaire compatible avec les structures secondaires attribuées (DSSP)
rosetta : principe général
Commence par la chaîne principale uniquement :
- Structure de départ : conformation étendue (c’est-à-dire non repliée) de la protéine
- Fragments assemblés
- Fragments de plus haut score sont plus souvent testés
- ~30000 insertions de fragments de 9 résidus puis ~10000 insertions de fragments de 3 résidus
rosetta : principe général
Optimisation :
• Perturbations au hasard des angles de torsion φ et ψ
• Chaînes latérales ajustées en parcourant l’espace conformationnel des rotamères
• Minimisation énergétique finale sur tous les angles dièdres (chaîne principale et chaînes latérales)
→ 20 000 à 50 000 modèles générés
→ Besoin d’une fonction de score pour les classer
Rosetta : fonction de score
Comprend différents termes : • Énergie de solvatation • Interactions par paires (disulfures, électrostatiques, . . .) • Empilement brin - hélice • Appariement des brins dans les feuillets (liaisons hydrogène) • Rayon de gyration • Forces de Van der Waals • Énergie des rotamères • Énergie de référence de l’état déplié
prédiction par reconnaissance de repliement : threading : principe
• Certaines protéines ont des structures semblables mais des séquences
très divergentes
• Elles adoptent le même repliement (fold)
→ Prédiction d’un repliement de la protéine compatible avec la séquence
sans tenir compte de l’(absence d’)homologie de séquence
• Test de plusieurs repliements → la meilleure configuration repliement
/ séquence est conservée → projette la séquence sur le repliement
sélectionné pour produire le modèle final
• Presque plus de nouveau repliement (d’après CATH, dernier nouveau
repliement en 2012) → le repliement d’une séquence est
probablement déjà dans la PDB
Reconnaissance de repliement
• Alignement séquence - structure
• Étape la plus délicate
• Un mauvais choix de repliement amènera forcément un mauvais
modèle
• Fonction objective mesure la compatibilité séquence / positions
correspondantes dans un repliement type (template)
• Prend en compte :
• préférence des acides aminés en termes d’accessibilité au solvent
• préférence des acides aminés pour les structures secondaires
• interactions avec les résidus voisins (contacts)
• présence de gaps
• . . .
Reconnaissance de repliement à partir de
À partir du repliement sélectionné : • alignement séquence / template sélectionné • optimisation de l’alignement • minimisation énergétique • . . .
Prédiction des contacts intra-protéiques
• Prédit des régions de la séquence susceptibles de se trouver en contact
• A permis d’améliorer significativement la qualité des modèles générés
• Spécifiquement, améliore la qualité de l’alignement séquence /
template
Critical Assesment of protein structure prediction (CASP)
• Concours d’évaluation des méthodes de prédiction de structure
tertiaire
• Se déroule les années paires
• Plusieurs sous-concours : prédiction des contacts, utilisation de
données expérimentales, . . .
• Bon point de départ pour chercher la meilleure méthode
• En 2018, apparition de Google dans la compétition
AlphaFold & AlphaFold 2
• Dans la lignée des travaux d’apprentissage profond sur le jeu de Go,
. . .
• S’appuie sur des concepts existants : prédictions des distances
inter-résidus et des angles φ et ψ
• Réelle avancée : capacité à utiliser de (très) gros volumes de données
par un algorithme d’apprentissage automatique
• A développé plusieurs réseaux de neurones (et fonctions de score
associés) :
• distances inter-résidus
• distance d’un modèle par rapport à la bonne réponse
• générer de nouveaux fragments pour améliorer le score
• Meilleurs résultats à CASP13 et CASP14 pour les protéines sans
templates