Structure tertiaire Flashcards by Mts mn

Méthode Homologie : principe

• Identification d’une protéine de structure connue dont la séquence présente une homologie → construction d’un modèle par homologie

Structures mieux conservées que les séquences -> Existe une homologie de séq -> existe une homologie de struct => Prédiction d’une struct par homologie possible

How well did you know this?

Not at all

Perfectly

Degré d’homologie

Identité de séquence | Modélisation par homologie
• > 35% Possible
• 25 − 35% Possible sous conditions
• < 25% Difficile voire impossible

Plus le pourcentage d’identité / homologie est grand, plus la modélisation sera fiable

On estime que 28% des protéines ont au moins 25% d’identité de
séquence avec une protéine de structure connue

How well did you know this?

Not at all

Perfectly

Modélisation par homologie : les étapes

Identification d’une ou plusieurs protéines de structure connue et de séquence(s) homologue(s)
Alignement cible / support(s) (target / template(s))
Construction du modèle 3D
Optimisation du modèle 3D
Validation du modèle 3D

How well did you know this?

Not at all

Perfectly

Identification d’une ou plusieurs protéines de structure

connue et de séquence(s) homologue(s)

Recherche de séquence(s) homologue(s) dans les bases de données
BLAST ( Basic Local Alignment Search Tool)
Requête : séquence de la protéine cible
Cible : séquences de la PDB uniquement
But : trouver au moins une protéine de séquence homologue qui servira de support (template) pour la construction du modèle

How well did you know this?

Not at all

Perfectly

Niveau d’homologie

• Prise en compte de l’identité (mêmes acides aminés) et de la similarité
(acides aminés ayant les mêmes propriétés physico-chimiques)

How well did you know this?

Not at all

Perfectly

Que regarder dans BLAST ?

E-value : Expected value

• Comparaison au “bruit de fond˝
• Nombre de touches avec le même score que l’on peut s’attendre à avoir en cherchant au hasard dans une base de données
• Prend en compte la longueur de la séquence
• Plus la E-value est faible, plus le résultat est
significatif

How well did you know this?

Not at all

Perfectly

Alignement cible / support (target : template(s)

Alignement entre :
• 1 la séquence de la protéine dont on veut connaître la structure 3D (cible ou target)

• 2 la ou les séquences des protéines identifiées comme présentant une homologie de séquence suffisante (support(s) ou template(s))

How well did you know this?

Not at all

Perfectly

Avec quel algorithme aligner les séquences ?

Algorithmes habituels d’alignement multiple : clustal, fasta, . . .
Comparaisons et combinaisons possibles et même souhaitables
Alignement structural si plusieurs templates

How well did you know this?

Not at all

Perfectly

Comment juger la pertinence des résultats ?

• Pourcentages d’identité et similarité, nombre de gaps, position des changements
• Attention particulière aux résidus importants (conservés, porteur de
l’activité, . . .)
• Alignement des structures secondaires
• Alignement des parties hydrophiles / hydrophobes (homologie HCA -Hydrophobic Cluster Analysis

How well did you know this?

Not at all

Perfectly

Améliorer l’alignement

Jouer sur la matrice de substitution
Alignement local vs. alignement global
Intervention manuelle

How well did you know this?

Not at all

Perfectly

Construction du modèle 3D

À partir de :
1 Séquence cible
2 Structure(s) support(s)
3 Alignement des séquences cible et support(s)

How well did you know this?

Not at all

Perfectly

Modeller

Logiciel phare de la modélisation par homologie

• Utilise un jeu de contraintes pour  guider˝ la construction du modèle

How well did you know this?

Not at all

Perfectly

Contraintes spatiales

• Obtenues à partir de l’analyse statistique des similarités existantes
entre des nombreuses paires de structures homologues
• Prend en compte les effets d’interdépendance éventuelle entre les
contraintes :
• Dépendance ou indépendance des caractéristiques
• Quantification de l’association entre les caractéristiques

How well did you know this?

Not at all

Perfectly

Satisfaire les contraintes spatiales

• Contraintes spatiales + champ de forces → fonction objective
• 10 000 atomes → ~200 000 contraintes
• Le modèle est obtenu en optimisant la fonction objective en modifiant
de manière itérative la position des atomes

How well did you know this?

Not at all

Perfectly

Champ de forces

Ensemble de fonctions et de paramètres décrivant les interactions entre les atomes d’un système

How well did you know this?

Not at all

Perfectly

Variable target function

Study These Flashcards

Début = minimisation énergétique : contraintes locales puis introduction de contraintes longues distances
Fin = optimisation par dynamique moléculaire

Optimisation du modèle 3D

Study These Flashcards

Minimisation énergétique
Dynamique moléculaire
. . .

Validation du modèle 3D

Study These Flashcards

• Comparaison :
- entre les modèles prédits entre eux (flexibilité, . . .)
- avec les templates
• Contrôle de la géométrie :
- Diagramme de Ramachandran
- Conflits stériques
- Distribution des distances, angles, . . .
• Confrontation aux données expérimentales
• Résidus enfouis mieux prédits que les résidus accessibles
• Zones de faible homologie moins bien prédites
• Boucles sont plus variables

Méthodes de predictions struct tertiaires :

Study These Flashcards

• Modélisation par homologie / comparative
• Modélisation ab initio / de novo : principes physiques
• Modélisation par reconnaissance de repliement (threading) : enfilage
d’une séquence sur un repliement

Modélisation ab initio : principe

Study These Flashcards

Construction de modèles 3D sur la base de la séquence et uniquement de la séquence
S’appuie sur des base de données structurales et / ou les principes physiques à l’origine du repliement des protéines → modèle construit à partir des propriétés structurales des protéines en général
Généralement, recherche d’un assemblage optimal de fragments structuraux

Fragments structuraux

Study These Flashcards

Structures canoniques très courantes

* 3 à 10 résidus de long

rosetta : principe général

Study These Flashcards

• À partir d’une banque de fragments → bibliothèque de fragments correspondants aux fragments obtenus en découpant la séquence
• Fragments de 3 ou 9 acides aminés
• Sélection selon la corrélation structure locale /séquence locale
• Classement des fragments en fonction :
- chevauchement stérique minimal
- angles de torsion favorables
- structure secondaire compatible avec les structures secondaires attribuées (DSSP)

rosetta : principe général

Commence par la chaîne principale uniquement :

Study These Flashcards

Structure de départ : conformation étendue (c’est-à-dire non repliée) de la protéine
Fragments assemblés
Fragments de plus haut score sont plus souvent testés
~30000 insertions de fragments de 9 résidus puis ~10000 insertions de fragments de 3 résidus

rosetta : principe général

Optimisation :

Study These Flashcards

• Perturbations au hasard des angles de torsion φ et ψ
• Chaînes latérales ajustées en parcourant l’espace conformationnel des rotamères
• Minimisation énergétique finale sur tous les angles dièdres (chaîne principale et chaînes latérales)
→ 20 000 à 50 000 modèles générés
→ Besoin d’une fonction de score pour les classer

Rosetta : fonction de score

``` Comprend différents termes : • Énergie de solvatation • Interactions par paires (disulfures, électrostatiques, . . .) • Empilement brin - hélice • Appariement des brins dans les feuillets (liaisons hydrogène) • Rayon de gyration • Forces de Van der Waals • Énergie des rotamères • Énergie de référence de l’état déplié ```

prédiction par reconnaissance de repliement : threading : principe

• Certaines protéines ont des structures semblables mais des séquences très divergentes • Elles adoptent le même repliement (fold) → Prédiction d’un repliement de la protéine compatible avec la séquence sans tenir compte de l’(absence d’)homologie de séquence • Test de plusieurs repliements → la meilleure configuration repliement / séquence est conservée → projette la séquence sur le repliement sélectionné pour produire le modèle final • Presque plus de nouveau repliement (d’après CATH, dernier nouveau repliement en 2012) → le repliement d’une séquence est probablement déjà dans la PDB

Reconnaissance de repliement

• Alignement séquence - structure • Étape la plus délicate • Un mauvais choix de repliement amènera forcément un mauvais modèle • Fonction objective mesure la compatibilité séquence / positions correspondantes dans un repliement type (template) • Prend en compte : • préférence des acides aminés en termes d’accessibilité au solvent • préférence des acides aminés pour les structures secondaires • interactions avec les résidus voisins (contacts) • présence de gaps • . . .

Reconnaissance de repliement à partir de

``` À partir du repliement sélectionné : • alignement séquence / template sélectionné • optimisation de l’alignement • minimisation énergétique • . . . ```

Prédiction des contacts intra-protéiques

• Prédit des régions de la séquence susceptibles de se trouver en contact • A permis d’améliorer significativement la qualité des modèles générés • Spécifiquement, améliore la qualité de l’alignement séquence / template

Critical Assesment of protein structure prediction (CASP)

• Concours d’évaluation des méthodes de prédiction de structure tertiaire • Se déroule les années paires • Plusieurs sous-concours : prédiction des contacts, utilisation de données expérimentales, . . . • Bon point de départ pour chercher la meilleure méthode • En 2018, apparition de Google dans la compétition

AlphaFold & AlphaFold 2

• Dans la lignée des travaux d’apprentissage profond sur le jeu de Go, . . . • S’appuie sur des concepts existants : prédictions des distances inter-résidus et des angles φ et ψ • Réelle avancée : capacité à utiliser de (très) gros volumes de données par un algorithme d’apprentissage automatique • A développé plusieurs réseaux de neurones (et fonctions de score associés) : • distances inter-résidus • distance d’un modèle par rapport à la bonne réponse • générer de nouveaux fragments pour améliorer le score • Meilleurs résultats à CASP13 et CASP14 pour les protéines sans templates

Structure tertiaire Flashcards

(31 cards)