Cours 4 - Introduction sir l'alignement de plusieurs séquences Flashcards
Que peut-on identifier gràce à un alignement de plusieurs séquences?
Très utile pour identifier des régions conservées ayant
potentiellement un rôle important, incluant :
– Fonction d’une protéine (e.g. site catalytique)
– Sites de liaison de facteurs de transcription sur l’ADN
– Structures secondaires dans l’ARN
* Permet également d’étudier l’évolution des organismes :la phylogénétique
* Différentes façons de représenter un alignement de
plusieurs séquences => motif
Que signifie heuristique?
Aucune garantie qu’on trouve l’alignement optimal
Quelles sont les trois étapes de l’alignement progressif?
- Calculer la matrice de distances entre les paires de séquences
- Contruire un arbre phylogénétique en utilisant cette matrice
- utiliser cet arbre pour aligner chacune des séquences
La distance entre une paire de séquence est inversement proportionnel à quoi?
À la similarité
Dans l’alignement progressif, à quoi sert l’arbre phylogénétique?
Il détermine dans quel ordre on ajoute chaque séquence
Comment peut-on représenter un alignement de multiple séquence?
- Séquence consensus
- Matrice de compte
- Matrice de fréquence de position (PFM) (nb que fois qu’est présent / nb total de séquence)
- PFM ajusté
- Matrice de poids de position (PWM)
Comment passe-t-on de PFM à PFM ajusté (mathématiquement)?
- à partir de PFM, on ajoute 1 à toutes les valeurs (ou la valeur souhaitée)
- on multiplie les valeurs par 0.2 pour a:t et 0.3 pour c:g (valeurs peuvents variées selon ce qu’on veut, en fonction du contenu GC par exemple)
- on normalise en divisant par n+1 (comme on a ajouté 1)
Comment passe-t-on de PFM ajusté à PWM (mathématiquement)?
pour chaque valeur, on divise la fréquence par la probabilité (donc probabilité d’avoir CG ou AT)
Que représentent les bits?
le degrés de surprise, donc à quel point c’est surprenant que cet évênement arrive à partir d’une variable aléatoire
lorsqu’on cherche un motif, quelle type de matrice doit-on utilisé?
PWM
quelles sont les étapes de PSI-BLAST?
- chercher les séquences d dans la base de données D
- Construiser un PWM utilisant les séquences d avec un score E plus petit qu’un seuil E
- utiliser le PWM pour l’identification des séquences relatées
- Raffiner la PWM
Sur quoi est basé la phylogénie (théorie)? et sur quoi ce base cette théorie?
l’horloge moléculaire
– Stipule que les mutations génétiques s’accumulent dans un génome à une vitesse constante
=> permet alors de dater des événements !
Quelles sont les limitations de la théorie de l’horloge moléculaire?
- N’est vrai que pour les mutations « neutres »
– Pas valide pour toutes les espèces (e.g. bactéries)
nommer deux facteurs importants pour l’interprétation d’un arbre phylogénétique.
La topologie et la longueur des branches
quelle est la limite des arbres phylogénétiques?
Selon l’endroit du génome qui est pris en compte, on obtient pas les mêmes arbres