Cours 4 - Introduction sir l'alignement de plusieurs séquences Flashcards

1
Q

Que peut-on identifier gràce à un alignement de plusieurs séquences?

A

Très utile pour identifier des régions conservées ayant
potentiellement un rôle important, incluant :
– Fonction d’une protéine (e.g. site catalytique)
– Sites de liaison de facteurs de transcription sur l’ADN
– Structures secondaires dans l’ARN
* Permet également d’étudier l’évolution des organismes :la phylogénétique
* Différentes façons de représenter un alignement de
plusieurs séquences => motif

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Que signifie heuristique?

A

Aucune garantie qu’on trouve l’alignement optimal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les trois étapes de l’alignement progressif?

A
  1. Calculer la matrice de distances entre les paires de séquences
  2. Contruire un arbre phylogénétique en utilisant cette matrice
  3. utiliser cet arbre pour aligner chacune des séquences
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

La distance entre une paire de séquence est inversement proportionnel à quoi?

A

À la similarité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dans l’alignement progressif, à quoi sert l’arbre phylogénétique?

A

Il détermine dans quel ordre on ajoute chaque séquence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment peut-on représenter un alignement de multiple séquence?

A
  • Séquence consensus
  • Matrice de compte
  • Matrice de fréquence de position (PFM) (nb que fois qu’est présent / nb total de séquence)
  • PFM ajusté
  • Matrice de poids de position (PWM)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comment passe-t-on de PFM à PFM ajusté (mathématiquement)?

A
  1. à partir de PFM, on ajoute 1 à toutes les valeurs (ou la valeur souhaitée)
  2. on multiplie les valeurs par 0.2 pour a:t et 0.3 pour c:g (valeurs peuvents variées selon ce qu’on veut, en fonction du contenu GC par exemple)
  3. on normalise en divisant par n+1 (comme on a ajouté 1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Comment passe-t-on de PFM ajusté à PWM (mathématiquement)?

A

pour chaque valeur, on divise la fréquence par la probabilité (donc probabilité d’avoir CG ou AT)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Que représentent les bits?

A

le degrés de surprise, donc à quel point c’est surprenant que cet évênement arrive à partir d’une variable aléatoire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

lorsqu’on cherche un motif, quelle type de matrice doit-on utilisé?

A

PWM

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

quelles sont les étapes de PSI-BLAST?

A
  1. chercher les séquences d dans la base de données D
  2. Construiser un PWM utilisant les séquences d avec un score E plus petit qu’un seuil E
  3. utiliser le PWM pour l’identification des séquences relatées
  4. Raffiner la PWM
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Sur quoi est basé la phylogénie (théorie)? et sur quoi ce base cette théorie?

A

l’horloge moléculaire
– Stipule que les mutations génétiques s’accumulent dans un génome à une vitesse constante
=> permet alors de dater des événements !

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelles sont les limitations de la théorie de l’horloge moléculaire?

A
  • N’est vrai que pour les mutations « neutres »
    – Pas valide pour toutes les espèces (e.g. bactéries)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

nommer deux facteurs importants pour l’interprétation d’un arbre phylogénétique.

A

La topologie et la longueur des branches

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

quelle est la limite des arbres phylogénétiques?

A

Selon l’endroit du génome qui est pris en compte, on obtient pas les mêmes arbres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

comment peut-on évaluer la robustesse d’un arbre phylogénétique?

A

par boostrapped, on compare avec des données aléatoires pour voir si ces données sont incluses dans l’arbre formé. PPermet de donner un score, plus proche de 100 mieux c’est.

17
Q

Décrire les étapes de MEME.

A
  1. expectation step : on fait comme si on connaissait la matrice et on estime la meilleure position
  2. maximization step : on fait comme si on connaissait la position et on estime la matrice
    And repeat
18
Q

À quoi sert MEME?

A

Trouver des motifs dans des séquences non-alignées

19
Q

Est-ce que COBALT utilise des informations externes pour construire cet arbre phylogénétique ou seulement les séquences qu’on lui fournis?

A

non, utilise juste les séquences