Cours 3 - Alignement de multiples séquences et recherche de motifs Flashcards

1
Q

Que permet les alignements de séquences du point de vue compréhension biologique de la séquence?

A

– Identifier des caractéristiques communes entre des
séquences
– Trouver des séquences semblables dans une BD
– Calculer une « distance » entre des séquences (arbre
phylogénétique)
– Inférer une fonction (culpabilité par association)
– Retrouver la position d’une petite séquence (e.g. lecture de séquençage) dans une plus grande (e.g. génome)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quels sont les 3 critères pris en compte lorsqu’on calcule le score d’un alignement?

A
  • Appariement (Match) [+]
  • Mésappariement (Mismatch) [-]
  • Insertion / Délétion (Gap) [-]
    – Création (Existence)
    – Extension longueur k
    – Coût = -(création + (extension * k))
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce que l’identité?

A

Le niveau d’identité est la fraction des résidus qui sont identiques dans les deux séquences

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce que la similarité?

A

Deux résidus sont similaires si leur substitution n’a aucun effet sur la fonctionnalité. Le niveau de similarité est la fraction des résidus qui sotn similaires.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est-ce que l’homologie?

A

La similarité entre deux séquences est dérivée d’un ancêtre commun

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Si je compare deux séquences aléatoires par BLAST, est-ce possible d’avoir 0% d’identité entre mes séquences?

A

Non

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que l’homologie fonctionnelle?

A

Dérivé du même ancêtre et ont toujours la même fonction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Connaitre les différences entre homologue, orthologue et paralogue

A

Si j’ai un gène qui s’est dupliqué dans l’évolution, donc j’ai alpha et beta. Tous les alpha sont orthologue entre eux, comme tous les beta sont orthologue entre eux. les paralogues sont une paire alpha et beta du même organisme (ex. la souris). Pis tout le monde est homologue.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Il est plus simple de déterminer si des séquences sont homologues en utilisant des séquences de nucléotides ou d’a.a.? pourquoi?

A

A.a.
- plus possible de trouver un alignement entre deux nucléotides aléatoire que entre 2 a.a. (4 choix VS 26)
- le code génétique est redondant (dégénérescence du code génétique)
- la fonction d’un gène est définie par la sturcture de la protéine.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Esce qu’un alignement est suffisant pour déterminer si deux gènes sont homologues?

A

Non, donne une indication mais on a besoin d’information supplémentaires (phylogénie des organismes, etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Que représente le schéma de dot plot d’un alignement?

A

Sur chaque axe est représenté une séquence. une diagonale représente les résidus qui sont parfaitement alignés. ou il n’y a pas de diagonal représente les espaces de potentielles insertions / délétions

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quel serait l’impact sur le score si on aligne
des séquences 10X plus longues?

A

Le score va augmenter, ce qui signifie qu’il faut idéalement comparer des séquences de longueurs similaires.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelle est la différence est une matrice d’identité et une matrice de substitution?

A

matrice d’identité = score d’identité, donc 1 quand c’est le même a.a. et 0 si ce n’est pas le même.
matrice de substitution = score de similarité, le score dépent de si l’a.a. à la même fonction, si c’est possible évolutivement parlant de changer pour un a.a., etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quels sont les problèmes liés à une matrice d’identité?

A
  • ne prend pas en compte que certains a.a. ont les mêmes caractéristiques biochimiques (donc donne 0 pour un changement possible)
  • certains a.a. sont importants pour la stabilité de la protéine (donc certaines inversion sont moins que probables)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Que représente la diagonale de cette matrice symétrique?

A

a quel point c’est probable quon mette le même a.a.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quels sont les deux types d’alignement?

A

Global VS Local
Global : tente d’aligner tous les résidus de chaque séquence
Local : identifie et aligne les régions les plus similaires (ex identification domaines conservés)

17
Q

Quelles sont les différences entre les alignements PD et fasta/BLAST?

A

sont tous deux des alignements locaux.
PD garanti de trouver le meilleur alignement et est BCP plus long
Fasta/BLAST est plus perfomant mais approximatif

18
Q

Quelles sont les 4 étapes de l’analyse FASTA?

A
  1. cherche les diagonals (donc toutes les régions identiques).
  2. prend les meilleures diagonales et calcule leur scores avec matrice de substitution + compte pénalité des espaces créés
  3. calcule l’alignement optimal en utilisant les régions initiales qui ont les plus hauts scores.
  4. utilise algorithme PD pour aligné le query avec les meilleures séquences trouver jusqu’à présent.
19
Q

QUelles sont les différences en FASTA et BLAST?

A
  1. dans la première étape de FASTA cherche les diagonales dans chaque séquence qui sont identiques VS BLAST qui cherche les diagonals qui ont un score au dessus d’un seuil.
20
Q

Quelles sont les deux questions quxquelles une analyse statistique réalisée sur un score peut répondre?

A
  1. quelle est la probabilité que le score d’au moins S se produise par hasard?
  2. a combien d’associations par hasard peut-on s’attendre quand on lance une recherche dans une base de données?
21
Q

Quel paramètre répond à la question : quelle est la probabilité que le score d’au moins S se produise par hasard?

A

P-value

22
Q

Quel paramètre répond à la question : a combien d’associations par hasard peut-on s’attendre quand on lance une recherche dans une base de données?

A

E-value

23
Q

que représente est non-redondant dans les BD?

A

implique que pas deux entrées de la BD identiques, il y a toutefois des entrées avec des séquences chevauchantes (e.g., entrées différentes pour l’ARNm d’un gène, sa séquence génomique (avec intron) et pour un locus contenant plusieurs gènes)

24
Q

Dans BLAST, que représente le max score?

A

le score maximal de la plus grande région de similarité entre le query et la séquence alignée. Donc s’il y a des espace dans l’alignement, donne seulement le morceau avec le meilleur score.

25
Q

Dans BLAST, que représente le total score?

A

le score de toutes les régions de similarité entre le query et la séquence alignée. Donc si l’agnement est en plusieurs morceaux, perd des points due aux espaces.

26
Q

Dans BLAST, que représente le query cover?

A

combien de résidus sur l’alignement ont pu être alignés

27
Q

Dans BLAST, que représente le per. ident.?

A

combien de résidus qui ont été alignés sont les mêmes que dans le query.

28
Q

Dans BLAST, que représente le E-value?

A

E-val = nb d’alignements attendus avec un aussi bon score dans une BD de taille équivalente à celle utilisée et composée de séquences aléatoires

29
Q

Pourquoi a-t-on besoin de matrices de substitution?

A

lorsquon a besoin de comparer des aa (des séquences), car selon leur fonction, il y a des probabilités différentes que la mutation ce maintienne.

30
Q

En terme simple, comment expliquer le calcul du score d’alignement d’ADN?

A

+ appariement, - espace, - mismatch

31
Q

En terme simple, comment expliquer le calcul du score d’alignement de protéine?

A

probabilité aa, - espace, - nb résidu

32
Q

Quelle est la différence entre P-val et E-val calculées par BLAST?

A

=> est la probabilité quun score d’alignement de S points soit obtenu par chance compte tenu de la longueur de la séquence soumise (query)
=> correspond au nb attendu de séquence ayant au minimum un score d’alignement de S pts avec un score Query que l’on trouverait en cherchant dans un BD de la même taille que celle utilisée et composée de séquences aléatoires

33
Q

6Vous faites un BLAST avec votre séquence d’intérêt (Query) et la BD nr. Pour l’alignement entre votre Query et la séquence vous obtenez un score total de 12 A) Quelle est l’interprétation détaillée de la valeur de E-value de 2.3 ?

A

on trouverait 2.3 séquences du score de 12 ou plus dans un BD composé de séquences aléatoires

34
Q

Est-ce que la présence d’un espace (gap) dans un alignement peut augmenter la possibilité qu’il s’agisse de séquences homologues?

A

non, diminue les chances que c’est homologue