Cours 3 - Alignement de multiples séquences et recherche de motifs Flashcards
Que permet les alignements de séquences du point de vue compréhension biologique de la séquence?
– Identifier des caractéristiques communes entre des
séquences
– Trouver des séquences semblables dans une BD
– Calculer une « distance » entre des séquences (arbre
phylogénétique)
– Inférer une fonction (culpabilité par association)
– Retrouver la position d’une petite séquence (e.g. lecture de séquençage) dans une plus grande (e.g. génome)
Quels sont les 3 critères pris en compte lorsqu’on calcule le score d’un alignement?
- Appariement (Match) [+]
- Mésappariement (Mismatch) [-]
- Insertion / Délétion (Gap) [-]
– Création (Existence)
– Extension longueur k
– Coût = -(création + (extension * k))
Qu’est-ce que l’identité?
Le niveau d’identité est la fraction des résidus qui sont identiques dans les deux séquences
Qu’est-ce que la similarité?
Deux résidus sont similaires si leur substitution n’a aucun effet sur la fonctionnalité. Le niveau de similarité est la fraction des résidus qui sotn similaires.
Qu’est-ce que l’homologie?
La similarité entre deux séquences est dérivée d’un ancêtre commun
Si je compare deux séquences aléatoires par BLAST, est-ce possible d’avoir 0% d’identité entre mes séquences?
Non
Qu’est-ce que l’homologie fonctionnelle?
Dérivé du même ancêtre et ont toujours la même fonction
Connaitre les différences entre homologue, orthologue et paralogue
Si j’ai un gène qui s’est dupliqué dans l’évolution, donc j’ai alpha et beta. Tous les alpha sont orthologue entre eux, comme tous les beta sont orthologue entre eux. les paralogues sont une paire alpha et beta du même organisme (ex. la souris). Pis tout le monde est homologue.
Il est plus simple de déterminer si des séquences sont homologues en utilisant des séquences de nucléotides ou d’a.a.? pourquoi?
A.a.
- plus possible de trouver un alignement entre deux nucléotides aléatoire que entre 2 a.a. (4 choix VS 26)
- le code génétique est redondant (dégénérescence du code génétique)
- la fonction d’un gène est définie par la sturcture de la protéine.
Esce qu’un alignement est suffisant pour déterminer si deux gènes sont homologues?
Non, donne une indication mais on a besoin d’information supplémentaires (phylogénie des organismes, etc.)
Que représente le schéma de dot plot d’un alignement?
Sur chaque axe est représenté une séquence. une diagonale représente les résidus qui sont parfaitement alignés. ou il n’y a pas de diagonal représente les espaces de potentielles insertions / délétions
Quel serait l’impact sur le score si on aligne
des séquences 10X plus longues?
Le score va augmenter, ce qui signifie qu’il faut idéalement comparer des séquences de longueurs similaires.
Quelle est la différence est une matrice d’identité et une matrice de substitution?
matrice d’identité = score d’identité, donc 1 quand c’est le même a.a. et 0 si ce n’est pas le même.
matrice de substitution = score de similarité, le score dépent de si l’a.a. à la même fonction, si c’est possible évolutivement parlant de changer pour un a.a., etc.
Quels sont les problèmes liés à une matrice d’identité?
- ne prend pas en compte que certains a.a. ont les mêmes caractéristiques biochimiques (donc donne 0 pour un changement possible)
- certains a.a. sont importants pour la stabilité de la protéine (donc certaines inversion sont moins que probables)
Que représente la diagonale de cette matrice symétrique?
a quel point c’est probable quon mette le même a.a.