Outils de comparaisons de séquences - CC2 Flashcards

1
Q

Quel est la base du fonctionnement des méthodes bioinformatiques ?

A

On cherche un signal (ORFs etc) puis on le compare avec des éléments déjà connus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Pourquoi compare-t-on les séquences trouvées avec cellesconnues ?

A

Une ressemblance peut indiquer une fonction bio proche, une structure 3D proche ou encore une origine évolutive commune.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment différentier la notion de similarité de la notion d’homologie ?

A

La similarité est quantifiable : deux séquences peuvent être plus ou moins similaires. En revanche, deux séquences sont homologues ou ne le sont pas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’implique une homologie ?

A

Implique l’existance d’une origine évolutive commune.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vrai ou faux : une similarité importante impique une homologie.

A

Faux : peut impliquer une homologies, mais deux séquences peu similaires peuvent être homologues ou deux séquences très similaires peuvent ne pas l’être.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Donner deux méthodes permettant une comparaison efficace de deux séquences.

A

Matrice de points.

Alignements de séquences nucléiques ou protéiques.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quel est le principe de la matrice de points ?

A

Deux séquences a comparer sont placées en abcisse et en ordonnées d’un graphe : 2 séquences identiques seront parfaitement alignés avec la diagonale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que signifieun décalage sur une matrice de points ?

A

Insertion ou délétion.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Que signifie une inversion de diagonale sur une matrice de points ?

A

Inversion d’une région d’ADN.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Que signifie la présence de diagonales parallèles sur une matrice de points ?

A

Des séquences répétées sont présentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quels sont les points apparaissant sur les matrices de points un peu partout sur le graphique, et comment les élimine-t-on ?

A

Ces points correspondent à du bruit de fond : ils sont éliminés en utilisant des filtres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Comment fonctionnent les filtres sur les matrices de points ?

A

Selon la comparaison de fenêtre d’une taille w, le calcul d’un score de similarité et l’affichage sur la matrice si le score dépasse un seuil défini. Prend aussi en compte le déplacement de la fenêtre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Comment se calcule un score de similarité ?

A

Sur la base d’un alignement entre deux séquences : c’est la somme du poids de toutes les paires de l’alignement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce qu’une matrice de substitution ?

A

Elle donne un poids aux paires de lettres dans les alignements. Pour les nucléotides, assigne une valeur pour les match et une autre pour les mismatch.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce que le diagramme de Venn ?

A

C’est un diagramme permettant de comparer les propriétés des acides aminés.-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce qu’une mutation conservative ?

A

C’est une mutation que la nature tolère et conserve.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

A quoi correspondent les matrices de substitution d’un point de vue évolutif ?

A

Elles correspondent à différentes distances évolutives entre les séquences.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quelle matrice utiliserdans le cas ou les distances évolutives entre les séquences ne sont pas connues ?

A

La BLOSUM62.

19
Q

Quelle matrice utiliser lorsque l’on sait que les séquences sont évolutivement proches ?

A

BLOSUM80.

20
Q

Quelle matrice utiliser lorsque l’on sait que les séquences sont évolutivement éloignées ?

A

BLOSUM30.

21
Q

Donner les avantages des matrices de points.

A

Avantages : vision globale de la similarité, détection rapide des régions répétées, des insertions et délétions, et des inversions.

22
Q

Donner les inconvénients des matrices de points.

A

La méthode est strictement visuelle : on ne quantifie pas la similarité détectée.
Ne fournit pas d’alignements.

23
Q

Comment se fait l’alignement de séquences (2 propositions) ?

A

Par alignement des séquences sur toute leur longueur, ou seulement des régions les plus conservées. L’alignement est fait paire par paire.

24
Q

Quels sont les trois types de paires possibles pour la méthode de l’alignement de séquences ?

A

2 résidus identiques : match.
2 résidus différents : mismatch
1 résidu avec du vide : gap.

25
Q

A quoi correspondent les mismatch et les gaps, en termes d’anomalies dans l’ADN ?

A

Les mismatch sont en fait des substitutions. Les gaps, des délétions ou des insertions.

26
Q

Plusieurs alignements sont possibles pour deux séquences. Comment est-ce que l’alignement présenté est donc choisi ?

A

L’alignement ayant le meilleur score de similarité est choisi.

27
Q

Préciser la différence de poids entre les différents gaps.

A

Les gaps ouverts (gops) ont des poids plus importants que les gaps allongés (Geps)

28
Q

Quelle différence entre alignement global optimal et alignement local optimal ?

A

Global optimal : alignement sur toute la longueur, et local alignement seulement des régions les plus conservées.

29
Q

De quoi dépend le score d’un alignement ?

A

De la somme des poids de chaque paire, de la matrice de substitution, des gaps, et de la longueur des séquences considérées.

30
Q

Est-ce que le score d’un alignement évalue le degré de ressemblance entre deux séquences ?

A

Non -

31
Q

Comment évalue ton la ressemblance des séquences ?

A

En calculant l’identité et la similarité.

32
Q

Définir l’identité, pour évaluer la ressemblance de séquences.

A

Identité = nombre de paires identiques / total de paires

33
Q

Définir la similarité, pour évaluer la ressemblance de séquences.

A

nb paires (similaires+identiques) / nb total de paires

34
Q

Quels outils peut on utiliser pour rechercher des similarités dans des banques de données ?

A

L’outil BLAST : cherche une séquence query d’interet.

35
Q

Quel principe pour BLAST ?

A

Des séquences similaires doivent contenir des petits segments strictement identiques, nommés w : c’est a partir de ces segments qu’on étend l’alignement.

36
Q

Comment peut-on éviter de tenir compte des séquences répétées ou de faible complexité pour BLAST ?

A

On ajoute des filtres.

37
Q

Comment est-ce que BLAST constitue une table de hachage ?

A

En recensant chaque segment d’une longueur saisie w dans la séquence query.

38
Q

Quelles valeurs par défaut pour la longueur des mots dans un BLAST pour : une séquence peptidique ? Nucléique ?

A

w=3 pour les peptidiques et w=11 pour les nucléiques.

39
Q

Après avoir constitué une table de hachage que fait BLAST ?

A

Il recense tous les mots de longueur w dont la similarité est au dessus d’un seuil T, puis les localise sur la séquence et fait une extension de l’alignement dans les deux sens sur le mot localisé.

40
Q

Qu’obtient on au sortir du programme BLAST ?

A

Une liste des séquences mises en évidences, triées par significativité par rapport a la e-value et score de similarité.

41
Q

Définir l’e-value.

A

Il s’agit du nombre d’alignement attendus par hasard ayant un score supérieur au score obtenu par l’HSP dans la banque considérée.

42
Q

Qu’est-ce qu’une HSP ?

A

High-Scoring Segment Pairs, segment qui contient en toute logique un très bon alignement.

43
Q

Plus l’e-value est faible, plus l’alignement est…

A

Fiable.