Outils de comparaisons de séquences - CC2 Flashcards
Quel est la base du fonctionnement des méthodes bioinformatiques ?
On cherche un signal (ORFs etc) puis on le compare avec des éléments déjà connus.
Pourquoi compare-t-on les séquences trouvées avec cellesconnues ?
Une ressemblance peut indiquer une fonction bio proche, une structure 3D proche ou encore une origine évolutive commune.
Comment différentier la notion de similarité de la notion d’homologie ?
La similarité est quantifiable : deux séquences peuvent être plus ou moins similaires. En revanche, deux séquences sont homologues ou ne le sont pas.
Qu’implique une homologie ?
Implique l’existance d’une origine évolutive commune.
Vrai ou faux : une similarité importante impique une homologie.
Faux : peut impliquer une homologies, mais deux séquences peu similaires peuvent être homologues ou deux séquences très similaires peuvent ne pas l’être.
Donner deux méthodes permettant une comparaison efficace de deux séquences.
Matrice de points.
Alignements de séquences nucléiques ou protéiques.
Quel est le principe de la matrice de points ?
Deux séquences a comparer sont placées en abcisse et en ordonnées d’un graphe : 2 séquences identiques seront parfaitement alignés avec la diagonale.
Que signifieun décalage sur une matrice de points ?
Insertion ou délétion.
Que signifie une inversion de diagonale sur une matrice de points ?
Inversion d’une région d’ADN.
Que signifie la présence de diagonales parallèles sur une matrice de points ?
Des séquences répétées sont présentes.
Quels sont les points apparaissant sur les matrices de points un peu partout sur le graphique, et comment les élimine-t-on ?
Ces points correspondent à du bruit de fond : ils sont éliminés en utilisant des filtres.
Comment fonctionnent les filtres sur les matrices de points ?
Selon la comparaison de fenêtre d’une taille w, le calcul d’un score de similarité et l’affichage sur la matrice si le score dépasse un seuil défini. Prend aussi en compte le déplacement de la fenêtre.
Comment se calcule un score de similarité ?
Sur la base d’un alignement entre deux séquences : c’est la somme du poids de toutes les paires de l’alignement.
Qu’est-ce qu’une matrice de substitution ?
Elle donne un poids aux paires de lettres dans les alignements. Pour les nucléotides, assigne une valeur pour les match et une autre pour les mismatch.
Qu’est-ce que le diagramme de Venn ?
C’est un diagramme permettant de comparer les propriétés des acides aminés.-
Qu’est-ce qu’une mutation conservative ?
C’est une mutation que la nature tolère et conserve.
A quoi correspondent les matrices de substitution d’un point de vue évolutif ?
Elles correspondent à différentes distances évolutives entre les séquences.
Quelle matrice utiliserdans le cas ou les distances évolutives entre les séquences ne sont pas connues ?
La BLOSUM62.
Quelle matrice utiliser lorsque l’on sait que les séquences sont évolutivement proches ?
BLOSUM80.
Quelle matrice utiliser lorsque l’on sait que les séquences sont évolutivement éloignées ?
BLOSUM30.
Donner les avantages des matrices de points.
Avantages : vision globale de la similarité, détection rapide des régions répétées, des insertions et délétions, et des inversions.
Donner les inconvénients des matrices de points.
La méthode est strictement visuelle : on ne quantifie pas la similarité détectée.
Ne fournit pas d’alignements.
Comment se fait l’alignement de séquences (2 propositions) ?
Par alignement des séquences sur toute leur longueur, ou seulement des régions les plus conservées. L’alignement est fait paire par paire.
Quels sont les trois types de paires possibles pour la méthode de l’alignement de séquences ?
2 résidus identiques : match.
2 résidus différents : mismatch
1 résidu avec du vide : gap.
A quoi correspondent les mismatch et les gaps, en termes d’anomalies dans l’ADN ?
Les mismatch sont en fait des substitutions. Les gaps, des délétions ou des insertions.
Plusieurs alignements sont possibles pour deux séquences. Comment est-ce que l’alignement présenté est donc choisi ?
L’alignement ayant le meilleur score de similarité est choisi.
Préciser la différence de poids entre les différents gaps.
Les gaps ouverts (gops) ont des poids plus importants que les gaps allongés (Geps)
Quelle différence entre alignement global optimal et alignement local optimal ?
Global optimal : alignement sur toute la longueur, et local alignement seulement des régions les plus conservées.
De quoi dépend le score d’un alignement ?
De la somme des poids de chaque paire, de la matrice de substitution, des gaps, et de la longueur des séquences considérées.
Est-ce que le score d’un alignement évalue le degré de ressemblance entre deux séquences ?
Non -
Comment évalue ton la ressemblance des séquences ?
En calculant l’identité et la similarité.
Définir l’identité, pour évaluer la ressemblance de séquences.
Identité = nombre de paires identiques / total de paires
Définir la similarité, pour évaluer la ressemblance de séquences.
nb paires (similaires+identiques) / nb total de paires
Quels outils peut on utiliser pour rechercher des similarités dans des banques de données ?
L’outil BLAST : cherche une séquence query d’interet.
Quel principe pour BLAST ?
Des séquences similaires doivent contenir des petits segments strictement identiques, nommés w : c’est a partir de ces segments qu’on étend l’alignement.
Comment peut-on éviter de tenir compte des séquences répétées ou de faible complexité pour BLAST ?
On ajoute des filtres.
Comment est-ce que BLAST constitue une table de hachage ?
En recensant chaque segment d’une longueur saisie w dans la séquence query.
Quelles valeurs par défaut pour la longueur des mots dans un BLAST pour : une séquence peptidique ? Nucléique ?
w=3 pour les peptidiques et w=11 pour les nucléiques.
Après avoir constitué une table de hachage que fait BLAST ?
Il recense tous les mots de longueur w dont la similarité est au dessus d’un seuil T, puis les localise sur la séquence et fait une extension de l’alignement dans les deux sens sur le mot localisé.
Qu’obtient on au sortir du programme BLAST ?
Une liste des séquences mises en évidences, triées par significativité par rapport a la e-value et score de similarité.
Définir l’e-value.
Il s’agit du nombre d’alignement attendus par hasard ayant un score supérieur au score obtenu par l’HSP dans la banque considérée.
Qu’est-ce qu’une HSP ?
High-Scoring Segment Pairs, segment qui contient en toute logique un très bon alignement.
Plus l’e-value est faible, plus l’alignement est…
Fiable.