Chap 2 Flashcards
Qu’est-ce que le % d’identité ?
Proportion de residues identiques entre séquence (même lettre).
Qu’est-ce que le % de similarité ?
🔸proportion de residues identiques et similaire.
🔸la similarité est basée sur des propriétés similaires entre protéine (+)
🔸comme les nucleotides ne sont pas similaires on aura le pourcentage de similarité = pourcentage d’identité.
% d’identité pour les séquences aléatoires
- protéique
- nucleotides
🔸protéiques : 20 as donc 1/20 = 5%
🔸nucleotides : 4b donc 1/4 = 25%
Définir l’homologie
🔹2 séquences qui possèdent un lien de parenté, un ancêtre commun ( inféré à partir de la similarité).
🔹En bioinfo si 2 ou plusieurs séquences possèdent des residues conserves cela signifie quelles ont une histoire évolutive commune. Elles ont évoluée à partir d’une séquence ancêtre commune.
Définir l’analogie
Évolution évolutive convergente, les similarités entre les deux séquences sont apparues de manière indépendante.
Duplication
Mutation génétique caractérisée par le dédoublement du matériel génétique
Spéciation
Apparition d’une nouvelle espèce par séparation entre deux populations.
Orthologie
Le dernier ancêtre commun de 2 séquences homologues a subit une spéciation.
Paralogie
Deux gènes sont paralogues si leur duplication est due à la duplication d’un genre ancêtre
( on aura une différence au sein d’une même espèce)
xenologie
Gène acquis par transfert horizontal de gène.
Quelles sont les raisons d’une similarité sans homologue ?
▪️longueur de l’alignement court
▪️e value élevée >x10^10
▪️existence de région de faibles complexité
Alignement
- principe
- But
🔸 principe : on aligne 2 ou plusieurs séquences d’ADN-ADN ou ADN-ARN ou PROT-PROT de manière à faire ressortir les régions homologues
🔸But ❤️ : disposer les residues pour identifier les residues homologues en maximisant le nombre d’identité ou le nombre de similarité dans les différentes séquences
-on introduit alors des gaps pour les aligner sur des colonnes successives
Définir un alignement globale
Alignement sur la totalité de la longueur des 2 séquences que l’on compose ( introduction de gap)
Définir l’alignement local
Alignement des régions similaires entre elles : on ne force pas l’alignement sur la totalité de la séquence
De quoi dépend la valeur du score ?
Et à quoi servent-il ?
La valeur du score dépend :
▪️de la matrice utilisée
▪️de la longueur de l’alignement
▪️système de score utilisé
❤️Les scores élémentaires servent à optimiser un alignement.
Pourquoi la pénalité de l’identité est elle toujours supérieurs aux pénalités de mutation ?
La pénalité est toujours en faveurs de l’identité : il faut un maximum d’homologie.
Pourquoi la pénalité de gap est-Elle toujours plus importante que la pénalité de substitution ?
La pénalité est gap est plus coûteuse que les autres car on sait que le substitution sont plus fréquence que les insertion et délétion.
Définir le modèle kumura à 2 paramètre.
▪️modèle d’évolution : intégration de paramètre venant d’observation biologiques :
• Transision : AG et CT
• Transversion : AC et TG
▪️L’évolution est parcimonieuse :
1 événement mutationnel est plus probable que plusieurs événement mutationnels
•pénalité d’ouverture de gap : plus coûteuse
•pénalité d’extension de gap : moins coûteuse
▪️pénalité de gap > pénalité de substitution
Pourquoi est-il plus difficile de modéliser des séquences protéiques ?
🔹un aa peut être remplacer par un autre de différentes façons ( code génétique).
🔹le nombre de substitution requises pour passer d’un aa a un autre différent.
🔹la probalite de substitution different.
🔹certaines substitution peuvent avoir plus ou moins d’effet sur la protéine.
Que devons nous prendre en compte quand on compare des sequence protéiques ?
🔹 % identité
🔹 % de similarité
Comment est construite une matrice de substitution?
Quelles sont les 2 approches pour modéliser les matrices de substitution ?
🔹A partir d’ensemble de séquences protéiques homologues et ayant la même fonction
🔹 on calcule la fréquence de chaque aa dans l’alignement et on les transforme en logo odds : si,j = log2( fi,j)/ (fi x fj )
🔹On a deux approches différente pour modéliser les matrices de substitution : PAM et BLOSSUM
Matrice pam que signifie :
- valeurs négatives
- valeurs positives
- % similaire positive
🔸valeurs négatives : substitution contre sélectionner au cours de l’évolution
🔸valeurs positivé : substitution favorisées au cours de l’evolution ( aa similaires )
🔸 % de similarité : proportion de residues quand une valeurs positivé dans la matrice de substituons
Quelle type d’alignement fait une matrice pam ou JTT
Alignement globaux 2 x 2
Matrice blossum : types d’alignement ?
Est-elle plus adapté pour des protéines d’instante d’un point de vue évolutif ?
- alignement multiple de séquence
Comparaison avec des domaines avec les alignement blocks
-oui
quand choisis t-on ?
🔸PAM50 et BLOSSUM 80
🔸 PAM250 ou 350 et BLOSSUM 30
🔸PAM120 et BLOSSUM 62
🔸p50 et b80 : pour des séquences proches and l’évolution : trouver un alignement court et fortement similaire
🔸p250-350 et b30 : pour des séquences distantes dans l’évolution. De plus long alignement locaux et faible conservation
🔸p120 et b62 : pour des séquences ayant des distance évolutives intermédiaire : on utilise par défaut.