Génome Chap 3 Flashcards
Séquences de 2 molécules de fn apparentées ?
Vont en général présenter des ressemblances
Et vice versa
Principe des alignements de séquences
Aligner 2 chaines de caractères = chercher les ≠ entre les 2 -> calcul d’1 score d’alignement et d’1 pourcentage d’identité
Matrice PAM250 de DAYHOFF
- Matrice protéique
- CC = 12 (mnémo)
- Pour toute mutation non silencieuse acceptée par la sélection naturelle donc non létale
Matrice BLOSUM62
- Matrice protéine
- CC = 9
- Les + utilisées et réalisées + récemment donc à partir de données d’alignements
- Matrice + stricte, + sensible, + spécifique
Substitution “conservative”
- Certains AA chimiquement voisins seront facilement échangeables
- La substitution de l’un vers l’autre est dite “conservative”
- Ces échanges conservateurs doivent être intégrés dans la matrice de score
À propos des matrices de score des séquences protéiques
- Chaque valeur est un score noté S et chaque score correspond à 2 AA alignés
- Nbreux sous-types de matrices identifiés par un numéro «n» qui dépend du contenu des scores de la matrice : matrices sont créées en fn des séquences que l’on veut aligner (très proches, peu proches, très éloignées → si on ne sait alors on utilise matrices moyennes)
À propos des matrices de score des séquences nucléotidiques
- ø méthode objective pour calculer score d’alignement de 2 séquences
- Valeurs numériques arbitraires et varient selon programmes chargés de les calculer
- Possible de privilégier les transitions en leur attribuant 1 pénalité + petite que les transversions
- Donc 1 score d’alignement ne veut rien dire seul : il n’apporte des infos que si on compare 2 alignements réalisés avec mêmes programme et matrice
Programme Needle
- Matrice nucléotidique
- Identité = +5
- Substitution = -4
Programme BestFit
- Matrice nucléotidique
- Identité = +10
- Substitution = -9
Programme BLASTn
- Matrice nucléotidique
- Identité = +1
- Substitution = -2
Insertions et délétions
- Il faut les intégrer au programme d’alignement sinon il s’arrêterait rapidement
- Si on considère la présence éventuelle d’insertions et/ou délétions -> on peut introduire des indels
- Les indels font baisser le score max ; augmentent le score par rapport à un alignement strict
- Obtention possible d’alignements aberrants = “en pointillés” ; on ajoute donc à la matrice la pénalité “indel” de -3 (si +2 identité et -1 substitution)
Alignement graphique “dotplot”
- Repérer visuellement les zones similaires dans les 2 séquences d’AA
- Chaque séquence placée sur 1 axe :
- > Croix = identité
- > On ne conserve que les diagonales d’au moins 2 résidus successifs
- > Diagonale centrale = meilleur alignement = 2 séquences sont très semblables
- 1 brèche entre 2 séquences identiques se repère grâce à 1 décalage dans les diagonales
Alignement global
- Aligner 2 séquences globalement pour obtenir un score d’alignement le + grand possible
- Si séquences ont tailles très ≠ , pas 1 bonne idée
- En ajoutant indels, on ajoute des pénalités et on diminue trop le score -> programme va donc vouloir éviter indels et peut éventuellement rater des homologies
Comment contourner le pb de l’alignement global ?
Solutions :
go = pénalité de création d’indel
ge = pénalité d’extension d’indel
⚠️ TJRS ge < go
Pour avoir alignement le + judicieux lors d’un alignement global ?
- Il faut adapter les valeurs des pénalités qui sont données de façon arbitraire
- Sinon l’alignement peut être complètement faux
- C’est la limite de cette technique d’alignement global
Valeur globale g
g = a go + b ge
avec
a = nb de brèches
b = nb de GAP = nb de tirets