Génome Chap 3 Flashcards
Séquences de 2 molécules de fn apparentées ?
Vont en général présenter des ressemblances
Et vice versa
Principe des alignements de séquences
Aligner 2 chaines de caractères = chercher les ≠ entre les 2 -> calcul d’1 score d’alignement et d’1 pourcentage d’identité
Matrice PAM250 de DAYHOFF
- Matrice protéique
- CC = 12 (mnémo)
- Pour toute mutation non silencieuse acceptée par la sélection naturelle donc non létale
Matrice BLOSUM62
- Matrice protéine
- CC = 9
- Les + utilisées et réalisées + récemment donc à partir de données d’alignements
- Matrice + stricte, + sensible, + spécifique
Substitution “conservative”
- Certains AA chimiquement voisins seront facilement échangeables
- La substitution de l’un vers l’autre est dite “conservative”
- Ces échanges conservateurs doivent être intégrés dans la matrice de score
À propos des matrices de score des séquences protéiques
- Chaque valeur est un score noté S et chaque score correspond à 2 AA alignés
- Nbreux sous-types de matrices identifiés par un numéro «n» qui dépend du contenu des scores de la matrice : matrices sont créées en fn des séquences que l’on veut aligner (très proches, peu proches, très éloignées → si on ne sait alors on utilise matrices moyennes)
À propos des matrices de score des séquences nucléotidiques
- ø méthode objective pour calculer score d’alignement de 2 séquences
- Valeurs numériques arbitraires et varient selon programmes chargés de les calculer
- Possible de privilégier les transitions en leur attribuant 1 pénalité + petite que les transversions
- Donc 1 score d’alignement ne veut rien dire seul : il n’apporte des infos que si on compare 2 alignements réalisés avec mêmes programme et matrice
Programme Needle
- Matrice nucléotidique
- Identité = +5
- Substitution = -4
Programme BestFit
- Matrice nucléotidique
- Identité = +10
- Substitution = -9
Programme BLASTn
- Matrice nucléotidique
- Identité = +1
- Substitution = -2
Insertions et délétions
- Il faut les intégrer au programme d’alignement sinon il s’arrêterait rapidement
- Si on considère la présence éventuelle d’insertions et/ou délétions -> on peut introduire des indels
- Les indels font baisser le score max ; augmentent le score par rapport à un alignement strict
- Obtention possible d’alignements aberrants = “en pointillés” ; on ajoute donc à la matrice la pénalité “indel” de -3 (si +2 identité et -1 substitution)
Alignement graphique “dotplot”
- Repérer visuellement les zones similaires dans les 2 séquences d’AA
- Chaque séquence placée sur 1 axe :
- > Croix = identité
- > On ne conserve que les diagonales d’au moins 2 résidus successifs
- > Diagonale centrale = meilleur alignement = 2 séquences sont très semblables
- 1 brèche entre 2 séquences identiques se repère grâce à 1 décalage dans les diagonales
Alignement global
- Aligner 2 séquences globalement pour obtenir un score d’alignement le + grand possible
- Si séquences ont tailles très ≠ , pas 1 bonne idée
- En ajoutant indels, on ajoute des pénalités et on diminue trop le score -> programme va donc vouloir éviter indels et peut éventuellement rater des homologies
Comment contourner le pb de l’alignement global ?
Solutions :
go = pénalité de création d’indel
ge = pénalité d’extension d’indel
⚠️ TJRS ge < go
Pour avoir alignement le + judicieux lors d’un alignement global ?
- Il faut adapter les valeurs des pénalités qui sont données de façon arbitraire
- Sinon l’alignement peut être complètement faux
- C’est la limite de cette technique d’alignement global
Valeur globale g
g = a go + b ge
avec
a = nb de brèches
b = nb de GAP = nb de tirets
Alignement multiple
- Alignement de pls séquences en même temps :
- > Prédiction de structures secondaires
- > Détermination fonction de la prot
- > Identification des résidus clés dans la prot
- Superpose chaque résidu d’une séquence avec ceux d’autres séquences ; il faut rajouter des indels
- Histogramme consensuel permet de repérer + facilement les régions ± bien conservées
Caractéristiques alignement par ClustalW (multiple)
- Méthode progressive et globale de construction d’alignement
- Efficace pour petit nb de séquences même très longues
- Utilise peu de mémoire
Méthode alignement par ClustalW (multiple)
- Matrice comparant chacune des séquences 2 à 2 constituée
- Arbre de guidage issu des valeurs de la matrice (regroupe séquences proches)
- Alignements des séquences dans un certain ordre donné par l’arbre (ajouts indels séquentiels donc permet d’éviter faux alignements et introduction indels au mauvais endroit)
Caractéristiques alignement par DIALIGN (multiple)
- Recherche segments compatibles similaires
- Très bons résultats pour alignements avec peu de séquences (max 100) contenant zones conservées
Caractéristiques alignement par T-Coffee (multiple)
- Composé d’une suite de programme d’alignement dont ClustalW et DIALIGN
- Génère calculs complexes
- Utilise bcp de mémoire
- Pour 100 séquences max
Quel alignement utiliser si les séquences se ressemblent bcp (+ de 50% d’identité) ?
Alignement global
Quel alignement utiliser si les séquences se ressemblent peu (- de 25% d’identité) ?
Alignement local
Méthode heuristique
Méthode de résolution de pb non fondée sur un modèle formel et qui n’aboutit pas nécessairement à une solution
Alignement local
Programme montre la région de plus forte ressemblance
BLAST (méthode heuristique rapide)
NT :
- Blast aligne localement les 2 séquences en prenant 2 hits (11 nt) comme point d’ancrage puis étend l’alignement de part et d’autre. Si elles se ressemblent, score ↗︎ ; Blast continue jusqu’à ce que le score ↘︎ trop
Prot :
- Blast recherche tri-peptides similaires
- Blast délimite donc une région de haute similarité = HSP = High Scoring Pair
FASTA (méthode heuristique rapide)
NT :
- FASTA recherche segment de 7 nt identiques
Prot :
- FASTA recherche dipeptides identiques
Séquençage du génome entier a permis…
d’amorcer l’annotation des génomes
Séquençage par technique shotgun
= séquençage aléatoire
- Petits fragments aléatoires du génome séquencés individuellement
- Assemblage des fragments par alignement de séquence (possible car fragments se chevauchent → en «contigs») ⟹ obtention séquence complète
Annotation
- Recherche d’infos pertinentes : gènes codants pour prot, ARN, séquences répétées…
- Travail d’analyse qui permet d‘expliquer ou de proposer des hypothèses pour les propriétés biologiques
Annotation automatique
- Recherche zone spécifique de gènes (complexe pour euc car introns)
- Donne gènes prédits avec leur position sur les contigs
Annotation manuelle
- Vérification de chaque gène prédit
- Long et fastidieux
1ère étape : Annotation syntaxique du génome
- Identifier les objets génétiques présentant une pertinence biologique
- Localisation des gènes
- Carte du génome
Annotation syntaxique : Localisation des gènes
ADN double brin ⟹ gène peut être localisé sur n’importe lequel des 2 brins (gène lus dans le sens 5’-3’)
Annotation syntaxique : Carte du génome
Annoter un génome consiste à réaliser une carte du génome sur laquelle sont référencés tous les gènes le long des molécules d’ADN
Principe annotation syntaxique chez les procaryotes
- Forte densité de codage = peu de séquences non codantes
- Il faut trouver ORF (= cadre ouvert de lecture) + CDS (= séquence codante = du codon initiateur au codon stop)
- Les signaux sont :
- Séquence de Shine Dalgarno = site liaison au ribosome
- Promoteur = TATA en -10 à boite en -35
- Terminateur de transcription = séquence palindromique riche en GC suivie ou non d’un séquence riche A ; rho dep ou rho indep
Principe annotation syntaxique chez les eucaryotes
- complexe car faible densité de codage
- Zone particulières à rechercher :
- En 5’ :
- Promoteur avec boite TATA
- Sites de liaison aux facteurs de transcriptions
- Initiateur INR en -3 et +5
- Ilots GC
- Les sites de jonctions introns/exons
- En 3’ :
- Signal de polyadénylation
- Signal de clivage suivi de la région riche en GU
Autre façon de distinguer exons et séquences non-codantes
- Étudier le biais d’usage des codons dû à la redondance du code génétique (= pls codons donnent 1 même AA)
- Codon +++ sera utilisé préférentiellement dans régions codantes ⟹ on calcule donc sa fréquence dans une région de l’ADN, si elle est élevée c’est sans doute un exon sinon une région non codante
⚠️ Cette technique donne infos statistiques, toujours à vérifier !
2e étape : Annotation fonctionnelle du génome
- Déterminer de quels types de prot il s’agit, sa fonction, son rôle
- Recherche similarités avec des séquences nt, des séquences d’AA ou éventuellement des structures déjà décrites dans les bases de données (comparaison séquences avec BLAST et FASTA)
3e étape : Annotation relationnelle du génome
- Déterminer interactions potentielles entre éléments biologiques (prot, portions d’ADN, ARN…)
- Établir des familles de gènes, des réseaux de régulation et métaboliques
Stockage et accès à la carte génomique
- Infos récoltées lors des 3 étapes stockées dans les bases de données en accès libre sur internet
- Ex : carte génomique d’Homo sapiens dispo sur Pubmed (détails de chaque chromosome, infos et localisation des gènes…)