Génome Chap 3 Flashcards

1
Q

Séquences de 2 molécules de fn apparentées ?

A

Vont en général présenter des ressemblances

Et vice versa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Principe des alignements de séquences

A

Aligner 2 chaines de caractères = chercher les ≠ entre les 2 -> calcul d’1 score d’alignement et d’1 pourcentage d’identité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Matrice PAM250 de DAYHOFF

A
  • Matrice protéique
  • CC = 12 (mnémo)
  • Pour toute mutation non silencieuse acceptée par la sélection naturelle donc non létale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Matrice BLOSUM62

A
  • Matrice protéine
  • CC = 9
  • Les + utilisées et réalisées + récemment donc à partir de données d’alignements
  • Matrice + stricte, + sensible, + spécifique
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Substitution “conservative”

A
  • Certains AA chimiquement voisins seront facilement échangeables
  • La substitution de l’un vers l’autre est dite “conservative”
  • Ces échanges conservateurs doivent être intégrés dans la matrice de score
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

À propos des matrices de score des séquences protéiques

A
  • Chaque valeur est un score noté S et chaque score correspond à 2 AA alignés
  • Nbreux sous-types de matrices identifiés par un numéro «n» qui dépend du contenu des scores de la matrice : matrices sont créées en fn des séquences que l’on veut aligner (très proches, peu proches, très éloignées → si on ne sait alors on utilise matrices moyennes)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

À propos des matrices de score des séquences nucléotidiques

A
  • ø méthode objective pour calculer score d’alignement de 2 séquences
  • Valeurs numériques arbitraires et varient selon programmes chargés de les calculer
  • Possible de privilégier les transitions en leur attribuant 1 pénalité + petite que les transversions
  • Donc 1 score d’alignement ne veut rien dire seul : il n’apporte des infos que si on compare 2 alignements réalisés avec mêmes programme et matrice
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Programme Needle

A
  • Matrice nucléotidique
  • Identité = +5
  • Substitution = -4
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Programme BestFit

A
  • Matrice nucléotidique
  • Identité = +10
  • Substitution = -9
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Programme BLASTn

A
  • Matrice nucléotidique
  • Identité = +1
  • Substitution = -2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Insertions et délétions

A
  • Il faut les intégrer au programme d’alignement sinon il s’arrêterait rapidement
  • Si on considère la présence éventuelle d’insertions et/ou délétions -> on peut introduire des indels
  • Les indels font baisser le score max ; augmentent le score par rapport à un alignement strict
  • Obtention possible d’alignements aberrants = “en pointillés” ; on ajoute donc à la matrice la pénalité “indel” de -3 (si +2 identité et -1 substitution)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Alignement graphique “dotplot”

A
  • Repérer visuellement les zones similaires dans les 2 séquences d’AA
  • Chaque séquence placée sur 1 axe :
  • > Croix = identité
  • > On ne conserve que les diagonales d’au moins 2 résidus successifs
  • > Diagonale centrale = meilleur alignement = 2 séquences sont très semblables
  • 1 brèche entre 2 séquences identiques se repère grâce à 1 décalage dans les diagonales
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Alignement global

A
  • Aligner 2 séquences globalement pour obtenir un score d’alignement le + grand possible
  • Si séquences ont tailles très ≠ , pas 1 bonne idée
  • En ajoutant indels, on ajoute des pénalités et on diminue trop le score -> programme va donc vouloir éviter indels et peut éventuellement rater des homologies
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment contourner le pb de l’alignement global ?

A

Solutions :
go = pénalité de création d’indel
ge = pénalité d’extension d’indel
⚠️ TJRS ge < go

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Pour avoir alignement le + judicieux lors d’un alignement global ?

A
  • Il faut adapter les valeurs des pénalités qui sont données de façon arbitraire
  • Sinon l’alignement peut être complètement faux
  • C’est la limite de cette technique d’alignement global
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Valeur globale g

A

g = a go + b ge
avec
a = nb de brèches
b = nb de GAP = nb de tirets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Alignement multiple

A
  • Alignement de pls séquences en même temps :
  • > Prédiction de structures secondaires
  • > Détermination fonction de la prot
  • > Identification des résidus clés dans la prot
  • Superpose chaque résidu d’une séquence avec ceux d’autres séquences ; il faut rajouter des indels
  • Histogramme consensuel permet de repérer + facilement les régions ± bien conservées
18
Q

Caractéristiques alignement par ClustalW (multiple)

A
  • Méthode progressive et globale de construction d’alignement
  • Efficace pour petit nb de séquences même très longues
  • Utilise peu de mémoire
19
Q

Méthode alignement par ClustalW (multiple)

A
  • Matrice comparant chacune des séquences 2 à 2 constituée
  • Arbre de guidage issu des valeurs de la matrice (regroupe séquences proches)
  • Alignements des séquences dans un certain ordre donné par l’arbre (ajouts indels séquentiels donc permet d’éviter faux alignements et introduction indels au mauvais endroit)
20
Q

Caractéristiques alignement par DIALIGN (multiple)

A
  • Recherche segments compatibles similaires

- Très bons résultats pour alignements avec peu de séquences (max 100) contenant zones conservées

21
Q

Caractéristiques alignement par T-Coffee (multiple)

A
  • Composé d’une suite de programme d’alignement dont ClustalW et DIALIGN
  • Génère calculs complexes
  • Utilise bcp de mémoire
  • Pour 100 séquences max
22
Q

Quel alignement utiliser si les séquences se ressemblent bcp (+ de 50% d’identité) ?

A

Alignement global

23
Q

Quel alignement utiliser si les séquences se ressemblent peu (- de 25% d’identité) ?

A

Alignement local

24
Q

Méthode heuristique

A

Méthode de résolution de pb non fondée sur un modèle formel et qui n’aboutit pas nécessairement à une solution

25
Q

Alignement local

A

Programme montre la région de plus forte ressemblance

26
Q

BLAST (méthode heuristique rapide)

A

NT :
- Blast aligne localement les 2 séquences en prenant 2 hits (11 nt) comme point d’ancrage puis étend l’alignement de part et d’autre. Si elles se ressemblent, score ↗︎ ; Blast continue jusqu’à ce que le score ↘︎ trop

Prot :
- Blast recherche tri-peptides similaires

  • Blast délimite donc une région de haute similarité = HSP = High Scoring Pair
27
Q

FASTA (méthode heuristique rapide)

A

NT :
- FASTA recherche segment de 7 nt identiques

Prot :
- FASTA recherche dipeptides identiques

28
Q

Séquençage du génome entier a permis…

A

d’amorcer l’annotation des génomes

29
Q

Séquençage par technique shotgun

A

= séquençage aléatoire

  • Petits fragments aléatoires du génome séquencés individuellement
  • Assemblage des fragments par alignement de séquence (possible car fragments se chevauchent → en «contigs») ⟹ obtention séquence complète
30
Q

Annotation

A
  • Recherche d’infos pertinentes : gènes codants pour prot, ARN, séquences répétées…
  • Travail d’analyse qui permet d‘expliquer ou de proposer des hypothèses pour les propriétés biologiques
31
Q

Annotation automatique

A
  • Recherche zone spécifique de gènes (complexe pour euc car introns)
  • Donne gènes prédits avec leur position sur les contigs
32
Q

Annotation manuelle

A
  • Vérification de chaque gène prédit

- Long et fastidieux

33
Q

1ère étape : Annotation syntaxique du génome

A
  • Identifier les objets génétiques présentant une pertinence biologique
  • Localisation des gènes
  • Carte du génome
34
Q

Annotation syntaxique : Localisation des gènes

A

ADN double brin ⟹ gène peut être localisé sur n’importe lequel des 2 brins (gène lus dans le sens 5’-3’)

35
Q

Annotation syntaxique : Carte du génome

A

Annoter un génome consiste à réaliser une carte du génome sur laquelle sont référencés tous les gènes le long des molécules d’ADN

36
Q

Principe annotation syntaxique chez les procaryotes

A
  • Forte densité de codage = peu de séquences non codantes
  • Il faut trouver ORF (= cadre ouvert de lecture) + CDS (= séquence codante = du codon initiateur au codon stop)
  • Les signaux sont :
  • Séquence de Shine Dalgarno = site liaison au ribosome
  • Promoteur = TATA en -10 à boite en -35
  • Terminateur de transcription = séquence palindromique riche en GC suivie ou non d’un séquence riche A ; rho dep ou rho indep
37
Q

Principe annotation syntaxique chez les eucaryotes

A
    • complexe car faible densité de codage
  • Zone particulières à rechercher :
  • En 5’ :
  • Promoteur avec boite TATA
  • Sites de liaison aux facteurs de transcriptions
  • Initiateur INR en -3 et +5
  • Ilots GC
  • Les sites de jonctions introns/exons
  • En 3’ :
  • Signal de polyadénylation
  • Signal de clivage suivi de la région riche en GU
38
Q

Autre façon de distinguer exons et séquences non-codantes

A
  • Étudier le biais d’usage des codons dû à la redondance du code génétique (= pls codons donnent 1 même AA)
  • Codon +++ sera utilisé préférentiellement dans régions codantes ⟹ on calcule donc sa fréquence dans une région de l’ADN, si elle est élevée c’est sans doute un exon sinon une région non codante
    ⚠️ Cette technique donne infos statistiques, toujours à vérifier !
39
Q

2e étape : Annotation fonctionnelle du génome

A
  • Déterminer de quels types de prot il s’agit, sa fonction, son rôle
  • Recherche similarités avec des séquences nt, des séquences d’AA ou éventuellement des structures déjà décrites dans les bases de données (comparaison séquences avec BLAST et FASTA)
40
Q

3e étape : Annotation relationnelle du génome

A
  • Déterminer interactions potentielles entre éléments biologiques (prot, portions d’ADN, ARN…)
  • Établir des familles de gènes, des réseaux de régulation et métaboliques
41
Q

Stockage et accès à la carte génomique

A
  • Infos récoltées lors des 3 étapes stockées dans les bases de données en accès libre sur internet
  • Ex : carte génomique d’Homo sapiens dispo sur Pubmed (détails de chaque chromosome, infos et localisation des gènes…)