Genome Nucléaire Flashcards
Génome nucléaire
( Forme, copie, nb, codant, introns et éléments répétés)
Linéaire double brin
1 copie par cellule
3,2 x 10**9 pb en haploïde
Codant à moins de 2%
Gènes morcelés: 30% d’introns
Éléments répétés = plus de 50%
Séquences codantes ( types)
Gènes d’ARN
Gène des polypeptides
Famille de gènes
Séquences non codantes
= séquences ne codant pas pour des protéines ou des ARN fonctionnels
- CNG ( sequences uniques)
=> Conservées non géniques - séquences moyennement répétées dispersées ( LINE, SINE, retrotransposons à LTR, transposons)
- séquences hautement répétées regroupées ( = ADN satellite centromerique+ ADN mini satellite telomerique)
- séquences hautement répétées dispersées ( = ADN mini satellite hypervariable + ADN microsatellite)
- polymorphisme ( SNV = single nucléotide variant / microsatellites / CNV / îlots de CpG)
Mitochondrial
( Nb gènes, forme, copies, taille, codant, introns + répartition des gènes( nb) et caractéristiques )
37 gènes
Circulaire, double brin
5 à 10 copies par mitochondrie
Environ 16 000 pb
Codant à 93%
Gènes non morcelés (pas d’introns)
13 gènes protéines de la chaîne respiratoire (ARNm)
2 gènes → ARNr spécifiques (125 et 165)
22 gènes → ARNt
Réplication et transcription commandées par le génome nucléaire Transmission maternelle (mitochondries paternelles dégradées à la fécondation
Pas de crossing-over
Pas de compaction donc mutations élevées, accumulation, vieillissement, maladies génétiques mitochondriales
Gène codant des ARN
( Pour le 1er: précurseur, taille, clivage et lieu )
- ARN ribosomique (ARNr)
*Précurseur 45S: 13kb, donne par clivage du 5,8S, du 18S et du 28S
*transcrit dans le nucléole
*forment des blocs de 44kb avec un espaceur non transcrit qui fait 30kb - ARN 5S: petit gène, 2000 copies sur le chr1
- ARN de transfert (ARNt)
- Small nuclear ARN (snARN), small nucleolar ARN (snoARN) et small cytoplasmic ARN (SCARN)
- Micro-ARN (mi-ARN)
- Longs ARN intergéniques non codants (lincARN)
Gènes codant des polypeptides
( Nb, constitution d’un gène, taille variable et unité de transcription)
- Il en existe 20 000
- Un gène comprend: Région transcrite ( introns + exons) + seq régulatrices
- Taille variable ( taille moyenne: 27kb soit 1340pb d’exons / 9 exons + 8 introns, Exon moyen = 145pb, intron moyen = 3370pb, 1 gène tous les 100 kb)
- taille des introns conditionne la taille des gènes
- unité de transcription: toute la région transcrite sous forme d’ARN
Famille de gènes regroupés ( % pseudogènes + def cluster)
Gènes différents mais qui présentent un fort degré de similarité
- ils comprennent des pseudogènes, qui sont des gènes qui ne s’expriment pas mais qui font partie de la famille et qui représente 1% du génome
- gène fonctionnel + pseudogènes au même endroit = cluster
Homologues
Chaîne possédant une forte similitude de séquence
Gènes orthologues
Gènes homologues appartenant à des espèces différentes
Gènes paralogues
Gènes homologues présents dans le génome d’une même espèce
Exemple de cluster beta globine
( Chaînes protéiques + localisation chromosomes, nb gènes fonctionnels et pseudogènes
Dans l’hémoglobine, il y a 4 chaînes protéiques : 2 alpha et 2 beta
- Les gènes alpha sont situés au niveau du bras court du chromosome 16
- les gènes de la bêta-globine se trouve tous sur le bras court du chromoome 11
5 gènes fonctionnels et 1 pseudogène
Comme les conditions environnementales sont différentes, les propriétés d’hémoglobine sont différentes, c’est pourquoi ce ne sont pas les mêmes qui s’expriment au cours du temps. Ces gènes dérivent d’un même gène ancestral, modifié par duplication et accumulation de mutation. Chaque copie a ensuite évolué de son côté en accumulant plus ou moins de mutation donc on parle de divergence par mutation. Les gènes E et bêta donc 79,1% d’identité.
Séquences uniques CNG
( Def, nb, taille minimum et fonction)
CNG = Séquences conservées non géniques
Très conservées mais ne codent pas
Représentent 1% du génome
Au moins 100pb continues, non transcrites et ayant au moins 70% de conservation avec la souris
Fonction inconnue à ce jour ( certains régulent l’expression des gènes)
Séquences répétées % du génome
Plus de 50% du genome
Séquences moyennement répétées dispersées ( nb copies, def, nb d’exemplaires, % de séquences répétées et % du génome + rôle)
- ≈ 1 000 000 copies
- Séquence mobile dans le génome (= transposition même si très peu bougent vraiment car la plupart du temps la transposition laisse la copie originale dans son site initial = multiplication des séquences)
- 3 millions d’exemplaires ( 90% de séquences répétées, 45% du génome)
- utile pour la structuration du génome, brassage : nouveaux gènes
LINE
( Def, % du génome, taille élément complet, seule famille active + code pour…)
Long interspersed elements= éléments dispersés de grande taille
20% du génome
Élément complet = 6kpb
Seule famille active = L1 ( code pour la reverse transcriptase)
Reverse transcriptase fonctionnement déplacement LINE
= ADN polymérase ARN dépendante
Pour se déplacer, la séquence LINE sera transcrite en ARN.
À partir de l’ARN transcrit, la reverse transcriptase vient synthétiser le brin complémentaire en ADN.
Il y a destruction du brin ARN.
La reverse transcriptase synthétise le deuxième brin d’ADN.
=> Déplacement par retro transcription
Cela explique que le nombre augmente ( ≈ 500 000 elements L1 mais qu’une centaine d’actifs)
SINE ( def, % du génome, taille, famille active, localisation ( introns ou exons) + particularité)
Short interspersed elements
13% du génome
Élément complet = 100 à 400 PB
Seule la famille ALU est active et qui peut se déplacer
Ils sont retrouvés dans les introns
Les SINE ne codent pas la reverse transcriptase ( ils ne sont pas autonomes, donc il utilise la reverse transcriptase des L1)
Retrotransposons à LTR ( def, type, % du génome code quoi, famille et chez l’homme)
= long terminal repeat
Rétrovirus endogène ( on passe par une copie d’ARN pour ensuite synthétiser une copie d’ADN )
8% du génome
Codent la reverse transcriptase
Famille HERV ( human endogenous retroviruses)
Inactifs chez homme
Transposons ( %, déplacement)
3% du génome
Deux mécanismes de déplacement ( copier copier : utilisent une transposase pour se déplacer : elle crée une copie d’ADN qui va venir s’insérer ailleurs)
et couper coller : les éléments s’excisent et vont s’insérer ailleurs
Séquences hautement répétées groupées en ADN satellite
+ de 1 000 000 de copies
= ADN satellite, 6-7% du génome
Se trouvent au niveau des télomères et des centromères
- ADN satellite centromerique
3-5% de l’ADN de chaque chromosome
Motif de base de 171 pb répétées en tandem ( blocs) jusqu’à 5000 fois, on en trouve donc au niveau de chaque centromères
Très compacté : heterochromatine constitutive donc pas de transcription - ADN satellite telomerique:
Motif de base de 6pb ( TTAGGG): répétés en bloc de 10-15 kb aux extrémités des télomères => définir la fin du chromosome ( heterochromatine constitutive)
Séquences hautement répétées dispersées
( catégories, %, dinucleotide le plus frequent )
- ADN minisatellite hypervariable: VNTR
Motif de base de 9 à 24 pb répété 1000 à 2000 fois.
Blocs dispersés partout dans le génome (1000 régions connues)
Source de polymorphisme ( pas le même nb de répétitions en fonction des individus)
Très compacté: hétérochromatine dc pas de transcription.
- ADN microsatellite :
Motif de base de 1 à 4 pb : répété 5 à 50 fois.
Dispersé dans tout le génome: environ 2,5% du génome.
Dinucleotide de type (CA)n = le plus fréquent : 0,5% du génome.
Parfois un triplet de nucléiques dans la région codante
Localisation séquences hautement répétées
Elles sont toutes dans des ADNs satellites !
Variant
Séquence de deux allèles différents sur deux chromosomes d’une même paire
=> Différences de séquence par rapport à un génome de référence basé sur une moyenne de population
( Allèle = différentes versions d’un même locus sur un même chromosome)
Polymorphisme def
Une séquence d’ADN peut prendre plusieurs formes
Localisation et types de variants ( à quel niveau?)
Les variants peuvent se trouver dans des régions codantes ou des régions non codantes. Ils peuvent être neutres et parfois ils peuvent être pathogènes.
Il existe plusieurs sortes de variants :
- Les SNV, variations d’un seul nucléotide.
- Les variants au niveau des microsatellites qui correspondent à la variation de répétition d’un motif dans un bloc.
- Les CNV : variation d’un nombre de copies ( copy number variant)
SNV ( 1 variant pour… Nucléotides soit environ …. Dans le génome humain en moyenne) + différents types
Single nucléotide variant
( 1 variant pour 500 nucléotides)
=> soit 6 millions dans le génome humain en moyenne
- variant synonyme (même AA)
- Faux sens (AA différents)
- non sens (codon STOP)
Microsatellites ( permettent quoi?)
Variation du nombre de copies du motif, permettent de faire du diagnostic génotypique ( ex chrorée de Huntington) et de la criminologie.
Les CNV
Copy number variation= variation du nombre de copies d’un gène
Variation de structure du génome, certaines régions sont sur ou sous-représentées, influence sur l’expression des gènes.
Relation entre la taille du CNV et… ( + A partir de quand on considère que c’est grand)
Son pouvoir pathogène
Petite taille =souvent simples polymorphisme vs grande taille ( sup à 400 kb) = pathogène
Îlots CpG
Liaison sur un même brin
Cytosine égale seule base qui peut être methylée dans l’ADN humain.
Notre génome est pauvre en dinucléotide CG
Répartition inégale des CG dans le génome
- ils sont regroupés sous forme d’îlot CG
- région supérieure à 500 pb au contenu riche en dinucléotide CPG ( > à 50%)
- souvent présent en amont de gêne activement transcrit
≈ 40 à 50 % des gènes humains ont un îlot CpG en amont
( Souvent hypo methyles )
Ex gènes de ménage ( codent des protéines indispensables à la vie de n’importe quelle cellule)
Chro 19 riche en gènes= 43 îlots par Mb
Chro Y pauvre en gènes = e îlots par Mb
Ex de gènes paralogues dans le génome humain
Gènes A13, C13 et D13