HC 5 - Transcriptomics Flashcards
Hoorcollege 5
Wat is het transcriptoom?
Alle RNA die op een bepaald moment in de cel aanwezig is
In theorie omvat het transcriptoom meer dan alleen het mRNA? Waar of niet waar
Waar, maar in praktijk niet
Wanneer er een gelelektroforese met RNA wordt gedaan, worden er voor verschillende weefsels dezelfde banden zichtbaar: welke?
van boven naar onder
-dikke banden: 28S rRNA en 18S rRNA
-dunnere banden onderin: 5.8S rRNA, 5S rRNA en tRNA
-mRNA zie je niet: zit uitgesmeerd over de gehele bovenzijde van de gel
Hoeveel procent van het transcriptoom is rRNA? en mRNA?
80% rRNA en <5% mRNA
Is de grootte van een mRNA variabel? En waar hangt het dan van af
Ja, het hangt af van de som van de lengtes van alle exonen in het gen
Wat is het grootste mRNA?
van titin (TTN) > 20 min nodig voor transcriptie
96% van het RNA in non-coding. Noem enkele soorten non-coding RNA met functies
-Pre-rRNA: voor translatie
-Pre-tRNA: voor translatie
-snRNA: voor splicing
-miRNA en siRNA: regulatie van mRNA degradatie en daarmee controle van genexpressie
Elk type RNA heeft een karakteristieke grootte-distributie. Waar of niet waar?
Waar
Wat is tRF?
Een RNA wat door tumoren wordt uitgescheiden waarvan de functie onbekend is
Waarom is het kwantificeren van RNA in gewicht niet zo interessant?
De grootte en daarmee het gewicht van verschillende soorten RNA moleculen verschilt
Welke kwantificatiemethode voor RNA is wel interessant? En wat blijkt hieruit?
Het aantal moleculen meten
> grootste RNA op basis van massa is rRNA maar op basis van aantal moleculen is tRNA
> mRNA lijkt meer voor te komen op basis van gewicht dan op basis van aantal moleculen
Soorten post-transcriptionele modificaties
-End-modification (5’-cap, poly-A-tail)
-Splicing
-Cutting
-Chemical modifications (addition chemical groups)
Hoevaak komt alternative splicing voor?
bij 95% van de genen
Zijn splice plekken variabel?
Ja, de splice plekken verschillen per weefsel (positie is hetzelfde, maar of er daadwerkelijk gespliced wordt verschilt: alternative splicing)
Hoe kan exon skipping leiden tot andere lokalisatie?
Door het skippen van een signal sequence in een exon kan de lokalisatie van een genproduct veranderen
Door alternative splicing ontstaan er meer verschillende transcripten uit een aantal coderende genen. Hoe groot is de vergrotingsfactor?
10x. Van ~20,000 verschillende coderende genen naar meer dan 200,000 verschillende transcripten (maar dit niet allemaal tegelijk: genexpressie is gereguleerd: niet alle genen zijn actief in alle cellen, en ook niet evenveel in alle cellen)
Alle celtypes hebben gelijk/verschillend DNA en gelijk/verschillend RNA
Gelijk DNA, verschillend RNA
Waarvoor is verschillende genexpressie in verschillende celtypes essentieel?
Specifieke vorm en functie van celtypes
Hoe wordt de hoeveelheid mRNA gereguleerd?
Door transcriptie en degradatie
Bij transcriptomics wordt de genexpressie gemeten. Met welke aanname?
Dat de hoeveelheid mRNA een goede maat is voor genexpressie in de zin van synthese van het eiwitproduct
Genregulators
-Enhancers
-Promotors
-Activators
De (half-)life van RNA wordt door RNA stabiliteits regulatie bepaald. Waar hangt dit van af?
-5’- mCAP
-3’- polyA tail
-RNAi > functionaliteit van noncoding RNAs
Wat is transcriptomics?
Het meten van de aanwezigheid en kwantiteit van alle verschillende RNA moleculen in een weefsel of cel.
Omics definitie
Kwantificeren of bestuderen van een complete collectie moleculen van een bepaalde soort.
> praktisch onmogelijk
Wat is Northern Blotting?
Het blotten van RNA
-Klein enkelstrengse probes op de blot hybridiseren aan transcripten en tonen aan welke transcripten aanwezig zijn
- <5 genen tegelijk
RT-PCR
PCR mbv Reverse Transcriptase
-<10 genen tegelijk
DNA microarray
Plaatje met een raster waaraan probes hybridiseren met RNA en de emissie van straling/kleur zorgt voor detectie van RNA
- 1,000-10,000 genen tegelijk
RNA-seq: aantal genen te meten
nagenoeg alle
Welke technieken voor RNA meting vallen onder de omics?
DNA microarray en RNA-seq
> Northern blot en RT-PCR zijn non-omics
Stappenplan maken Illumina library (genomics)
-Genomisch DNA fragmentatie
-Adapter ligatie met p5 en p7 aan respectievelijke flanen
-PCR amplificatie
-Finished library
Sequence library =
Een collectie van kleine fragmenten van nagenoeg al het genomische DNA met verschillende adapter sequenties aan elke flank
Wat moeten de adapters bevatten?
-Flow cell binding sites (p5 en p7, voor aan de probes)
-Primer binding sites voor PCR amplificatie
-Primer binding sites voor priming van de sequencing reactie
Wat kunnen adapters evt. bevatten?
-UMIs > unieke moleculaire identifiers (welk molecuul)
-Indexes/barcodes > sample multiplexing (welke sample)
RNA-seq principe
RNA wordt naar cDNA geconverteerd via reverse transcriptase en adapters worden aan beide kanten van het cDNA toegevoeg waarna de Illumina workflow wordt gebruikt
Reverse transcriptase heeft een RNA/DNA primer nodig om te beginnen aan cDNA-synthese. Welke soorten kennen we?
-Oligo(dT): voor de eukaryoot (universeel)
-Random hexamers: voor bacteriën handiger (universeel)
Oligo(dT) primers
een DNA primer van vele thymines en dus complementair aan de polyA-tail van alle eukaryoten. > veelgebruikt
Random hexamers
Primers van 6 nt lang (hexameer) > mengsel met random combinaties van primers
-4^6 mogelijkheden voor hexameren
-af en toe zal een hexameer binden en kan RT kleine stukjes cDNA (van één transcript) maken over het gehele RNA. Dit is niet erg, want je moet het nog gaan sequencen.
Oligo(dT) lijkt efficiënter dan random hexamers. Waarom worden random hexamers dan gebruikt?
Omdat de mRNAs van bacteriën geen polyA-tail hebben
RNA-seq library prep workflow
- Priming: random hexamers bv
- Reverse transcription
- Degradation of RNA and synthesis of 2nd DNA strand
- cDNA fragmentatie
- Ligation of adapters
Bij priming kunnen niet alle fragmenten worden geprimed. Waarom? En wat is het resultaat hiervan?
een single strand RNA kan een hairpin vormen door interne complementaire sequenties (bv CCCC-GGGG)
> je mist dan de sequentie: sequencing bias
Uitdagingen bij RNA-seq
Er zijn veel types RNA die bestaan in de cel met een grote variatie van concentratie. Je wilt het eiwitcoderende RNA meten maar de meeste reads zijn er van rRNA en tRNA
Manieren om van van rRNA af te komen of om aan mRNA te komen
Poly(A) selectie (enrichment): selecteren mRNA
Ribodepletie: verwijderen rRNA
Poly(A) selection (enrichment)
Selecteren door magnetische beads met enkelstrengse Oligo(dT) toe te voegen aan RNA mengsel
> binding mRNA aan de magnetische beads
> met magneet isoleren van mRNA
> heldere oplossing is noncoding
> eluteren polyA RNA > mRNA
Ribodepletion
Verwijderen rRNA door het maken van complementaire probes.
> probes worden aan RNA mix toegevoegd en binden rRNA
> magnetische beads die sterk aan de probes binden worden toegevoegd en hybridisatie
> alle rRNAs zitten in deel die met magneet bij het epje te isoleren valt, heldere vloeistof is het mRNA met alle noncoding RNAs excl. rRNA
- er worden verschillende probes gemaakt van antisense-rRNA voor elk type rRNA
Basic workflow RNA-seq
-Total RNA extraction
-Poly(A) mRNA purification (by enrichment)
-mRNA fragmentation
-RT to cDNA
-Adapter ligation
-Clonal amplification (PCR)
-Sequencing
Hoe coverteer je reads naar genexpressiewaarden?
Verschilwaarden in read depth voor verschillende transcripten voor bepalen relatieve genexpressie en dus bv up/downregulation in zieke cel tov gezonde cel.
Hoe worden de reads geidentificeerd?
Mapping: alignment aan referentie genoom
Wat is belangrijk voorafgaand aan de mapping
Scheiden van de samples (barcodes?)
Read counts
Het bepalen van het aantal reads die passen op gen X in de samples (ziek/gezond).
> maken expressiewaarde tabel
> de read counts zeggen wat over de mate van expressie van het desbetreffence gen in de sample
Waarbij moet je goed rekening houden bij het mappen van RNA-seq reads aan een referentiegenoom?
Er zijn zogenoemde intron spanding reads die een stukje van exon A en exon B bevatten waartussen een intron zit > er is dan geen 1-op-1 alignment aan het referentiegenoom.
> daarom moet er splice-aware mapping plaatsvinden
> anders mis je read counts door verschillende splice varianten en exon skipping etc.
Splice-aware mapping
Loskoppelen bij het niet gelijke deel van intron spanding reads (bij de grens van het intron) en zoeken tot volgende goede alignment en daarmee vinden volgende exon in de read
> dit hoeft niet het eerstvolgende exon van het gen te zijn door exon skipping
Wat betekent het als er een bepaald deel (exon) bij de ene sample (A) een aanzienlijke read count laat zien en bij de andere sample (B) niet?
Dan wordt in sample B dit exon overgeslagen door alternative splicing
Kwantificatie van RNA-seq
Expressiewaarden uit read counts
Third-gen sequencing
Nanopore sequencing
Kenmerken third-gen sequencing
-Langere reads (gehele mRNAs), makkelijker splicing bestuderen
Native RNA sequencing
Directe RNA sequencing, zonder eerst cDNA te maken. Er kunnen dan RNA base modificaties worden bestudeerd
Doelen Single-cell RNA-seq
Transcriptoom van een enkele cel meten in een complex weefsel
> nieuwe subtypes van celtypes aantonen
Doelen Spatial transcriptomics
-Transcriptomics over de ruimte meten waardoor weefselarchitectuur te bestuderen valt in intacte weefsels
Kenmerken nanopore sequencing (third gen)
-Directe DNA/RNA sequencing
-Lange reads
-Technisch lastig
-Minder accuraat dan Illumina
Werking nanopore sequencing
De flow van ionen (stroom) door een porie is verstoord door de aanwezigheid van moleculen in de porie afh. van de grootte en de chemische domeinen.
> specifieke verstoring voor verschillende nucleotiden: identificatie
waar zitten de pores bij nanopore-seq?
In een membraan van alpha-hemolysin
Waaruit bestaat de nanopore?
Een porie-eiwit met daarop een DNA unwinding enzyme en een motoreiwit
De stroomsterkte door de porie wordt constant gemeten. Welke signalen over de nucleotiden krijgt het door?
Er worden 5 nucleotiden gelijk gemeten omdat er zoveel in de porie passen (K-mer) die zorgen voor een specifiek verstoringssignaal van de stroom
Nanopore-seq is inaccuraat. Waardoor? en hoe inaccuraat?
Door squiggles is het inaccuraat > 1 op de 100 nt is fout geidentificeerd
Library prep bij nanopore-seq
- dsDNA wordt eventueel gefragmenteerd
- end prep en nick repair
- ligatie van adapters
Nanopore-seq is een vorm van native DNA/RNA sequencing. Wat is het voordeel hiervan?
Meten van genomische DNA methylatie of RNA base modificaties
Oxford Nanopore RNA-seq
RNA in de nanopore-seq
- nadeel: je krijgt nooit een enkel RNA naar de porie toe, je hebt dubbelstrengs nodig
> gebruiken reverse transcriptase en toevoegen sequencing adapters zodat het mRNA wordt gerbuikt voor het trekken door de porie (het cDNA wordt niet gemeten, vlak voor de porie splitst deze nog af bij de unwinding enzyme)
Nadelen van Single-cell RNA-seq (scRNA-seq)
-Lage sensiviteit: vooral de hoge expressors worden gedetecteerd
> daarom vooral gebruikt bij celtype determinatie
-kennis over de locatie van de cellen in het weefsel gaat verloren
-kostbaar
Voordeel scRNA-seq
Je krijgt informatie over een enkele cel in plaats van read counts voor een heel weefsel
Simpele workflow scRNA-seq
- enkele cellen uit een weefsel scheiden (hoe? bv droplet)
- in aparte wellen een fysieke scheiding
- reverse transcriptie
- cel barcode specifieke voor de cel moet tijdens cDNA library prep worden toegevoegd
- Library prep
- sequecing en analyse
Droplet-based scRNA-seq (10x Genomics)
- Encapsuleren van elke individuele cel in een nanoliter druppel met een bead (geladen met enzymen en primers nodig voor library prep)
> elke bead bevat unieke barcode die vast is gemaakt aan alle reads die van die cel komen (in de druppel) - aan de bead zitten oligo-dT primers met oa barcode waaraan mRNAs gaan binden na lysatie en dan polymerisatie over alle primers op die bead
- cDNA wordt van de beads afgehaald na scheiding (pooling)
- toevoegen adapters
- sequencing
Visualisatie van sequencing resultaten: wat stelt elke stip voor bij driedimensionaliteitsinductie?
Iedere cel is een stip met verschillende dimensies van expressie (driedimensionaliteitsinductie)
> gelijke expressiepatronen clusteren met hun stippen bij elkaar in de buurt
> herkennen van subpopulaties binnen de celtypes
> je raakt wel de spatiale info kwijt
Waaruit bestaan de druppels bij droplet based scRNA-seq?
Waterdruppels in siliconenolie
Er is maar 1 manier waarop een druppel resultaat geeft bij droplet based scRNA-seq. Wat bevat deze dan?
Een druppel met 1 bead en 1 cel
Spatial trancriptomics principe
Genexpressie meten van enkele cellen met behoud van spatiale informatie
Hoe gaat spatial transcriptomics?
ipv een bead worden mRNA binding probes op een array (raster) op een glazen plaat geplaatst. De spots liggen in een raster en bevatten miljoenen kopieën van een mRNA capturing primer (oligo-dT) met een spatial barcode
> een coupe van weefsel wordt op de plaat gelegd en gepermeabiliseerd (heel voorzichtig)
> mRNA moleculen lekken uit de coupe
> elke spot maakt via reverse transcriptie alle cDNAs van de cellen die in de buurt van de spot liggen op die locatie in het intacte weefsel.
> amplificatie en sequencing (na pooling)
> spatiale barcode op het raster zit op alle sequencing resultaten en geeft spatiale info
> mappen reads op het genoom en identificeren mRNA en kwantificeren door tellen
Hoe kan spatial transcriptomics worden gevisualiseerd?
Als een expressieplaatje van een gen als een heatmap overlay over de coupe-afbeelding van het weefsel.