Chapter 2 - Next Generation Sequencing Flashcards
Reader Ch.2
Sequencing applicaties
-Full genome
-Variant detectie: SNPs vergeleken met referentie (of indels)
-Structurele varianten
-Splice variant detectie
-RNA-seq
-ChIP-seq
-Exome sequencing
-DNA methylatie detectie
-Metagenomics
Indels
inserties en deleties
Wat zijn structurele varianten bij DNA/RNA?
deleties, duplicaties, copy-number varianten, inserties, translocaties
> sequence affect: 1 kb - 3 Mb
Van groot naar klein in sequence affected: structurele variatie, SNPs, chromosoom abnormaliteit
Chromosome abnormality > structurele variatie > SNPs
Hoe ontstaan splice varianten?
Alternative splicing
RNA-seq
sequencing en tellen van mRNA
Toepassing ChIP-seq
analyse van eiwit interacties met het DNA
> ChIP (chromatin immunoprecipation met massively parallel DNA sequencing > mapping global binding sites
Toepassing Exome sequencing
Detectie van genvarianten in het coderende deel van het genoom
Toepassing DNA methylatie detectie
Epigenetisce markers identificeren zoals CpG-methylaties voor repressie van de transcriptie
Metagenomics toepassing
Meerdere genomen parallel analyseren van environmental samples
> unbiased view of all the genes in the sample
DNA capture techniek mechanisme -> toepassing bij exome sequencing
Gebruik van complementare probes aan regions of interest, in dit geval exonen
> de referentie sequenties voor het opstellen van de probes worden uit CCDS gehaald
DNA capture technieken: microarray & solution capture
-Microarray capture: probes zitten vast aan een vast oppervlak > hybridisatie van exon fragmenten (uit bv fragmentatie/shotgun) met de probes > non gehybridiseerde fragmenten worden weggewassen > sequencing
-Solution capture: probes zitten in vloeistof en hybrisatie vindt plaats in vloeistof. Steptavidin beads worden gebruikt om de complexen neer te laten slaan > ongebonden fragmenten worden weg gewassen > overblijfselen worden gesequenced.
Principe van Next Generation Sequencing
Sequencing terwijl de synthese van DNA door DNA polymerase nog bezig is vanaf een single strand template
Sequencing-by-synthesis/ Illumina sequencing
- DNA fragmentatie
- enzymatische ligatie met adapter sequenties
- binding van adapters aan de flow cell waar complementaire adapters aan vastzitten
- amplificatie van elk gebonden DNA fragment
- er worden spots gemaakt uit clusters van identieke single stranded DNA vanaf de fragmenten
> nieuw toegevoegde nucleotiden bevatten een fluorophore die tijdens polymerisatie licht uitscheidt - detector vangt het licht, karakteristiek voor de verschillende nucleotiden, op en detecteert de sequentie.
Welke eigenschap moeten de fluorophores van de nucleotiden bevatten om Illumina sequencing te laten werken?
Ze moeten als terminator werken die tijdelijk elongatie blokkeert tot de volgende wasstap zodat polymerisatie een-voor-een gebeurt, anders mengsel van lichtsignalen in een cluster/stipje
Wanneer wordt fluorescentie gemeten? (voorafgaand aan welke stap?)
voorafgaand aan de verwijdering van de terminator van alle DNA moleculen
Base-calling
Het detecteren van basen door de detector: bv door het aflezen van kleurensignalen bij Illumina sequencing op de aparte spots die elk een cluster van één fragment representeren
Single-end sequencing
Nadat er fragmentatie en adapters additie heeft plaatsgevonden zullen de fragmenten maar vanaf één kant worden gesequenceerd (forward reads only)
Paired-end sequencing
Sequencing vanaf beide uiteinden
> forward en reverse reads die als read pairs worden behandeld
> dubbel aantal reads in library prep
> de reads kunnen overlappen en in dat geval worden gecombineerd tot een langere single-end read na merging
> fragment lengte 200-500 nt
> accurater voor alignment en detectie van indels
Mate-pair
Verschilt van de PE-seq in library prep
> 2-5 kb fragment selectie en sequencing van beide uiteinden
> informatie over hoe nucleotides van ver uit elkaar bij elkaar horen
> structurele varianten detectie
> voor oplossen van repetitieve gevieden tijdens genoom assembly.
Wat zijn barcodes?
Unieke sequenties van 5-10 basen (meestal 8) die deel uitmaken van de sequencing adapters (onderscheiden van de samples)
Voordeel van barcodes
Je kunt vele samples tegelijk sequencen: maximalisatie van capaciteitsgebruik van de sequencer.
> 8 base barcode > 96 barcodes > 96 samples max
> 12 base barcode > 384
Index
Synoniem voor een barcode
PCR na de multiplexing (barcode additie)
Emulsion PCR en daaropvolgend enrichment en deposition.
> na barcode additie een library prep van de gepoolde samples (alles in een soep gooien)
> sequencing templates van verschillende samples zijn niet langer gescheiden hierbij
Vanuit NGS onstaat een vast getal van reads uit een pool van DNA fragmenten. Wat voor informatie kan dit geven?
Over biologische condities door vergelijing van read number met biologische condities
RNA-seq principe
Vergelijken van aantal kopieën van elke mRNA transcript via sequencing van cDNA in verschillende celtypes of samples. (PCR voorafgaand aan de sequencing)
PCR bias
Overrepresentatie van sommige sequenties > heeft invloed op de uiteindelijke library en de kwantificatie van DNA/RNA abundance
Unique Molecular Identifiers (UMIs)
Korte random nucleotide sequenties die gebruikt kunnen worden als een absolute telmethode (uniek voor elk molecuul (bv DNA, eiwit))
UMI additie
Elk molecuul in de populatie is uniek gemaakt door additie van UMI voorafgaand aan de PCR sequencing
> UMIs komen in de library > moleculaire geheugen voor aantal moleculen in de startsample
> elke UMI tellen om PCR bias te voorkomen
> identieke kopieën scheiden van aparte moleculen door PCR amplificatie
» PCR errors bepalen
Bij welke techniek zijn UMIs handig om te gebruiken?
RNA-seq > verbeterde detectie van laagfrequente moleculen
Hoeveel unieke UMIs zijn er?
UMIs zijn 22 nt lang > 4^22 mogelijke UMIs
Workflow UMI additie
- extensie van primers met UMIs en p5/p7 adapters om de barcoded libraries te faciliteren voor Illumina
- PCR 2 cycli > p5/p7 tagged amplicons inclusief UMI (via adapter aan flow cell)
- Final library amplification (2e PCR)
- Illumina sequencing tot Illumina reads
Miscalled bases
Incorrect gemeten nucleotiden door de detector
Error in NGS
- During library prep > unintended ligation or other polymerization error
- During sequencing > more common: chance of incorporating wrong or nu nucleotide
> degradation of light signals due to out of synch
What is the limiting factor for NGS read length?
The sequencing error rate
> length below 2 x 300 nt
Calibration of sequencers
Estimation of likelihood of sequencing error depending on light signal
Sequencing error rate
0.8% > 8/1000
- error is indistinguishable from a SNP
> overcome problem by increasing number of reads
> 8 reads > 0.8^8 % error rate
Name the differences between NGS and Sanger Sequencing
NGS – Sanger
library construction
NGS reads from fragment libraries – cloning and amplification
parallelism
Parallel procession of millions of reads – 96 reads at a time for gel electrophoresis
read length
50-300 nt – up to 1000 nt
error rate
85-99% – 99.999%
costs
0.0002$ per kb – 0.50$ per kb
Were is long-read sequencing used for?
Indentifying Structural Variants, repetitive elements, copy-number alterations
Read length with long-read sequencing
Longer than 1 kb
> useful for transcriptomic research > entire mRNA transcripts
> eliminate randomness in positions or size of genomic elements
Third Generation Sequencing
newer ways of sequencing like nanopores
Types of long-read sequencing
-Single-molecule real time sequencing
-Synthetic approaches
Single-molecule real time sequencing
-Does not rely on clonal population of amplified DNA
-Asynchronous signal detection by fluorescent signal during polymerization of single DNA molecules.
-No sequencing cycles > every signal from every molecule is captured on its own > no limit to read length than availability of nucleotides
-higher error rate than short reads (weaker signal from a single molecule and chance of sequencer error)
How can the error rate be lowered in Single-molecule real time sequencing
Sequence the same piece of DNA multiple times: but this reduces throughput
Synthetic Third Gen Sequencing: Nanopore sequencing
Membrane with many pores, and the DNA strand is puled through.
-electrical potential over the membrane
-measuring the flux of currents through the pores specific for the sequence.
-recognize short DNA sequences
-no limit to length of DNA molecule except for mechanical stability of DNA
-Base-calling is harder and error rates are higher than light-based base-calling
What is more expensive: third gen (long-read) sequencing or regular NGS?
Third gen
Data pre-processing steps
-Data conversion
-Quality score and trimming
-Sequence alignment / mapping
-Coverage / read depth
How is the Phred Score calculated?
Q = -log(p)
Q: Phred score
p: probability of sequencing error
What is the error rate and accuracy for Phred scores 10 and 40?
10 > 1 in 10 incorrect base calls > 90% accuracy
40 > 1 in 10,000 incorrect base calls > 99.99%
What happens to the quality across the read?
The quality decreases the further downstream (towards 3’-end) in the read
You can remove the ends of the reads to improve their quality. But this does affect the quality of the sequence alignment. How?
The coverage will decrease (read depth at certain nucleotides)
How is sequence alignment performed?
So that the most amount of matches is made in nucleotide/amino acid sequence
Types of alignments
-Unique
-Non-unique
-Low confidence: unique but low quality score, lots of mismatches
-No alignment
Which read alignments are kept?
Unique alignments
Which regions n the genome resemble the non-unique alignments?
Low complexity region, pseudogene, repetitive region
Read depth (coverage)
the (average) number of reads representing a given nucleotide in the reconstructed/reference sequence
What does a high coverage mean?
Increased reliability of the results like indentificaion of SNPs
Breadth of coverage
Percentage of the DNA/RNA covered by all the reads
Average coverage formula
N*L/G
N: number of reads
L: average read length
G: length of the original genome
Why is single cell sequencing only possible in the last X years?
because less DNA is needed for analysis
Applications single cell sequencing
-Single cell processes: cancer: transformation, clonal evolution, metastasis, chemoresistance (transcriptomics analysis)
-Study of micro-organisms which cannot be cultured direct (microbiome)