HC 2 - NGS + Exome (+ HC 1 - Introductie) Flashcards
Hoorcollege 2 (HC1: Introductie)
Wat houden omics in?
Het meten van nagenoeg alle moleculen in een cel/weefsel/sample
Functie omics (wat is er zo voordelig aan al die moleculen meten?)
Kwantificatie en identificatie van vele metabolieten tegelijk
> bv identificatie variaties en modificaties
Waarom worden meerdere omics levels gemeten? (genomics, transcriptomics, proteomics, metabolomics)
Om interactie tussen de verschillende levels te kunnen waarnemen
Het maakt niet uit waar je de genomics meet. Waar maakt het wel uit?
-Bij verschillende soorten tumoren (vergelijking met somatisch DNA)
-Bloedcellen: door verandering in genoom
-Huidcellen: door blootstelling aan UV-straling en verschillen door mutaties
Welke extra dimensies kunnen er nog aan omics metingen worden toegevoegd?
Metingen over tijd en ruimte
Stratificatie
Detectie van subgroepen
> bv op basis van een diagnose en eventuele mutaties, genomics of moleculaire markers een beste treatment toekennen
Genoom bestaat uit … baseparen
3 miljard
Hoeveel SNPs zijn er ongeveer bekend
1 miljard (verschillende plekken waar meerdere allelen voorkomen)
Aantal nucleotiden in het humane genoom
3 miljard
Aantal genen in het humane genoom
20,000
Innovaties van NGS
Het gehele genoom van populaties kunnen sequencen en onderscheiden.
Applicaties van NGS
-Variant detectie (SNPs, indels)
-Structurele varianten
-Splice varianten
-RNA-seq -> genexpressie
-CHiP-seq -> eiwitinteracties met DNA (TFs)
-Bisulfiet sequencing -> bepalen methylatiepatronen
Metagenomics -> bv alle bacterien in darmflora sequencen en compositie bepalen
Sanger sequencing
Eerst amplificatie met de PCR -> van DNA/RNA naar DNA library met ddNTPs
> chain termination
> gelelektroforese
> sequentiebepaling
Hoe lang zijn de Sanger DNA fragmenten
700-900 bp lang
> gaat wel langzaam
Automatische dideoxy sequencing
Sanger met fluorescente markers ipv aparte kammen per nucleotide
Illumina sequencing workflow
- Library prep
- Clusteramplificatie
- Sequencing
- Alignment en data-analyse
Illumina library prep
-Fragmenteren (je kunt alleen stukje van 100-300 bp sequencen) met een enzym
> toevoegen adapters aan de flanken > ligatie > sequencing library.
Illumina cluster amplificatie
-de fragmenten hybridizeren met hun 5’-adapter aan de probes die op de flow cell zitten
> bridge amplification: molecuul gaat buigen en adapter aan 3’kant bindt aan complementaire adapter > initiatie polymerisatiereactie > herhaling > cluster amplificatie tot clusters van fragmenten
Illumina sequencing step
een pool van fluorescente nucleotides wordt toegevoegd en bindt aan de complementaire strengen van de geamplificeerde DNA op een clusterlocatie en uitscheiding lichtsignaal bij polymerisatiereactie
> tijdelijke blokkering door terminator op de fluorescente nucleotide > foto maken met detector
-wassen > klieving signaal en terminator > herhaal
-Binnen 1 cluster zitten de paired end forward en reverse strengen.
Single-end sequencing
Sequencen van alleen de forward strengen en de reverse strengen weglaten
> goedkoper en sneller
Paired-end sequencing
Eerst vanaf de 5’-end sequencen (forward) en daarna voor dezerlfde cluster alle foward strengen weglaten en reverse gebruiken (3’-end)
> accurater
Bij welke reads is de accuratie hoger: grote of kleine
Korte reads –> alignment op andere plekken > meer betrouwbaarheid omdat elke nucleotide meerdere keren is gesequenceerd
Coverage (read depth)
Aantal keer dat dezelfde nucleotide door verschillende reads is behandeld, en je streeft naar gemiddelde coverage van 30
Bij paired-ends ontstaan er onbekende tussensequenties. Wat zijn deze?
Het stuk tussen de forward en reverse read gezien deze ver van elkaar af kunnen liggen.
Multiplexing
Maximaliseren van de sequencing capaciteit en reduceren van de workflow van sample preperation via barcodes
Barcodes
Unieke 5-10 basesequenties die aan de 3’-end van de template worden teogevoegd
> uniek per sample: elk fragment is te herleiden naar de sample of persoon bij wie het genoom hoort
Sets van tot hoeveel verschillende barcodes zijn ontworpen?
96 barcodes voor max 96 individuen
Soorten sequencing errors
-Incorrectly called bases (tijdens sequencing)
> kan ook voorkomen bij DNA library prep of PCR amplificatie
-Geen nucleotide ingebouwd > combinaties van fluorescentie want niet synchroon lopende cluster, geen goed signaal
Is een error individueel te onderscheiden van een SNP?
NEE
Hoe is het probleem van sequencing errors te overkomen?
Vergroten van het aantal reads > vergrootte coverage die inadequate metingen herkenbaar kan maken
Mendelian disease soorten
-Autosomaal of sex-linked
-dominant of recessief
cyctic fibrosis
taaislijmziekte
> autosomaal recessief
Hoe worden bijzondere en veelvoorkomende allelen van Mendeliane ziekten opgespoord?
Bijzonder: exome sequencing
Veelvoorkomend: GWA
Verschil tussen een SNP en een mutatie
SNP: in >1% van de populatie: komt veel voor
Mutatie: in <1% van de populatie: de novo
Waar ga je in het genoom op zoek naar varianten met een grote effect size?
In het exoom
Stappenplan Exome Sequencing
- DNA verzamelen van patiënten
- Exon capture
- Sequencing
- Verkrijgen humane DNA sequentie van publieke database (referentie)
- Vergelijken van de sequencing resultaten
- Filteren van de candidate mutations
- validatie in het lab > resultaat: de SNP/mutatie die de ziekte veroorzaakt
- Report the clinic
Hoe onderscheid je een SNP van een sequencing error?
De coverage/read depth
Wat verwacht je qua verdeling van de SNP bij een heterozygoot bij een allel
50% van de wild type en 50% met de variant
Filtering of exome data
-Comparison of patients > select candidates if the genes are mutates in almost all the patients
-Synonymous SNPs do not change the protein so these are removed
-Candidates: SNPs between patients but non-synonymous
Wat zijn de factoren om rekening mee te houden bij identificatie van causale allelen?
-Manier van overerving
-de novo of overerfbaar
-Stamboom van populatiestructuur
-Extensie van de locus heterogeniteit
Hoe kan er uit de stamboom een de novo worden onderscheiden van een overerfbare SNP?
Mutatie/ziekte niet in de ouders –> de novo (makkelijker te zien als dominant want dan uit het in het fenotype, geen dragers)