HC 3 - NGS: Bioinformatics Algorithms Flashcards
Hoorcollege 3
de novo sequencing
DNA in kaart brengen wanneer het nog niet bekend is
Re-sequencing
vergelijking DNA met het referentie genoom
Hoe worden primers gemaakt voor re-sequencing?
Specifieke ontwikkeling van probes op basis van referentie/controle
Waarvoor wordt re-sequencing gebruikt?
Variant detectie en strcuturele variatie detectie
Structurele variatie bepaling indels
Er worden uiteinden van een fragment gepakt en deze worden met paired end sequencing gesequenced. De afstand tussen de reads is bekend. Wordt deze na alignment kleiner: dan insertie, of groter: dan deletie
Epigenetica sequencing detectie
Behandeling met sodium bisulfiet
> ongemethyleerde cytosines veranderen in uracil
> gemethyleerde cytosines veranderen niet
> alignment met de referentie
Paleogenomics
Sequencing van ancient DNA -> leidt tot kortere fragmenten want DNA breekt af over zo een lange tijd
Sequence analyses: alignment en assembly
Alignment: mappen reads naast de referentie
Assembly: reconstrueren genoom vanaf de reads mbv overlaps
Nadelen van Whole genome projects?
-Onvolledig referentie genoom
-Compilatie met laag aantal individuen en dus weinig variatie
-incompleet door technische moeilijkheden en veel indels en varianten die niet worden geïncludeerd
Voordelen sequencing projecten
-Vergelijken varianten uit wereldwijde databases met lokale varianten
-meer patiënten/individuen
Transcriptomics voordelen
-Accuraat genexpressie bepalen door alignment van de reads
-nieuwe transcripten vinden
Transcriptomics nadelen
-je kunt onbekende transcripten missen
-lastige alignment door introns
Biologische relevantie van sequence alignment
het verkrijgen van inzicht in de structuur en functie van een sequentie: hoge gelijkheid betekent vaak functionele of structurele gelijkheid en dus geconserveerde functies.
Database searching: BLAST
hierbij wordt een sequentie ingevoerd tegen een referentie en kan de query (interest) tegen de best mogelijke subject (referentie) worden gemapped.
Dotplot van sequenties: wat zijn de dots
De dots laten gelijkenissen van de sequentie zien op de gelijke delen
Automatische genannotatie bij RNA-seq
De cDNA van de transcripten mappen alleen tegen de exonen en niet tegen de intronen.
Noem een goed geconserveerde DNA-element
Promotorelementen
Pairwise sequence comparison
Het vergelijken van twee sequenties met elkaar (zonder een referentiegenoom)
Hoe ziet de dotplot bij pairwise sequence comparison eruit?
Overeenkomsten staan op de diagonaal en de assen zijn de sequenties.
- ruis weghalen door het instellen van filter –> window kiezen van bv 3 en alleen als 2/3 gelijk is dan voor de middelste een dot plaatsen
-gaten tussen de diagonaal in horizontale richting: intronen, niet in het RNA aanwezig
Nadeel van te kleine en te grote filterwindow bij dotplot bij pairwise sequence comparison
-Te klein: segmentparen hebben een te lage score
-Te groot: scores voor ongerelateerde aminozuren degraderen het signaal.
editing transcript bij pairwise sequence alignment
Gaat via een soort lingo tabel met de twee sequenties onder elkaar en je moet uitkomen bij een opimaal transcript waarbij zo min mogelijk operaties mogelijk zijn om naar de andere regel te komen > in kaart brengen mutatie events met geminimaliseerde afstand
- operaties/signalen: I (insertion), D (deletion), R (replacement), M (match)
verschil edit transcript en alignment
-Edit transcript: laat mutatie evenementen zien met minimale afstand
-Alignment: laat relatie tussen twee sequenties zien met maximale score
String alignment
-Twee regels sequenties
-Scores voor de alignment
-bv
>match: 2
> mismatch: -1
> indel: -1
> totaalscore door optellen
Substitutiescores
Vaak bij eiwitalignments en voor nucleotiden
> de A wordt sneller vervangen door G dan voor T
> meestal worden identiteiten gescoord in plaats van gewicht geven aan substituties.
Global alignment
Algemene alignment vinden, niet vaak gebruikt
Ends-free alignment
overlap vinden in de uiteinden van sequenties
Local alignment
: vinden van sub-sequenties, dit wordt vaak gebruikt (bv een read over een referentiegenoom).
Tubular computation
formules vanuit de global alignment > van een subtitutie matrix
Hoe bereken je een punt V(i,j) vanuit V(i-1, j-1), V(i-1, j) en V(i, j-1)?
S1 is sequentie verticaal en S2 horizontaal
V(i,j) = max[
V(i-1, j-1) + score(S1(i), S2(j)),
V(i-1,j) + score(S1(i), -) > altijd extra -1
V(i, j-1) + score(-, S2(j)) > altijd extra -1]
Kies de maximumscore van deze drie en vul in vanaf de basis.
Onder de eerste sequenties staat linksboven 0 en daaropvolgend richting -5 bv met stappen van -1.
Trace back met tubular computation
begin rechtsonder (rechterdeel sequentie) en volg de pijlen om een bepaalde route te vinden met de meest gunstige score. Wanneer je recht omhoog of naar de zijkant gaat, heb je te maken met een space (streepje). dit streepje verschijnt bij de sequentie waar de twee naast elkaar gelegen gekozen nummers liggen (alsof het een pijl is). Je noteert dan de laatste nucleotide van de andere sequentie en een streepje ertegenover.
> na het tracen bereken je van de mogelijke alignments de scores en je kiest degene met de maximale score
verandering formule bij ends-free alignment (pairwise) en bij local
ends-free: De base is 0,0
local: base is 0,0 en tussen de opties van de max zit ook 0
Algoritmes voor global, local en ends-free alignments pairwise
Global: Needleman-Wunsch
Local: Smith Waterman
Ends-free: Assembly
Applicaties global, local en ends-free pairwise alignment
-Local: biologische applicaties
-Global: exposen van belangrijke biologische gelijkenissen (soms)
-Ends-free: reconstructie van genomen van shotgun sequencing (assembly)
Mulitple sequence alignment
Inexacte matching van meer dan 2 sequenties
Waarom gebruiken we BLAST als algoritme liever dan de pairwise algoritmes?
Het is sneller om tegen een referentie te vergelijken.
Nadelen blast
-Minder accuraat dat pairwise
> maar snel en goed genoeg
BLAST query
ingevoerde sequentie
Target databanks van BLAST
Genbank en Swissprot
Sequence list van referenties
hits/ subjects
BLAST applicatie
Homologie onderzoeken op basis van gelijkenis in de sequentie (niet per se biologisch gelijke sequenties)
BLAST varianten
Nucleotiden query en database: Blastn
Eiwit query en databse: Blastp
Blast stappenplan
- een word hit met lengths
- scores alignment
- extensie HSP (high scoring segment pair) tot de score een klein stukje daalt en dan stopt de alignment
Wat doet blast met de sequentie?
Het hakt de sequentie in fragmenten en gaat dan vergelijken
Problemen met blast en NGS aligners
-te traag door te veel reads uit NGS
-sequence reads te kort
-verschillende protocollen (SE/PE-sequencing)
-andere typen sequencers
Doel van een sequence aligner
De reads moeten aligned worden met een referentie dataset en de juiste locaties moeten worden gevonden op het genoom. Je wilt fouten toestaan (inexact matching) voor variantdetectie
wat is bwa?
Een data compressie methode en aligner
> sorteren database en index maken voor snel zoeken en vergelijken. De hele database zit in het geheugen van de computer voor snelle verglijking
> voor WGS (humane genoom) en NGS data
Informatie sequenties van de sequencer
-ID - Sequence length - coordinate on slide
-name sequences
-sequences
-quality scores (phred)
-optional: intensity
Opslaan van sequentie in FASTA
Regels
- S-ID-sequentie
Geen kwaliteitsscores
FASTQ regels
1: @S-ID
2: nucleotide sequentie
3: een ‘+’ en evt beschrijving
4: kwaliteits Phred scores
Phred score van 40 –> wat is de accuratie?
40
1;10000 een fout
99.99% base call accuracy
Hogere Phred score betekent…
hogere kwaliteit
Ascii encoding
een codetaal voor het aangeven van de Phredscores dmv een coderij met karakters die staan voor aparte Phred scores > compressie bestand in de vierde regel van de fastq.
Wat is FASTQC?
Een programma voor het analyseren van fastq file met kwaliteitsscores in boxplots diagram met de desbetreffende posities
Waar in de read is de Phred score het laagste?
Aan het einde (rechts, 3’-end)
Wat wordt er gedaan met lage kwaliteitsbases
Weghalen > quality trimming > nodig voor het vinden van SNPs
QC correctie na alignment
-Sequentie errors oplossen
-Misaligned indels
-Duplicaten door PCR
-gedeeltelijke match aan repetitieve regio’s
Hoe loopt IGV genome viewer van links naar rechts?
Van korte arm chromosoom naar lange arm
Onderste balk IGV
RefSeq genen met bekende genen > dikke delen zijn de exonen, iets dunner de UTRs en dunste de intronen
IGV: balken in middenpaneel
Grijs: aligned reads
Kleur: potentiële variant
> houd rekening met errors, moet nog filtering, let op read depth
programmas voor alignement errors
BWA> align sequenties 1 voor 1
Has voor indel problem
Lokale realignement
duplicatiefouten in PCR
-Leidt tot 2 sequenties met 1 origin
-kunnen geïdentificeerd worden omdat ze op dezelfde positie alignen
-twee reads in 1 druppel voor de PCR
Matching aan repetitieve regio’s
Op meerdere posities alignment > daarom wil je alleen reads die op een unieke positie met hoge confidence alignen