HC 3 - NGS: Bioinformatics Algorithms Flashcards

Hoorcollege 3

1
Q

de novo sequencing

A

DNA in kaart brengen wanneer het nog niet bekend is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Re-sequencing

A

vergelijking DNA met het referentie genoom

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hoe worden primers gemaakt voor re-sequencing?

A

Specifieke ontwikkeling van probes op basis van referentie/controle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Waarvoor wordt re-sequencing gebruikt?

A

Variant detectie en strcuturele variatie detectie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Structurele variatie bepaling indels

A

Er worden uiteinden van een fragment gepakt en deze worden met paired end sequencing gesequenced. De afstand tussen de reads is bekend. Wordt deze na alignment kleiner: dan insertie, of groter: dan deletie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Epigenetica sequencing detectie

A

Behandeling met sodium bisulfiet
> ongemethyleerde cytosines veranderen in uracil
> gemethyleerde cytosines veranderen niet
> alignment met de referentie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Paleogenomics

A

Sequencing van ancient DNA -> leidt tot kortere fragmenten want DNA breekt af over zo een lange tijd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Sequence analyses: alignment en assembly

A

Alignment: mappen reads naast de referentie
Assembly: reconstrueren genoom vanaf de reads mbv overlaps

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Nadelen van Whole genome projects?

A

-Onvolledig referentie genoom
-Compilatie met laag aantal individuen en dus weinig variatie
-incompleet door technische moeilijkheden en veel indels en varianten die niet worden geïncludeerd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Voordelen sequencing projecten

A

-Vergelijken varianten uit wereldwijde databases met lokale varianten
-meer patiënten/individuen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Transcriptomics voordelen

A

-Accuraat genexpressie bepalen door alignment van de reads
-nieuwe transcripten vinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Transcriptomics nadelen

A

-je kunt onbekende transcripten missen
-lastige alignment door introns

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Biologische relevantie van sequence alignment

A

het verkrijgen van inzicht in de structuur en functie van een sequentie: hoge gelijkheid betekent vaak functionele of structurele gelijkheid en dus geconserveerde functies.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Database searching: BLAST

A

hierbij wordt een sequentie ingevoerd tegen een referentie en kan de query (interest) tegen de best mogelijke subject (referentie) worden gemapped.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Dotplot van sequenties: wat zijn de dots

A

De dots laten gelijkenissen van de sequentie zien op de gelijke delen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Automatische genannotatie bij RNA-seq

A

De cDNA van de transcripten mappen alleen tegen de exonen en niet tegen de intronen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Noem een goed geconserveerde DNA-element

A

Promotorelementen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Pairwise sequence comparison

A

Het vergelijken van twee sequenties met elkaar (zonder een referentiegenoom)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hoe ziet de dotplot bij pairwise sequence comparison eruit?

A

Overeenkomsten staan op de diagonaal en de assen zijn de sequenties.
- ruis weghalen door het instellen van filter –> window kiezen van bv 3 en alleen als 2/3 gelijk is dan voor de middelste een dot plaatsen
-gaten tussen de diagonaal in horizontale richting: intronen, niet in het RNA aanwezig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Nadeel van te kleine en te grote filterwindow bij dotplot bij pairwise sequence comparison

A

-Te klein: segmentparen hebben een te lage score
-Te groot: scores voor ongerelateerde aminozuren degraderen het signaal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

editing transcript bij pairwise sequence alignment

A

Gaat via een soort lingo tabel met de twee sequenties onder elkaar en je moet uitkomen bij een opimaal transcript waarbij zo min mogelijk operaties mogelijk zijn om naar de andere regel te komen > in kaart brengen mutatie events met geminimaliseerde afstand
- operaties/signalen: I (insertion), D (deletion), R (replacement), M (match)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

verschil edit transcript en alignment

A

-Edit transcript: laat mutatie evenementen zien met minimale afstand
-Alignment: laat relatie tussen twee sequenties zien met maximale score

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

String alignment

A

-Twee regels sequenties
-Scores voor de alignment
-bv
>match: 2
> mismatch: -1
> indel: -1
> totaalscore door optellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Substitutiescores

A

Vaak bij eiwitalignments en voor nucleotiden
> de A wordt sneller vervangen door G dan voor T
> meestal worden identiteiten gescoord in plaats van gewicht geven aan substituties.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Global alignment
Algemene alignment vinden, niet vaak gebruikt
26
Ends-free alignment
overlap vinden in de uiteinden van sequenties
27
Local alignment
: vinden van sub-sequenties, dit wordt vaak gebruikt (bv een read over een referentiegenoom).
28
Tubular computation
formules vanuit de global alignment > van een subtitutie matrix
29
Hoe bereken je een punt V(i,j) vanuit V(i-1, j-1), V(i-1, j) en V(i, j-1)?
S1 is sequentie verticaal en S2 horizontaal V(i,j) = max[ V(i-1, j-1) + score(S1(i), S2(j)), V(i-1,j) + score(S1(i), -) > altijd extra -1 V(i, j-1) + score(-, S2(j)) > altijd extra -1] Kies de maximumscore van deze drie en vul in vanaf de basis. Onder de eerste sequenties staat linksboven 0 en daaropvolgend richting -5 bv met stappen van -1.
30
Trace back met tubular computation
begin rechtsonder (rechterdeel sequentie) en volg de pijlen om een bepaalde route te vinden met de meest gunstige score. Wanneer je recht omhoog of naar de zijkant gaat, heb je te maken met een space (streepje). dit streepje verschijnt bij de sequentie waar de twee naast elkaar gelegen gekozen nummers liggen (alsof het een pijl is). Je noteert dan de laatste nucleotide van de andere sequentie en een streepje ertegenover. > na het tracen bereken je van de mogelijke alignments de scores en je kiest degene met de maximale score
31
verandering formule bij ends-free alignment (pairwise) en bij local
ends-free: De base is 0,0 local: base is 0,0 en tussen de opties van de max zit ook 0
32
Algoritmes voor global, local en ends-free alignments pairwise
Global: Needleman-Wunsch Local: Smith Waterman Ends-free: Assembly
33
Applicaties global, local en ends-free pairwise alignment
-Local: biologische applicaties -Global: exposen van belangrijke biologische gelijkenissen (soms) -Ends-free: reconstructie van genomen van shotgun sequencing (assembly)
34
Mulitple sequence alignment
Inexacte matching van meer dan 2 sequenties
35
Waarom gebruiken we BLAST als algoritme liever dan de pairwise algoritmes?
Het is sneller om tegen een referentie te vergelijken.
36
Nadelen blast
-Minder accuraat dat pairwise > maar snel en goed genoeg
37
BLAST query
ingevoerde sequentie
38
Target databanks van BLAST
Genbank en Swissprot
39
Sequence list van referenties
hits/ subjects
40
BLAST applicatie
Homologie onderzoeken op basis van gelijkenis in de sequentie (niet per se biologisch gelijke sequenties)
41
BLAST varianten
Nucleotiden query en database: Blastn Eiwit query en databse: Blastp
42
Blast stappenplan
1. een word hit met lengths 2. scores alignment 3. extensie HSP (high scoring segment pair) tot de score een klein stukje daalt en dan stopt de alignment
43
Wat doet blast met de sequentie?
Het hakt de sequentie in fragmenten en gaat dan vergelijken
44
Problemen met blast en NGS aligners
-te traag door te veel reads uit NGS -sequence reads te kort -verschillende protocollen (SE/PE-sequencing) -andere typen sequencers
45
Doel van een sequence aligner
De reads moeten aligned worden met een referentie dataset en de juiste locaties moeten worden gevonden op het genoom. Je wilt fouten toestaan (inexact matching) voor variantdetectie
46
wat is bwa?
Een data compressie methode en aligner > sorteren database en index maken voor snel zoeken en vergelijken. De hele database zit in het geheugen van de computer voor snelle verglijking > voor WGS (humane genoom) en NGS data
47
Informatie sequenties van de sequencer
-ID - Sequence length - coordinate on slide -name sequences -sequences -quality scores (phred) -optional: intensity
48
Opslaan van sequentie in FASTA
Regels - S-ID-sequentie Geen kwaliteitsscores
49
FASTQ regels
1: @S-ID 2: nucleotide sequentie 3: een '+' en evt beschrijving 4: kwaliteits Phred scores
50
Phred score van 40 --> wat is de accuratie?
40 1;10000 een fout 99.99% base call accuracy
51
Hogere Phred score betekent...
hogere kwaliteit
52
Ascii encoding
een codetaal voor het aangeven van de Phredscores dmv een coderij met karakters die staan voor aparte Phred scores > compressie bestand in de vierde regel van de fastq.
53
Wat is FASTQC?
Een programma voor het analyseren van fastq file met kwaliteitsscores in boxplots diagram met de desbetreffende posities
54
Waar in de read is de Phred score het laagste?
Aan het einde (rechts, 3'-end)
55
Wat wordt er gedaan met lage kwaliteitsbases
Weghalen > quality trimming > nodig voor het vinden van SNPs
56
QC correctie na alignment
-Sequentie errors oplossen -Misaligned indels -Duplicaten door PCR -gedeeltelijke match aan repetitieve regio's
57
Hoe loopt IGV genome viewer van links naar rechts?
Van korte arm chromosoom naar lange arm
58
Onderste balk IGV
RefSeq genen met bekende genen > dikke delen zijn de exonen, iets dunner de UTRs en dunste de intronen
59
IGV: balken in middenpaneel
Grijs: aligned reads Kleur: potentiële variant > houd rekening met errors, moet nog filtering, let op read depth
60
programmas voor alignement errors
BWA> align sequenties 1 voor 1 Has voor indel problem Lokale realignement
61
duplicatiefouten in PCR
-Leidt tot 2 sequenties met 1 origin -kunnen geïdentificeerd worden omdat ze op dezelfde positie alignen -twee reads in 1 druppel voor de PCR
62
Matching aan repetitieve regio's
Op meerdere posities alignment > daarom wil je alleen reads die op een unieke positie met hoge confidence alignen