Data analysis and integration (III) Flashcards

Question 1

Q

Low dimensional data

Answer

A

More observations than variables.

Question 2

Q

High dimensional data

Answer

A

More variables than observations.

Question 3

Q

Problemen met high dimensional data

Answer

A

Visualization
relevant genes
similarity/subgroup data
avoiding overfitting
false positives
statistical analyses
similar function of genes

Question 4

Q

Differential gene expression analysis doel

Answer

A

Analyse en interpretatie van verschillen in gentranscriptie binnen een transcriptoom.

Question 5

Q

Workflow differential gene expresssion

Answer

A

Collect data
Normalize samples
Calculate changes between conditions.
Test which changes are significant.
Correct for multiple testing
Interpret results

Question 6

Q

Fold change (FC)

Answer

A

Als we naar veranderingen kijken, is de verhouding tussen behandeling en controle doorgaans relevanter dan het verschil. Dit wordt fold change (FC) genoemd.

Question 7

Q

Problemen met library normalization

Answer

A

Aanpassing voor verschillende bieb groottes.
Aanpassing voor verschillende bieb samenstelling.

Question 8

Q

Bonferroni correction

Answer

A

Zeer strikt, gaat ervan uit dat alle genen zich onafhankelijk gedragen. Het deelt alle p-waardes (<0.05) door het aantal uitgevoerde tests.

Question 9

Q

Benjamini-Hochberg (BH)

Answer

A

vaak gebruikt bij omics-data-analyse. Minder streng.
False discovery rate (FDR): verwacht aandeel valse ontdekkingen onder alle ontdekkingen gegeven een p-waardedrempel.

Alle p-values worden gerangschikt van laag naar hoog. De hoogste worden het meest gecorriceerd.

Question 10

Q

Principe biological overlay

Answer

A

Biologische overlays worden gebruikt om van een dataset naar biologie te gaan met behulp van biologische kennis. Het zal genen in kaart brengen voor biologische functies en de aanzienlijk gewijzigde lijst van genen begrijpen in de context van transcriptomics/gene expression data.

Question 11

Q

Enrichment

Answer

A

Gene set enrichtment is een methode om klassen van genen of eiwitten te identificeren die oververtegenwoordigd zijn in een grote reeks genen of eiwitten en die geassocieerd kunnen zijn met verschillende fenotypes.

Alleen differentially expressed gene (DEG).

Question 12

Q

Ontology

Answer

A

Een manier om de eigenschappen van een vakgebied te laten zien en hoe deze met elkaar in verband staan, door een reeks concepten en categorieën te definiëren die het onderwerp vertegenwoordigen

Question 13

Q

Annotation

Answer

A

Is het verband tussen een gen en zijn GO-term. Dit is gebaseerd op bewijsmateriaal uit de literatuur dat hen verbindt met de genen die we hebben.

Question 14

Q

Nadelen en risk van biological overlay

Answer

A

Trajecten zijn vaak onvolledig en gebouwd op basis van de persoonlijke interesse van vrijwilligers die betrokken zijn bij het maken van de kaarten.
Het gebruik van biologische overlays creëert geen ‘nieuwe’ kennis, maar haalt alleen gegevens uit de literatuur.
Het is vaak gericht op bepaalde onderzoeksgebieden, zoals kanker.
Genen krijgen altijd een annotatie, ook al vervult één gen slechts één (bekende) functie, veranderingen in dit gen kunnen in de verkeerde richting wijzen → onbetrouwbaar

Question 15

Q

Single linkage

Answer

A

De minimale afstand tussen twee punten in verschillende clusters.

Question 16

Q

Complete linkage

Answer

A

De maximale afstand tussen twee punten in verschillende clusters.

Question 17

Q

Average linkage

Answer

A

De gemiddelde afstand tussen alle punten in de twee clusters.

Question 18

Q

Supervised analysis

Answer

A

Gebruikt annotaties als leidraad voor het bouwen van een statistisch model om een output te voorspellen op basis van inputs. Gebruikt bekende gegevens om de uitkomst te beïnvloeden

Question 19

Q

Unsupervised analysis

Answer

A

Leer (willekeurige) relaties en structuur uit data, niet gebaseerd op annotaties/grondwaarheid → hiërarchische clustering

Question 20

Q

Dimension reduction

Answer

A

De transformatie van gegevens van een high dimensional ruimte naar een low dimensional ruimte, zodat de low dimensional representatie enkele betekenisvolle eigenschappen van de originele gegevens behoudt, idealiter dicht bij de intrinsieke dimensie ervan.

Question 21

Q

Principle component analysis (PCA)

Answer

A

Een techniek voor lineaire dimension reduction die de gegevens door lineaire projectie transformeert naar een lager-dimensionale ruimte die zoveel mogelijk gegevensvariatie behoudt

Question 22

Q

Linear discriminant analysis (LDA)

Answer

A

Het minimaliseren van de component-as voor class separation → supervised omdat u weet hoe u de gegevens wilt splitsen