Data analysis and integration (III) Flashcards

1
Q

Low dimensional data

A

More observations than variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

High dimensional data

A

More variables than observations.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Problemen met high dimensional data

A
  1. Visualization
  2. relevant genes
  3. similarity/subgroup data
  4. avoiding overfitting
  5. false positives
  6. statistical analyses
  7. similar function of genes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Differential gene expression analysis doel

A

Analyse en interpretatie van verschillen in gentranscriptie binnen een transcriptoom.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Workflow differential gene expresssion

A
  1. Collect data
  2. Normalize samples
  3. Calculate changes between conditions.
  4. Test which changes are significant.
  5. Correct for multiple testing
  6. Interpret results
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Fold change (FC)

A

Als we naar veranderingen kijken, is de verhouding tussen behandeling en controle doorgaans relevanter dan het verschil. Dit wordt fold change (FC) genoemd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Problemen met library normalization

A
  1. Aanpassing voor verschillende bieb groottes.
  2. Aanpassing voor verschillende bieb samenstelling.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Bonferroni correction

A

Zeer strikt, gaat ervan uit dat alle genen zich onafhankelijk gedragen. Het deelt alle p-waardes (<0.05) door het aantal uitgevoerde tests.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Benjamini-Hochberg (BH)

A

vaak gebruikt bij omics-data-analyse. Minder streng.
False discovery rate (FDR): verwacht aandeel valse ontdekkingen onder alle ontdekkingen gegeven een p-waardedrempel.

Alle p-values worden gerangschikt van laag naar hoog. De hoogste worden het meest gecorriceerd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Principe biological overlay

A

Biologische overlays worden gebruikt om van een dataset naar biologie te gaan met behulp van biologische kennis. Het zal genen in kaart brengen voor biologische functies en de aanzienlijk gewijzigde lijst van genen begrijpen in de context van transcriptomics/gene expression data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Enrichment

A

Gene set enrichtment is een methode om klassen van genen of eiwitten te identificeren die oververtegenwoordigd zijn in een grote reeks genen of eiwitten en die geassocieerd kunnen zijn met verschillende fenotypes.

Alleen differentially expressed gene (DEG).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Ontology

A

Een manier om de eigenschappen van een vakgebied te laten zien en hoe deze met elkaar in verband staan, door een reeks concepten en categorieën te definiëren die het onderwerp vertegenwoordigen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Annotation

A

Is het verband tussen een gen en zijn GO-term. Dit is gebaseerd op bewijsmateriaal uit de literatuur dat hen verbindt met de genen die we hebben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Nadelen en risk van biological overlay

A
  1. Trajecten zijn vaak onvolledig en gebouwd op basis van de persoonlijke interesse van vrijwilligers die betrokken zijn bij het maken van de kaarten.
  2. Het gebruik van biologische overlays creëert geen ‘nieuwe’ kennis, maar haalt alleen gegevens uit de literatuur.
  3. Het is vaak gericht op bepaalde onderzoeksgebieden, zoals kanker.
  4. Genen krijgen altijd een annotatie, ook al vervult één gen slechts één (bekende) functie, veranderingen in dit gen kunnen in de verkeerde richting wijzen → onbetrouwbaar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Single linkage

A

De minimale afstand tussen twee punten in verschillende clusters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Complete linkage

A

De maximale afstand tussen twee punten in verschillende clusters.

17
Q

Average linkage

A

De gemiddelde afstand tussen alle punten in de twee clusters.

18
Q

Supervised analysis

A

Gebruikt annotaties als leidraad voor het bouwen van een statistisch model om een output te voorspellen op basis van inputs. Gebruikt bekende gegevens om de uitkomst te beïnvloeden

19
Q

Unsupervised analysis

A

Leer (willekeurige) relaties en structuur uit data, niet gebaseerd op annotaties/grondwaarheid → hiërarchische clustering

20
Q

Dimension reduction

A

De transformatie van gegevens van een high dimensional ruimte naar een low dimensional ruimte, zodat de low dimensional representatie enkele betekenisvolle eigenschappen van de originele gegevens behoudt, idealiter dicht bij de intrinsieke dimensie ervan.

20
Q

Principle component analysis (PCA)

A

Een techniek voor lineaire dimension reduction die de gegevens door lineaire projectie transformeert naar een lager-dimensionale ruimte die zoveel mogelijk gegevensvariatie behoudt

21
Q

Linear discriminant analysis (LDA)

A

Het minimaliseren van de component-as voor class separation → supervised omdat u weet hoe u de gegevens wilt splitsen