Data analysis and integration (III) Flashcards
Low dimensional data
More observations than variables.
High dimensional data
More variables than observations.
Problemen met high dimensional data
- Visualization
- relevant genes
- similarity/subgroup data
- avoiding overfitting
- false positives
- statistical analyses
- similar function of genes
Differential gene expression analysis doel
Analyse en interpretatie van verschillen in gentranscriptie binnen een transcriptoom.
Workflow differential gene expresssion
- Collect data
- Normalize samples
- Calculate changes between conditions.
- Test which changes are significant.
- Correct for multiple testing
- Interpret results
Fold change (FC)
Als we naar veranderingen kijken, is de verhouding tussen behandeling en controle doorgaans relevanter dan het verschil. Dit wordt fold change (FC) genoemd.
Problemen met library normalization
- Aanpassing voor verschillende bieb groottes.
- Aanpassing voor verschillende bieb samenstelling.
Bonferroni correction
Zeer strikt, gaat ervan uit dat alle genen zich onafhankelijk gedragen. Het deelt alle p-waardes (<0.05) door het aantal uitgevoerde tests.
Benjamini-Hochberg (BH)
vaak gebruikt bij omics-data-analyse. Minder streng.
False discovery rate (FDR): verwacht aandeel valse ontdekkingen onder alle ontdekkingen gegeven een p-waardedrempel.
Alle p-values worden gerangschikt van laag naar hoog. De hoogste worden het meest gecorriceerd.
Principe biological overlay
Biologische overlays worden gebruikt om van een dataset naar biologie te gaan met behulp van biologische kennis. Het zal genen in kaart brengen voor biologische functies en de aanzienlijk gewijzigde lijst van genen begrijpen in de context van transcriptomics/gene expression data.
Enrichment
Gene set enrichtment is een methode om klassen van genen of eiwitten te identificeren die oververtegenwoordigd zijn in een grote reeks genen of eiwitten en die geassocieerd kunnen zijn met verschillende fenotypes.
Alleen differentially expressed gene (DEG).
Ontology
Een manier om de eigenschappen van een vakgebied te laten zien en hoe deze met elkaar in verband staan, door een reeks concepten en categorieën te definiëren die het onderwerp vertegenwoordigen
Annotation
Is het verband tussen een gen en zijn GO-term. Dit is gebaseerd op bewijsmateriaal uit de literatuur dat hen verbindt met de genen die we hebben.
Nadelen en risk van biological overlay
- Trajecten zijn vaak onvolledig en gebouwd op basis van de persoonlijke interesse van vrijwilligers die betrokken zijn bij het maken van de kaarten.
- Het gebruik van biologische overlays creëert geen ‘nieuwe’ kennis, maar haalt alleen gegevens uit de literatuur.
- Het is vaak gericht op bepaalde onderzoeksgebieden, zoals kanker.
- Genen krijgen altijd een annotatie, ook al vervult één gen slechts één (bekende) functie, veranderingen in dit gen kunnen in de verkeerde richting wijzen → onbetrouwbaar
Single linkage
De minimale afstand tussen twee punten in verschillende clusters.
Complete linkage
De maximale afstand tussen twee punten in verschillende clusters.
Average linkage
De gemiddelde afstand tussen alle punten in de twee clusters.
Supervised analysis
Gebruikt annotaties als leidraad voor het bouwen van een statistisch model om een output te voorspellen op basis van inputs. Gebruikt bekende gegevens om de uitkomst te beïnvloeden
Unsupervised analysis
Leer (willekeurige) relaties en structuur uit data, niet gebaseerd op annotaties/grondwaarheid → hiërarchische clustering
Dimension reduction
De transformatie van gegevens van een high dimensional ruimte naar een low dimensional ruimte, zodat de low dimensional representatie enkele betekenisvolle eigenschappen van de originele gegevens behoudt, idealiter dicht bij de intrinsieke dimensie ervan.
Principle component analysis (PCA)
Een techniek voor lineaire dimension reduction die de gegevens door lineaire projectie transformeert naar een lager-dimensionale ruimte die zoveel mogelijk gegevensvariatie behoudt
Linear discriminant analysis (LDA)
Het minimaliseren van de component-as voor class separation → supervised omdat u weet hoe u de gegevens wilt splitsen