Data analysis and integration (III) Flashcards
Low dimensional data
More observations than variables.
High dimensional data
More variables than observations.
Problemen met high dimensional data
- Visualization
- relevant genes
- similarity/subgroup data
- avoiding overfitting
- false positives
- statistical analyses
- similar function of genes
Differential gene expression analysis doel
Analyse en interpretatie van verschillen in gentranscriptie binnen een transcriptoom.
Workflow differential gene expresssion
- Collect data
- Normalize samples
- Calculate changes between conditions.
- Test which changes are significant.
- Correct for multiple testing
- Interpret results
Fold change (FC)
Als we naar veranderingen kijken, is de verhouding tussen behandeling en controle doorgaans relevanter dan het verschil. Dit wordt fold change (FC) genoemd.
Problemen met library normalization
- Aanpassing voor verschillende bieb groottes.
- Aanpassing voor verschillende bieb samenstelling.
Bonferroni correction
Zeer strikt, gaat ervan uit dat alle genen zich onafhankelijk gedragen. Het deelt alle p-waardes (<0.05) door het aantal uitgevoerde tests.
Benjamini-Hochberg (BH)
vaak gebruikt bij omics-data-analyse. Minder streng.
False discovery rate (FDR): verwacht aandeel valse ontdekkingen onder alle ontdekkingen gegeven een p-waardedrempel.
Alle p-values worden gerangschikt van laag naar hoog. De hoogste worden het meest gecorriceerd.
Principe biological overlay
Biologische overlays worden gebruikt om van een dataset naar biologie te gaan met behulp van biologische kennis. Het zal genen in kaart brengen voor biologische functies en de aanzienlijk gewijzigde lijst van genen begrijpen in de context van transcriptomics/gene expression data.
Enrichment
Gene set enrichtment is een methode om klassen van genen of eiwitten te identificeren die oververtegenwoordigd zijn in een grote reeks genen of eiwitten en die geassocieerd kunnen zijn met verschillende fenotypes.
Alleen differentially expressed gene (DEG).
Ontology
Een manier om de eigenschappen van een vakgebied te laten zien en hoe deze met elkaar in verband staan, door een reeks concepten en categorieën te definiëren die het onderwerp vertegenwoordigen
Annotation
Is het verband tussen een gen en zijn GO-term. Dit is gebaseerd op bewijsmateriaal uit de literatuur dat hen verbindt met de genen die we hebben.
Nadelen en risk van biological overlay
- Trajecten zijn vaak onvolledig en gebouwd op basis van de persoonlijke interesse van vrijwilligers die betrokken zijn bij het maken van de kaarten.
- Het gebruik van biologische overlays creëert geen ‘nieuwe’ kennis, maar haalt alleen gegevens uit de literatuur.
- Het is vaak gericht op bepaalde onderzoeksgebieden, zoals kanker.
- Genen krijgen altijd een annotatie, ook al vervult één gen slechts één (bekende) functie, veranderingen in dit gen kunnen in de verkeerde richting wijzen → onbetrouwbaar
Single linkage
De minimale afstand tussen twee punten in verschillende clusters.