04_zeroes Flashcards
Hvorfor er det nødvendigt at behandle 0’er?
relativ information: Hvis der er nuller kan man ikke sige noget om den relative information
logaritmer: 0 er ikke defineret.
scale invariance ikke defineret.
Nævn de forskellige slags nuller:
1) Afrundede værdier (under detetektionsgrænsen)
2) Strukturelle - fx et nul der kommer fra at et parti ikke stiller op et sted
3) Manglende værdier
4) amalgemerede værdier som ikke deles mellem to datasæt
5) tællenuller
Hvordan erstattes afrundede værdier?
1) Ofte brugt en lille værdi. Fx en proportion af detection value - de andre tallaves omså summener konstant. Dette skaber dog noget der ligner en falsk korrelation. Maks 10 % nuller.
2) Hvis mere end 10 % kan man lave parametrisk erstatning. Altså fit en normalfordeling og træk noget fra en sandsynlighed.
Hvordan erstattes strukturelle 0’er?
Ingen god måde - man må bruge sin fornuft… Kommer an på din analyse.
Hvordan erstattes manglende data 0’er?
Man kan ofte komme uden om det ved at lave bedre forsøgsopstilling.
kan inddeles i 3 kategorier:
1) Not missing at random - svære spørgsmål
2) missing at random - fx bliver man udelukket fra at svare hvis man har svaret noget andet tidligere
3) missing completely at random - glemt spørgsmål.
I sekventering er det kun not missing at random -gensekventer eller drop prøven.
Hvordan erstattes amalgamated data 0’er?
Den eneste reelle mulighed er at amalgamere så alle prøver har den samme inddeling.
Hvordan erstattes tællenuller?
Svært - kan man antage at det altid vilvære nul med scale invariance? Så nok bare fjern det, hvis ikke. Man kan estimere med hjælp af en bayesisk approach.
Hvad siger bayes theorem?
P(O | x) = 1/C * p(x | O)*p(O) (C is normaliztion constant)
What is the idea of a conjugate prior?
So we donet need to calculate the normalization C. Makes sure that posterior distributionhas the same distribution as the prior.
Hvilken fordeling følger counts`?
En multinomial distribution - giver sandsynligheden for at opleve forskliige counts for hver entry for n counts.
Hvad er ideen med en dirichlet distribution?
For at finde en fordeling
Hvad er en latent composition?
For count data er den latent composition den “rigtige” fordeling af counts på fx gener. Pga. sampling size og stochasticitet vil man når man sampler (især for små værdier) få nogle tal der ikke er det samme som den latente komposition.
Den data vi ser er en kendt funktion af en underliggende latent komposition.
Hvad er ideen med en bayesisk counts?
Vi skal finde en funktion der mapper vores sample til den latente distribution. Bayesisk statistik kan tage de counts vi har fået i vores data og bruge dem til at estimere vores latente distribution.
Bayesisk tilgang bruger vores counts til at udregne en sandsynlighed for vores count parametre. I den sammenhæng skal der bruges en prior -altså en ide om hvordan counts fordeler sig. Har kommer dirchlet distributionen ind i billedet.
Hvad er ideen med en dirichlet distribution i forbindelse med bayesisk tilgang?
Dirichlet distributionen gør at vi i vores bayesiske tilgang ikke behøver bestemme normaliseringskonstanten (den er conjugate prior for den multinominale distribution). Dirichlet distributionen tager en vektor (kaldet alpha) og outputter en vektor også. Men en vektor af sandsynligheder.
Hvad er koncentrationsparametren?
Den parameter der bliver givet til dirichlet - en vektor? alpha < 1 er sparse (få steder har mest sandsynlighed) og alpha > 1 er mere ens samples.
Når vi har udregnet posterior distribution kan vi bruge den til at estimere nuller.