04_zeroes Flashcards

1
Q

Hvorfor er det nødvendigt at behandle 0’er?

A

relativ information: Hvis der er nuller kan man ikke sige noget om den relative information

logaritmer: 0 er ikke defineret.

scale invariance ikke defineret.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Nævn de forskellige slags nuller:

A

1) Afrundede værdier (under detetektionsgrænsen)
2) Strukturelle - fx et nul der kommer fra at et parti ikke stiller op et sted
3) Manglende værdier
4) amalgemerede værdier som ikke deles mellem to datasæt
5) tællenuller

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvordan erstattes afrundede værdier?

A

1) Ofte brugt en lille værdi. Fx en proportion af detection value - de andre tallaves omså summener konstant. Dette skaber dog noget der ligner en falsk korrelation. Maks 10 % nuller.
2) Hvis mere end 10 % kan man lave parametrisk erstatning. Altså fit en normalfordeling og træk noget fra en sandsynlighed.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvordan erstattes strukturelle 0’er?

A

Ingen god måde - man må bruge sin fornuft… Kommer an på din analyse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvordan erstattes manglende data 0’er?

A

Man kan ofte komme uden om det ved at lave bedre forsøgsopstilling.

kan inddeles i 3 kategorier:

1) Not missing at random - svære spørgsmål
2) missing at random - fx bliver man udelukket fra at svare hvis man har svaret noget andet tidligere
3) missing completely at random - glemt spørgsmål.

I sekventering er det kun not missing at random -gensekventer eller drop prøven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvordan erstattes amalgamated data 0’er?

A

Den eneste reelle mulighed er at amalgamere så alle prøver har den samme inddeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvordan erstattes tællenuller?

A

Svært - kan man antage at det altid vilvære nul med scale invariance? Så nok bare fjern det, hvis ikke. Man kan estimere med hjælp af en bayesisk approach.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad siger bayes theorem?

A

P(O | x) = 1/C * p(x | O)*p(O) (C is normaliztion constant)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

What is the idea of a conjugate prior?

A

So we donet need to calculate the normalization C. Makes sure that posterior distributionhas the same distribution as the prior.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvilken fordeling følger counts`?

A

En multinomial distribution - giver sandsynligheden for at opleve forskliige counts for hver entry for n counts.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad er ideen med en dirichlet distribution?

A

For at finde en fordeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er en latent composition?

A

For count data er den latent composition den “rigtige” fordeling af counts på fx gener. Pga. sampling size og stochasticitet vil man når man sampler (især for små værdier) få nogle tal der ikke er det samme som den latente komposition.

Den data vi ser er en kendt funktion af en underliggende latent komposition.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad er ideen med en bayesisk counts?

A

Vi skal finde en funktion der mapper vores sample til den latente distribution. Bayesisk statistik kan tage de counts vi har fået i vores data og bruge dem til at estimere vores latente distribution.

Bayesisk tilgang bruger vores counts til at udregne en sandsynlighed for vores count parametre. I den sammenhæng skal der bruges en prior -altså en ide om hvordan counts fordeler sig. Har kommer dirchlet distributionen ind i billedet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er ideen med en dirichlet distribution i forbindelse med bayesisk tilgang?

A

Dirichlet distributionen gør at vi i vores bayesiske tilgang ikke behøver bestemme normaliseringskonstanten (den er conjugate prior for den multinominale distribution). Dirichlet distributionen tager en vektor (kaldet alpha) og outputter en vektor også. Men en vektor af sandsynligheder.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad er koncentrationsparametren?

A

Den parameter der bliver givet til dirichlet - en vektor? alpha < 1 er sparse (få steder har mest sandsynlighed) og alpha > 1 er mere ens samples.

Når vi har udregnet posterior distribution kan vi bruge den til at estimere nuller.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad kan man bruge posterior distribution til?

A

At finde en mean count for en given part

E(xi) = a_i /sumk_til_D(a_k)

mode (en mest almindelig værdi)

mode(xi) = (a’_i - 1)/sum_k_til_D(a’_k)-D for a’_i > 1

also the aitchison mean. But a bit hard to compute.

17
Q

Hvad er dirichleten givet ved posterior?

A

Dirichlet(a’) = a0 + x

18
Q

Andre metoder:

A

1) K-nearest neighbour-udregn aitchison distance - median.

2) Iterative replacement:
- Erstat nuller med K-nearest eller bayesisk
- ILR transformer data med basis der rangerer efter hvor mange samples der mangler den værdi
-