4 - Konfidensintervaller, signifikans Flashcards

1
Q

Hva er kriteriene for å få et representativt utvalg (sampling)? Hvorfor er det viktig?

A

Kriteriene for å få et representativt utvalg er at det er tilfeldig hvem som blir valgt ut (randomisering), det betyr at alle må ha lik sannsynlighet for å bli valgt ut.

De som blir valgt er uavhengig av hverandre, det betyr at det ikke er relasjoner mellom deltakerne.

Når vi skal velge deltakere til utvalg fra en populasjon så bør vi helst etter hver utvelgelse “legge deltakeren tilbake” før vi velger en annen. Dette er for at sannsynligheten for å bli med i utvalget forblir konstant. Dette skjer imidlertid nesten aldri, fordi man ofte vil unngå at en deltaker blir testet eller målt flere ganger.

Dette er viktig for at statistikkene vi måler i utvalget er mest mulig likt parameterne i populasjonen. Dette er det større sannsynlighet for når utvalget er representativt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er de tre hovedelementene i inferensiell statistikk innenfor NHTS?

A

De tre hovedelementene i inferensiell statistikk innenfor nullhypotese-rammeverket er:

  • At vi skal gjøre om en kvantitativ observasjon til en teststatistikk
  • At vi skal beregne sannsynligheten for denne observasjonen, gitt at det ikke er noen effekt (forutsier at nullhypotesen er sann)
  • Konkluder om observasjonen støtter en effekt eller ikke, og behold eller forkast nullhypotesen (se p-verdi)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er en utvalgsfordeling? (sampling distribution)

A

En utvalgsfordeling referer til fordelingen av et statistisk måleparameter (for eksempel gjennomsnitt) beregnet fra flere forskjellige utvalg hentet fra samme populasjon. Utvalgsfordelingen gir derfor informasjon om hvordan verdien av måleparameteren varierer når du trekker flere utvalg fra den samme populasjonen.

Hvis utvalgene er mange og store nok vil man oppnå en fordeling som likner en normalfordeling i henhold til sentralgrenseteoremet. Dette er uavhengig av hvordan frekvens distribusjonen til de ulike utvalgene fra så ut. Gjennomsnittet til utvalgsfordelingen vil sammenfalle med populasjonens parameter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er forskjellen på en frekvensfordeling og en utvalgsfordeling?

A

Forskjellen på en frekvensfordeling og en utvalgsfordeling, er at frekvensfordelingen viser hvordan verdier er fordelt i et datasett basert på ett utvalg/eksperiment, mens en utvalgsfordeling ikke baserer seg på data fra enkelttilfeller i et utvalg. Utvalgsfordelingen baserer seg på statistikk (f.eks. gjennomsnitt) fra mange utvalg fra samme populasjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva sier central limit theorem (CLT)? Hvorfor er dette viktig?

A

Teorien sier at dersom utvalgsstørrelsen er stor nok (tommelfingerregel: n = >30) vil distribusjonen av statistikken, f.eks fordeling av gjennomsnittet, nærme seg en normalfordelingskurve. CLT innebærer at enhver statistikk (f.eks. utvalgsgjennomsnitt, t-score, korrelasjonskoeffisient, etc.) beregnet fra et tilstrekkelig stort utvalg ikke vil avvike kraftig fra populasjonsparametren.

Dette gjør det mulig for oss å gjøre slutninger om en populasjon basert på utvalgsstatistikk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er standardfeil? Hvordan kan den beregnes?

A

Standardfeil (SE) representerer hvor mye variasjon du kan forvente å se i estimatene dine hvis du gjentar stikkprøveprosessen mange ganger. Med andre ord, standardfeilen sier noe om hvor nøyaktig vi kan estimere populasjonsparameteret fra teststatistikken vår.

Litt enkelt forklart kan man si at standardfeilen er standardavviket for utvalgsfordelingen (sampling distribution). Jo lavere denne verdien er, jo mer sannsynlig er det at teststatistikken vår er veldig nær den sanne populasjonsparameteren.

Vi kan bare bestemme verdien av SE nøyaktig hvis vi kjenner populasjonen SD (σ) og størrelsen (N). Man deler σ på kvadratroten av populasjonsstørrelsen.

Imidlertid vet vi vanligvis ikke populasjonens SD, så derfor estimerer vi SE, ved å ta utvalgets SD (s) og dele den på utvalgsstørrelsen (n) i stedet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvordan kan standardfeilen reduseres?

A

Formelen for standardfeil innebærer at ved økt utvalgsstørrelse, så vil standardfeil reduseres, og vårt estimat av populasjonsparameteret vil være mer presist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er forskjellen mellom standardfeil og standardavvik?

A

Standardavvik forteller oss om spredningen i vårt utvalg, mens standardfeil forteller oss hvor nøyaktig vi kan estimere populasjonens parameter basert på teststatistikken vår.

Litt enkelt forklart kan man si at standardfeilen er standardavviket for utvalgsfordelingen (sampling distribution). Fordi gjennomsnittet til utvalgsfordelingen ikke vil ligge langt unna populasjonens parameter (i følge sentralgrenseteoremet vil de jo sammenfalle) , sier den noe om hvor presist vi kan estimere populasjonens parameter basert på utvalgets statistikk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er 95% konfidensintervall?

A

95% konfidensintervall er intervallet som vil inneholde populasjonens sanne parameter 95% av tiden. Det vil da i lengden være 5% sannsynlighet for at et gitt utvalgs statistikk ikke inneholder populasjonens sanne parameter.

Det er ikke det samme som om at si at det 95% sjanse for at dette eksperimentet vil inneholde populasjonens parameter, men at dersom vi gjennomførte det samme eksperimentet et uendelig antall ganger ville 95% av alle disse konfidensintervallene favne om populasjonens parameter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan kan vi regne ut konfidensintervallet?

A

CI = PE (CV * SE)
For en standardisert normalfordeling:
CI = PE(+-) 1.96

  • CI = konfidensintervall
  • PE = «point estimate» = punktestimat: vår teststatistikk, for eksempel gjennomsnitt, t-verdi eller korrelasjonskoeffisient
  • CV = «critical value» = kritisk verdi in utvalgsfordelingen for det valgte konfidensnivået (95% i dette tilfellet, der den kritiske verdien er 1.96)
  • SE = «standard error» = standardfeil i utvalgsfordelingen (i dette eksemplet med en standardisert normalfordeling, er SE 1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er bredden på konfidensintervallet avhengig av?

A

Bredden på konfidensintervallet er avhengig av karakteristikkene til utvalgsfordelingen og konfidensnivået (vanligvis satt til 95%). Forholdet mellom bredden på et konfidensintervall og utvalgsstørrelsen er omvendt proporsjonalt, det vil si at når utvalgsstørrelsen øker, vil bredden på konfidensintervallet vanligvis bli mindre, og når utvalgsstørrelsen reduseres, vil bredden på konfidensintervallet vanligvis øke. Det er fordi standardfeilen (SE) reduseres når utvalgsstørrelsen øker, og standardfeil er en del av formelen vi bruker for å regne ut konfidensintervallet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er forskjellen mellom standardfeil og det 95% konfidensintervallet?

A

Standardfeil og 95% konfidensintervall representerer konseptuelt sett det samme, nemlig hvor nøyaktig vi kan estimere populasjonens parameter (for eksempel gjennomsnitt) ved å beregne teststatistikken.

Dette er fordi SE og 95 % konfidensintervall begge bestemmes av bredden på utvalgsfordelingen, og jo bredere utvalgsfordelingen (sampling distribution) er, jo større sjanse har vi for at statistikken vår faller langt fra det sanne populasjonsparameteret (som er dårlig for oss).

Hovedforskjellen er at ved å plotte standardfeil estimerer du den sanne populasjonsparameteren med mindre sikkerhet, mens du med 95 % konfidensintervall estimerer den sanne populasjonsparameteren med mer sikkerhet.

MEN: mer tillit til å fange populasjonsparameteret kommer til prisen av mer usikkerhet om parameterens verdi (95 % CI er bredere enn 2 x SE).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly