3 - Sannsynlighetsfordeling Flashcards

1
Q

Hva er sannsynlighet? Hva er viktige egenskaper?

A

Sannsynlighet er en del av matematikken som omhandler hendelser eller utfall som involverer et element av usikkerhet.
Sannsynlighet kan uttrykkes som et tall som beskriver sjansen for forekomsten av en bestemt hendelse ut av alle hendelser i utfallsrommet (“sample space”). Utfallsrommet er en samling av alle mulige utfall.

Sannsynlighet uttrykkes i et tall fra og med 0 til og med 1, og dette tallet representerer sjansen for et bestemt utfall i forhold til sjansen for alle mulige utfall.

Viktige karakteristikker er:
*Sannsynligheten for et utfall skal alltid være mellom (og inkludert) 0 og 1.

  • Sannsynligheten for alle utfall innenfor utfallsrommet skal totalt bli 1.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

Hva er forskjellen mellom en frekvensfordeling og sannsynlighetsfordeling?

A

En frekvensfordeling viser hvor hyppig hver av verdiene våre er i vårt utvalg/datasett.

Mens en sannsynlighetsfordeling viser sannsynligheten for at hvert utfall vil inntreffe.

Men en frekvensfordeling og en sannsynlighetsfordeling fra samme datasett vil være proporsjonal og se lik ut , men verdiene på y-aksen endres fra frekvens til sannsynlighet , mens x-aksen forblir lik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er en gausskurve/normalfordeling?Hvilke parametere er den definert av? Spesiell regel?

A

Hos mennesker vil man ofte få en normalfordeling av data når man har et stort nok utvalg.

En normalfordelingskurve kjennetegnes ved at den er unimodal (en topp), symmetrisk, asymptotisk (det vil si at halene på normalfordelingskurven aldri kommer helt ned 0 på y-aksen, halene vil i fortsette å nærme seg 0 i det uendelige, men aldri nå det) og fordelingen er klokkeformet (“bell curve”).

Normalfordelingskurven er definert av to parametere: gjennomsnitt (μ) og standardavvik (σ). Gjennomsnittet vil være verdien som tilsvarer toppen av kurven, og standardavviket påvirker bredden på kurven.
I en normalfordeling vil verdiene fordele seg slik: (68-95-99.7-regelen)
* 68,3 % av verdiene vil være innenfor +/- 1 standardavvik fra gjennomsnittet
* 95,4 % av verdiene vil være innenfor +/- 2 standardavvik fra gjennomsnittet
* 99,7 % av verdiene vil være innenfor +/- 3 standardavvik fra gjennomsnittet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvorfor er normalfordeling viktig?

A

Fordi dersom utvalget er normalfordelt er det mer sannsynlig at det kommer fra en normalfordelt populasjon.
Det betyr at våre statistiske estimater og konklusjoner trolig er mer presise, som vil si at man kan trekke en konklusjon om populasjonen basert på utvalget.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva kan man bruke en standardisert normalfordeling til?

A

Siden vi ofte jobber med et signifikansnivå på 5 % og et utvalg som er normalfordelt , er det nyttig å kjenne Z-skårene som tilsvarer 5 % av “ekstremdata” (data veldig langt fra gjennomsnittet av 0).

Når vi har tatt en z-transformasjon vil gjennomsnittet være på 0 og standardavviket er på 1.
I en standardisert normalfordeling faller 95 % av dataene mellom -1,96 og 1,96.
Dermed er det 5 % sannsynlighet for at en verdi enten er over 1,96 eller under -1,96 (2,5 % sannsynlighet at enhver tilfeldig valgt verdi er under -1,96, og 2,5 % sannsynlighet for over 1,96)

Med andre ord: for standard normalfordeling er -1,96 og 1,96 de kritiske verdiene for 5 % av “ekstrem” data.
Dette er viktig for signifikanstesting på 5 % signifikansnivå, hvis vi har å gjøre med en standardisert normalfordeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvordan kan vi teste om vår data er normalfordelt? (nevne de ulike)

A

Det er flere måter vi kan teste om våre data er normalfordelt. Vi kan teste om vår data er normalfordelt blant annet ved å se på skjevhet, kurtose, bruke en Shapiro-Wilks test, plotte inn data i et histogram og se på det visuelt eller evaluere q-q-plots.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvordan kan bruke skjevhet for å teste om vår data er normalfordelt?

A

En perfekt normalfordelingskurve vil ha ingen skjevhet, men en tommelfingerregel er at skjevhet mellom -2 og 2 er innafor. Vi har både positiv og negativ skjevhet. Negativ skjevhet refererer til at det er mer data i lavere verdier, slik at man får en lengre hale mot venstre. Og positiv skjevhet referer til mer data ved høyere verdier, dermed får vi en lenger hale mot høyre.

For å få en mer nøyaktig vurdering av skjevhet kan man gjennomføre en utregning slik at man får en z-skår for skjevhet. Det gjør man ved å dele skjevhet på standardfeil for skjevhet. Denne skåren skal være innenfor -1.96 og 1.96 standardavvik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva forteller kurtose? Hvordan kan man bruke kurtose for å teste om vår data er normalfordelt?

A

Kurtose er en måling som forteller oss noe om hvordan verdiene er fordelt i forhold til gjennomsnittet. Tommelfingerreglene for hva som er “akseptabelt” varierer.
Tommelfingerregel (fra Gabors pp) sier at kurtose over 2 eller under -2 indikerer et problem.
En mer presis estimering: del kurtoseskåren med dens standardfeil (SE), det gir oss en z-skår. I dette tilfellet er kurtose problematisk hvis z-skåren er enten over 1.96 eller under -1.96.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvilke kategorier kan kurtose deles inn i?

A

Kurtose kan generelt deles inn i fire hovedkategorier: leptokurtisk, mesokurtisk, platykurtisk og ekstremt platykurtisk.

Leptokurtisk: + kurtose (positiv)
Mesokurtisk: 0 kurtose (ingen)
Platykurtisk - kurtose (negativ)
Extremt platykurtisk: - kurtose (ekstrem negativ)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan kan man bruke en Shapiro Wilks test for å teste om vår data er normalfordelt?

A

Shapiro-Wilk-testen er en statistisk test som brukes til å vurdere om en gitt datasett følger en normalfordeling. Den testen tar nullhypotesen om at dataene er normalfordelt, og alternativhypotesen om at dataene ikke er normalfordelt. Dersom testen ikke er signifikant «P = >.05», beholdes nullhypotesen og en kan gå ut ifra at dataene normalfordelt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan kan man bruke et histogram for å teste om vår data er normalfordelt?

A

Ved å plotte inn data i et histogram kan vi gjøre en visuell undersøkelse av hvor mange topper fordelingen har, se på om den er symmetrisk, og se på hvordan dataene er fordelt i halene. Dette gir oss en hvis indikasjon, men vi kan ikke være helt sikre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly