Statistikk 1 Flashcards
Hva er hovedmålene til statistikk generelt, og hva er dens hovedelementer?
Hovedmålet til statistikk er å forstå den komplekse virkeligheten gjennom enkle begreper som fanger de essensielle aspektene.
Hovedelementene i statistikk er å beskrive, ta avgjørelser og rapportere:
- Beskrive verden på en forenklet måte, uten å miste relevant informasjon
- Vi må ofte ta beslutninger basert på data, vanligvis i møte med usikkerhet.
- Vi rapporterer resultatene.
Hva er forskjellen mellom deskriptiv og inferensiell statistikk/slutningsstatistikk?
Deskriptiv statistikk har som mål å beskrive mønster i data
- Bruker variabler.
- Oppsummerer data med spesielle mål, for eksempel gjennomsnitt.
- Lager grafer for å visualisere data.
Inferensiell statistikk/slutingsstatistikk har som mål å forklare/predikere fenomener
- Tester hypoteser med statistiske modeller.
- Trekker konklusjoner om “generelle prinsipper” i populasjonen, basert på utvalg.
- Lager prediksjoner for fremtidige hendelser.
Hva er numeriske variabler
Numerisk er kvantitative variabler, altså tall, mens kategorisk er kvalitative variabler. Numeriske variabler er verdier som representerer forskjellige størrelser med like intervaller mellom. Vi deler numeriske variabler inn i to typer:
- Kontinuerlige variabler er variabler som kan ha hvilken som helst verdi innenfor et område. De kan ha uendelig med desimaltall. Eksempel er høyde i cm.
- Diskrete variabler er hele verdier, altså de kan ikke ha desimaltall. Eksempel kan være antall søsken i en familie.
Hva er kategoriske variabler
Kategoriske variabler representerer ulike kategorier. Kategoriske variabler kan deles inn:
- Binære eller dikotome variabler har kun gjensidig ekskluderende kategorier. Et eksempel på dette kan være “JA og NEI” eller “sant og usant”.
- Nominale variabler er variabler som har to eller flere kategorier som ikke er rangert. Eksempler er “norsk, spansk og engelsk”.
- Ordinale variabler er verdier som kan rangeres basert på styrke. Eksempel på dette kan være “ingen - lite - medium - mye” eller antall stjerner til en film. Det er en rangering, men det er ikke like intervaller mellom verdiene.
Hvordan kan variabler bli klassifisert basert på deres målenivå (nivå av informasjon)?
Vi har fire ulike målenivåer
- Nominal-skala er det mest grunnleggende målenivået. Enheter i variabelen er klassifisert i gjensidige utelukkende kategorier. Her differensierer vi. Eksempel kan være bosted.
- Ordinal-skala har egenskapen med at kategoriene kan rangeres. Eksempel kan være likert-skala, “uenig- litt uenig-nøytral- litt enig-enig”
- Intervall-skala har egenskapen ved at det er like intervaller mellom verdiene.
- Ratio-skala er det samme som intervall-skala, men de har også et absolutt nullpunkt. Eksempel kan være høydemål.
Hvordan kan variabler bli klassifisert basert på deres rolle i statistisk analyse? Gi et eksempel.
Avhengig variabel
- Vi endrer den aldri, men vi måler den. Den er avhengig av en annen variabel. Endring i den avhengige variabelen er avhengig av endring i den uavhengige variabelen
Uavhengig variabel
- Den variabelen vi manipulerer. Et eksempel på disse er i studier av om en ny pille forårsaker søvnighet. Søvnighet er den avhengige variabelen, mens hvorvidt man får pillen eller ikke er den uavhengige variabelen.
Hva er hovedmålene på sentraltendensen? Hva er forskjellen mellom dem?
Vi har tre mål for sentraltendens:
- Gjennomsnittet svarer på hva den “gjennomsnittlige” verdien i datasettet ville vært.
- Medianen svarer på hvilken verdi som har like mange verdier under og over seg.
- Modus svarer på hvilken verdi som ble observert oftest.
Hva er kvartiler og kvantiler? Hvorfor er de viktige?
Kvartiler og kvantiler er spredningsmål, og er viktige fordi det sier noe om variasjonen i et tallmateriale.
Kvartiler er verdier oppnådd ved å dele fordelingen i fire deler som inneholder like mange tilfeller. Fordi vi deler datasettet i 4 deler, vil vi få 3 kvartilverdier (1., 2. og 3. kvartil) som definerer grensene mellom disse delene. Den 2. kvartilen er den samme som medianen.
Kvantiler er verdier oppnådd ved å dele fordelingen i vilkårlig antall deler som inneholder like mange tilfeller
Hva er varians
Variansen er gjennomsnittlig avvik rundt gjennomsnittet, men svaret er kvadrert.
Variansen for en populasjon er summen av kvadrerte avvik delt på antall observasjoner - 1.
For å finne variasjonen så tar man først og trekker fra gjennomsnittet på hver enkelte skår. Så kvadrerer man hver avvikskår. Deretter summerer man disse og man får en kvadratsum. Deretter deler man kvadratsummen på antall observasjoner minus 1. Slik finner man variansen (s^2).
Hva er standardavvik?
Standardavvik er gjennomsnittlig avstand fra gjennomsnittet. Man kommer fram til standardavviket ved å ta kvadratroten av variansen.
Hva er varians og standardavvik? Hva representerer de og hvordan kan de informere forskere om deres data?
Variansen og standardavvik representerer gjennomsnittlig avvik fra gjennomsnittet.
Variansen er gjennomsnittlig avvik rundt gjennomsnittet, men svaret er kvadrert.
Standardavvik er gjennomsnittlig avstand fra gjennomsnittet. Man kommer fram til standardavviket ved å ta kvadratroten av variansen.
Hva er Z-transformasjon? Hva kan det bli brukt til?
Z-transformasjon gir standardiserte variabler (z-skår) som reflekterer hvor langt hver verdi i utvalget er fra utvalgets gjennomsnitt, i enheter for standardavvik.
Z-transformasjon gir z-skårer.
(“Med hvor mange standardavvik er en poengsum under eller over gjennomsnittet?”)
Z-transformasjon gjør det mulig å sammenligne to eller flere skårer målt i ulike måleskalaer. For eksempel så kan du sammenligne en skår på humør fra 0-20, og en skår på søvn fra 0-50, for å si hvem av de som er mest avvikende fra andre pasienter med depresjon.
Hva er box plots? Hvorfor er det en god måte å plotte dataene dine på?
En boxplot gir både mye og oversiktlig informasjon om data i sin fremstilling.
- Den gir både informasjon om sentraltendens og spredning.
- En box plot viser medianen ved streken i boksen.
- I tillegg viser den spredningen som bredden på boksen, som er basert på et mål som kalles interkvartilområdet. En smal boks betyr at det ikke er særlig stor spredning mellom 1. og 3. kvartil (interquartile range), og en bred boks viser at det er større variasjon mellom 1. og 3. kvartil. En boxplot viser også hva som er 1. og 3.kvartilverdi.
- Bjelkene viser hva som er minimum- og maksimumsverdi, når disse er innenfor 1,5 IQR under Q1 og 1,5 IQR over Q3. Hvis dette ikke er tilfelle så settes streken ved 1,5 IQR under Q1 og 1,5 IQR over Q3, og verdiene utenfor dette blir da outliers markert med punkter.
Hva er sannsynlighet? Hva er viktige egenskaper?
Sannsynlighet er en del av matematikken som omhandler hendelser eller utfall som involverer et element av usikkerhet.
Sannsynlighet kan uttrykkes som et tall som beskriver sjansen for forekomsten av en bestemt hendelse ut av alle hendelser i utfallsrom (“sample space”). Utfallsrommet er en samling av alle mulige utfall.
Sannsynligheten for et utfall skal alltid være mellom (og inkludert) 0 og 1.
Sannsynligheten for alle utfall innenfor utfallsrommet skal totalt bli 1.
Hva kjennetegner en gausskurve/normalfordeling?
Hos mennesker vil man ofte få en normalfordeling av data når man har et stort nok utvalg.
En normalfordelingskurve kjennetegnes ved at den er:
unimodal (en topp)
symmetrisk
asymptotisk (det vil si at halene på normalfordelingskurven aldri kommer helt ned til x-aksen, den nærmer seg bare asymptotisk)
fordelingen er klokkeformet (“bell curve”).
Når vi har tatt en z-transformasjon vil gjennomsnittet være på 0 og standardavviket er på 1.
Hvilke to parametere er en normalfordeling definert av?
Normalfordelingskurven er definert av to parametere: gjennomsnitt (μ) og standardavvik (σ).
Hvordan vil verdiene i en normalfordeling fordele seg (REGEL) og hvordan kan dette knyttes til signifikans nivå?
I en normalfordeling vil verdiene fordele seg slik: (68-95-99.7-regelen)
* 68,3 % av verdiene vil være innenfor +/- 1 standardavvik fra gjennomsnittet
* 95,4 % av verdiene vil være innenfor +/- 2 standardavvik fra gjennomsnittet
* 99,7 % av verdiene vil være innenfor +/- 3 standardavvik fra gjennomsnittet
I en standardisert normalfordeling (z-transformasjon) faller 95 % av dataene mellom -1,96 og 1,96. Dermed er det 5 % sannsynlighet for at en verdi enten er over 1,96 eller under -1,96 Med andre ord: for standard normalfordeling er -1,96 og 1,96 de kritiske verdiene for 5 % av “ekstrem” data.
Siden vi ofte jobber med et signifikansnivå på 5 % og et utvalg som er normalfordelt , er det nyttig å kjenne Z-skårene som tilsvarer 5 % av “ekstremdata” (data veldig langt fra gjennomsnittet av 0).
Hvordan kan vi teste om vår data er normalfordelt?
Vi kan teste om vår data er normalfordelt blant annet ved å se på skjevhet og kurtose (mellom 2 og -2)
Man kan også bruke Shapiro Wilk´s test og man kan plotte dataene inn i et histogram for å vurdere kurven visuelt eller evaluere q-q-plots.
Hva er skjevhet med tanke på normalfordelingen?
En perfekt normalfordelingskurve vil ha ingen skjevhet, men en tommelfingerregel er at skjevhet mellom -2 og 2 er innafor.
Vi har både positiv og negativ skjevhet. Negativ skjevhet refererer til at det er mer data i lavere verdier, slik at man får en lengre hale mot venstre. Og positiv skjevhet referer til mer data ved høyere verdier, dermed får vi en lenger hale mot høyre.
For å få en mer nøyaktig vurdering av skjevhet kan man gjennomføre en utregning slik at man får en z-skår for skjevhet. Det gjør man ved å dele skjevhet på standardfeil for skjevhet. Denne skåren skal være innenfor -1.96 og 1.96 standardavvik.
Hva er kurtose med tanke på normalfordelingen?
Kurtose er en måling som forteller oss noe om hvordan verdiene er fordelt i forhold til gjennomsnittet.
Tommelfingerreglene for hva som er “akseptabelt” varierer. Tommelfingerregel (fra Gabors pp) sier at kurtose over 2 eller under -2 indikerer et problem.
En mer presis estimering: del kurtoseskåren med dens standardfeil (SE), det gir oss en z-skår. I dette tilfellet er kurtose problematisk hvis z-skåren er enten over 1.96 eller under -1.96.
Leptokurtic: + kurtose (positiv)
Mesokurtic: 0 kurtose (ingen)
Platykurtic: - kurtose (negativ)
Extremely platykurtic: ekstrem - kurtose (ekstrem negativ)
Hva er kriteriene for å få et representativt utvalg (sampling)? Hvorfor er det viktig?
Kriteriene for å få et representativt utvalg er:
Randomisering: det betyr at alle må ha lik sannsynlighet for å bli valgt ut.
Uavhengig: de som blir valgt er uavhengig av hverandre, det betyr at det ikke er relasjoner mellom deltakerne.
Identisk fordelt: Når vi skal velge deltakere til utvalg fra en populasjon så bør vi helst etter hver utvelgelse “legge deltakeren tilbake” før vi velger en annen. Dette er for at sannsynligheten for å bli med i utvalget forblir konstant. Dette skjer imidlertid nesten aldri, fordi man ofte vil unngå at en deltaker blir testet eller målt flere ganger.
Dette er viktig for at statistikkene vi måler i utvalget er mest mulig likt parameterne i populasjonen. Dette er det større sannsynlighet for når utvalget er representativt.
Hva er de tre hovedelementene i inferensiell statistikk?
De tre hovedelementene i inferensiell statistikk innenfor nullhypotese-rammeverket er:
At vi skal gjøre om en kvantitativ observasjon til en teststatistikk
At vi skal beregne sannsynligheten for denne observasjonen, gitt at det ikke er noen effekt (forutsier at nullhypotesen er sann)
Konkluder om observasjonen støtter en effekt eller ikke, og behold eller forkast nullhypotesen (se p-verdi)
Hva er en utvalgsfordeling (sampling distribution)?
En utvalgsfordeling henter statistikk (f.eks gjennomsnitt) fra et uendelig antall utvalg fra samme populasjon og analyserer disse på samme måte.
Hva sier central limit theorem (CLT)? Hvorfor er dette viktig?
Teorien sier at dersom utvalgsstørrelsen er stor nok (tommelfingerregel: n = >30) vil distribusjonen av statistikken, f.eks fordeling av gjennomsnittet, nærme seg en normalfordelingskurve.
CLT innebærer at enhver statistikk (f.eks. utvalgsgjennomsnitt, t-score, korrelasjonskoeffisient, etc.) beregnet fra et tilstrekkelig stort utvalg ikke vil avvike kraftig fra populasjonsparametren.
Dette gjør det mulig for oss å gjøre slutninger om en populasjon basert på utvalgsstatistikk.
Hva er standardfeil?
Standardfeil (SE) sier noe om hvor nøyaktig vi kan estimere populasjonsparameteren fra teststatistikken vår.
Jo lavere denne verdien er, jo mer sannsynlig er det at teststatistikken vår er veldig nær den sanne populasjonsparameteren.
Hva er forskjellen mellom standardfeil og standardavvik?
Standardavvik forteller oss om vårt utvalg, mens standardfeil forteller oss hvor pålitelig vår statistikk er.
Visuelt vil standardfeil vise kortere streker enn standardavvik.
Hvordan kan vi beregne standardfeil?
Vi kan bare bestemme verdien av SE nøyaktig hvis vi kjenner populasjonen SD (σ) og størrelsen (N)
Imidlertid vet vi vanligvis ikke populasjonens SD, så derfor estimerer vi bare SE, ved å ta utvalgets SD(s) og utvalgsstørrelsen (n) i stedet
Formelen for standardfeil viser at ved økt utvalgsstørrelse, så vil standardfeil reduseres, og vårt estimat av populasjonsparameteret vill være mer presist
Hva er 95% konfidensintervall?
95% konfidensintervall er intervallet som fanger det sanne populasjonsparametret 95% av gangene (de svarte strekene), mens 5% (røde strekene) vil ikke “treffe”.
Det representerer et intervallestimat som er rundt den sanne populasjonsparametret på 95% av alle hypotetiske eksperimenter.
Ved 95% konfidensintervall fanges det sanne populasjonsparametret i 95% av utvalgene/av gangene (“in the long run”). Det vil da i lengden være 5% sannsynlighet for at et gitt utvalgs statistikk ikke inneholder populasjonens sanne parameter.
Hvordan kan vi regne ut et 95% konfidensintervall?
Vi regner ut et konfidensintervall slik:
CI = PE +- feilmargin
- PE = punktestimat, altså vår test statistikk (eks; gjennomsnitt, t-verdi, korrelasjons koeffisenten)
- Feilmargin = bredden på CI, denne avhenger av karakteristikken av utvalgs fordelingen og av konfidens nivået som normalt er satt til 95%
For en standard normalfordeling vil det se slik ut:
- 95% CI = PE +- 1.96
Mer generelt:
CI = PE +- (Critical Value * Standardfeil)
CI = PE +- (eks; 1.96 * 1)