Statistikk Flashcards
Mean
Gjennomsnittet, brukes ved normalfordeling av data.
Median
Medianen, brukes ved skjevhet i fordelingen av data
Mode
Verdien som gjentas oftest
Range
Forskjellen mellom den største og minste verdien
Interquartile range
Fordeler i 4 like deler (Q1-4). Avstanden mellom Q1-3 er interquartile range, 50% som er i midten av datasettet.
Box plot
graf som visualiserer spredningen av data med range, median og interquartile range.
Central tendency
Sentraltendens
Der hvor hoveddelen av dataene befinner seg.
Normalfordeling: mean, median og mode lik.
Skjevhet: bruk median.
Variance s²
Varians
Hvor mye dataene varierer fra gjennomsnittet.
V=⨊(x-ẍ)²/n-1
Standardavvik (deviation) sd
Variasjonen i datasettet, basert på mean.
Blir beskrevet som ẍ ± sd
Kvadratrota av variansen
√s² = √ (⨊(x-ẍ)²/n-1)
Mean absolute deviation (MAD)
absolutt avvik
Gjennomsnittlig forskjell mellom hvert datapunkt og gjennomsnittet.
(x1-mean)+(x2-mean)…/N
tilfeldig vs systematisk skjevhet
Tilfeldig: Uforutsigbar, går i alle retninger. gjenspeiles i beregnet usikkerhet (CI) og størrelsen på studien
Systematisk: Forutsigbare feilmålinger. Alle målingene har samme feilmargin. metodiske svakheter og bias.
Signifikans
sannsynligheten for at den observerte forskjellen skyldes tilfeldigheter.
Vurderes ut i fra nullhypotesen og signifikansnivå (p-verdien)
𝒶 = maximal akseptert risiko for å gjøre type 1 feil.
Type 1 feil
Man forkaster nullhypotesen selv om den er sann
Type 2 feil
Beholder nullhypotesen selv om den er usann
P verdi
Sannsynligheten for å oppnå akkurat det resultatet hvis H0 er sann.
P < 𝑎 –> forkast H0
Sannsynligheten for at resultatet er lik/mer ekstremt dersom nullhypotesen stemmer
t-test
tester om det er signifikant forskjell fra nullhypotesen, mellom gjennomsnittet av to normalfordelte datasett.
Enten paret (samme utvalg) eller uavhengig
Gir en p-verdi.
Populasjon varians
Sample varians
𝜎²=⨊(X-𝜇)²/N
s²=⨊(x-ẍ)/n-1 –> Unbiased estimat av 𝜎²
𝜇= mean of population
N= deltakere i utvalget
n= deltakere i en gruppe
Varianskoeffisiens
Coeffisient of variation
Ratioen på variasjonen, oppgis i %
Nyttig når to fordelinger (med ulik benevning) skal sammenlignes
cv= (sd/ẍ)*100
Normal distribusjon
Normal fordeling der mean, median og mode er lik.
ẍ±1sd = 68,26% av dataene
ẍ±2sd = 95,45% av dataene
ẍ±3sd =99,73% av dataene
z-scores
standardized scores.
Tall på hvor mange sd fra gjennomsnittet en observasjon ligger.
Gjennomsnittet er 0z
z= (x-ẍ)/sd
(observert verdi - gjennomsnitt, delt på sd)
Sannsynlighet/probablity
Hvor sannsynlig det er at noe skjer.
Tall på hvor godt datasettet estimerer kjennetegn i en populasjon og faren for at en observert effekt har oppstått tilfeldig
Standard feil
Standard error of the mean
Et tall på hvor forskjellig populasjonens mean er fra utvalgs mean. Sier noe om hvor mye utvalgs mean vil variere ved gjentatte studier i samme populasjon.
sẍ= s/√n
Konfidens intervall
Et intervall som vi med høy sikkerhet kan si at inneholder den sanne verdien til en populasjon.
Oppgitt som 95 eller 99%. 99% er mer sensitiv.
basert på sample mean (ẍ) og standardfeil (sẍ)
CI = ẍ± (z)sẍ
Null/statistisk hypotese
H0: 𝜇ª=𝜇ᴮ
Gjennomsnittet er ikke forskjellig