Statistikk Flashcards
Mean
Gjennomsnittet, brukes ved normalfordeling av data.
Median
Medianen, brukes ved skjevhet i fordelingen av data
Mode
Verdien som gjentas oftest
Range
Forskjellen mellom den største og minste verdien
Interquartile range
Fordeler i 4 like deler (Q1-4). Avstanden mellom Q1-3 er interquartile range, 50% som er i midten av datasettet.
Box plot
graf som visualiserer spredningen av data med range, median og interquartile range.
Central tendency
Sentraltendens
Der hvor hoveddelen av dataene befinner seg.
Normalfordeling: mean, median og mode lik.
Skjevhet: bruk median.
Variance s²
Varians
Hvor mye dataene varierer fra gjennomsnittet.
V=⨊(x-ẍ)²/n-1
Standardavvik (deviation) sd
Variasjonen i datasettet, basert på mean.
Blir beskrevet som ẍ ± sd
Kvadratrota av variansen
√s² = √ (⨊(x-ẍ)²/n-1)
Mean absolute deviation (MAD)
absolutt avvik
Gjennomsnittlig forskjell mellom hvert datapunkt og gjennomsnittet.
(x1-mean)+(x2-mean)…/N
tilfeldig vs systematisk skjevhet
Tilfeldig: Uforutsigbar, går i alle retninger. gjenspeiles i beregnet usikkerhet (CI) og størrelsen på studien
Systematisk: Forutsigbare feilmålinger. Alle målingene har samme feilmargin. metodiske svakheter og bias.
Signifikans
sannsynligheten for at den observerte forskjellen skyldes tilfeldigheter.
Vurderes ut i fra nullhypotesen og signifikansnivå (p-verdien)
𝒶 = maximal akseptert risiko for å gjøre type 1 feil.
Type 1 feil
Man forkaster nullhypotesen selv om den er sann
Type 2 feil
Beholder nullhypotesen selv om den er usann
P verdi
Sannsynligheten for å oppnå akkurat det resultatet hvis H0 er sann.
P < 𝑎 –> forkast H0
Sannsynligheten for at resultatet er lik/mer ekstremt dersom nullhypotesen stemmer
t-test
tester om det er signifikant forskjell fra nullhypotesen, mellom gjennomsnittet av to normalfordelte datasett.
Enten paret (samme utvalg) eller uavhengig
Gir en p-verdi.
Populasjon varians
Sample varians
𝜎²=⨊(X-𝜇)²/N
s²=⨊(x-ẍ)/n-1 –> Unbiased estimat av 𝜎²
𝜇= mean of population
N= deltakere i utvalget
n= deltakere i en gruppe
Varianskoeffisiens
Coeffisient of variation
Ratioen på variasjonen, oppgis i %
Nyttig når to fordelinger (med ulik benevning) skal sammenlignes
cv= (sd/ẍ)*100
Normal distribusjon
Normal fordeling der mean, median og mode er lik.
ẍ±1sd = 68,26% av dataene
ẍ±2sd = 95,45% av dataene
ẍ±3sd =99,73% av dataene
z-scores
standardized scores.
Tall på hvor mange sd fra gjennomsnittet en observasjon ligger.
Gjennomsnittet er 0z
z= (x-ẍ)/sd
(observert verdi - gjennomsnitt, delt på sd)
Sannsynlighet/probablity
Hvor sannsynlig det er at noe skjer.
Tall på hvor godt datasettet estimerer kjennetegn i en populasjon og faren for at en observert effekt har oppstått tilfeldig
Standard feil
Standard error of the mean
Et tall på hvor forskjellig populasjonens mean er fra utvalgs mean. Sier noe om hvor mye utvalgs mean vil variere ved gjentatte studier i samme populasjon.
sẍ= s/√n
Konfidens intervall
Et intervall som vi med høy sikkerhet kan si at inneholder den sanne verdien til en populasjon.
Oppgitt som 95 eller 99%. 99% er mer sensitiv.
basert på sample mean (ẍ) og standardfeil (sẍ)
CI = ẍ± (z)sẍ
Null/statistisk hypotese
H0: 𝜇ª=𝜇ᴮ
Gjennomsnittet er ikke forskjellig
Alternativ hypotese
H1: 𝜇ª≠𝜇ᴮ
Forskjell i mean, større enn ved risiko for tilfeldighet.
Intervensjonen er effektiv.
Statisical power
Evnen til å finne signifikant effekt når den finnes. Sannsynligheten for at en test fører til forkastning av H0.
Basert på PANE: Power (1-ℬ), signifikansnivå (𝒶), utvalgsstørrelse (n) og effekt størrelse.
P= 1-ℬ
ℬ= type 2 feil
Effekt størrelse
Hvor uttalt forskjellen er.
lav= 20% av 1sd
medium= 50% av 1sd
høy= 80% av 1sd
Two tailed test
non-directional, gir en critical region på begge sidene
One tailed test
Directional, ønske om å forkaste H0
Critical region er på en side.
ROC curve
Receiver operating characteristic
viser forholdet mellom å få sanne og falske resultat. Sensitivitet vs spesifisitet, viser styrken på diagnostisk nøyaktighet.
Brukes til å vurdere cut-off verdi.
Cut-off
Påvirker sensitivitet og spesifisitet
Hva er effekten av falske positive eller negative tester.
Reliabilitet
Relative og absolutt
Relative: Hvor stor del av dataen er sann (0,00-1,00), beskrives som intraclass correlation coeffisiens
Absolutt: hvor mye av den målte verdien er pga feil. Standard measurement og error gir ± tall. Målt verdi ± MES inneholder den sanne verdien.
Minimal detectable change
MDC lavere ved høy reliabilitet.
Forskjellen fra pre til post test må være større enn en viss verdi for å være gyldig.
Sampling error
Forskjellen mellom utvalgets og populasjonens verdier. Ofte en tilfeldig variasjon.