2 - Beskrivende statistikk Flashcards
Hva er en frekvensfordeling?
En frekvensfordeling viser hvordan data er fordelt mellom ulike verdier. Frekvensfordeling viser hvor hyppig hver av verdiene våre er i vårt datasett. Det er vanlig å fremstille distribusjon i et histogram.
HVa er sentraltendens? Hva er hovedmålene på sentraltendensen? Hva er forskjellen mellom dem?
Sentraltendens sier noe om hvilken verdi som er typisk for en variabel.
Vi har tre mål for sentraltendens: modus, median og gjennomsnitt.
- Gjennomsnittet svarer på hva den “gjennomsnittlige” verdien i datasettet ville vært.
- Medianen svarer på hvilken verdi som har like mange verdier under og over seg.
- Modus svarer på hvilken verdi som ble observert oftest.
Hva er kvartiler og kvantiler? Hvorfor er de viktige?
Kvartiler og kvantiler er spredningsmål, og er viktige fordi det sier noe om variasjonen i et datasett.
Kvartiler er verdier vi oppnår ved å dele fordelingen i fire deler som inneholder like mange tilfeller. Fordi vi deler datasettet i 4 deler, vil vi få 3 kvartilverdier (1., 2. og 3. kvartil) som definerer grensene mellom disse delene.
Den første kvatilen representerer skillet mellom de første 25% og de resterende 75%. Andre kvartil tilsvarer medianen og deler datasettet i to med 50% av datasettet på hver side av medianen. Den tredje kvartilen skiller de første 75% av dataene og de siste 25% av datene
Kvantiler tilsvarer kvartiler bare at her velger man et vilkårlig antall kvantiler som deler distribusjonen inn i like store deler. Der hver del inneholder like mange tilfeller. Dette velges ut ifra hva som er hensiktsmessig.
Hva er varians og standardavvik? Hva representerer de?
Variansen og standardavvik sier noe om gjennomsnittlig avvik fra gjennomsnittet, men de gjør dette i ulike enheter.
Variansen er gjennomsnittlig avvik fra gjennomsnittet, men svaret er kvadrert. Problemet med varians er at det representerer kvadratiske enheter (eksempel: kopp * kopp), og derfor er det nyttig å konvertere det til enheten for det opprinnelige målet, som vi gjør ved å regne ut standardavviket.
Hva er standardavvik? Hvordan kommer man fram til standardavviket? Og hvorfor gjør vi det slik?
Standardavvik er gjennomsnittlig avstand fra gjennomsnittet. Man kommer fram til standardavviket ved å ta kvadratroten av variansen. Dette gjør vi for å få gjennomsnittlig avvik fra gjennomsnittet i samme enhet som variablene opprinnelige var målt i.
Hvordan finner man variansen?
Variansen for en populasjon er summen av kvadrerte avvik delt på antall observasjoner - 1 (frihetsgrader).
For å finne variansen så tar man først og trekker fra gjennomsnittet på hver enkelte skår. Så kvadrerer man hver avvikskår. Deretter summerer man disse og man får en kvadratsum. Deretter deler man kvadratsummen på antall observasjoner minus 1(frihetsgrader). Slik finner man variansen (s^2).
Hva er Z-transformasjon? Hva kan det bli brukt til?
Z-transformasjon gir standardiserte variabler (z-skår) som reflekterer hvor langt hver verdi i utvalget er fra utvalgets gjennomsnitt, i enheter for standardavvik. Z-transformasjon gir z-skårer.
(“Med hvor mange standardavvik er en poengsum under eller over gjennomsnittet?”)
Z-transformasjon gjør det mulig å sammenligne to eller flere skårer målt i ulike måleskalaer. For eksempel så kan du sammenligne en skår på humør fra 0-20, og en skår på søvn fra 0-50, for å si hvem av de som er mest avvikende fra andre pasienter med depresjon.
Hvorfor er det vikitg å oppgi standardavvik i tillegg til gjennomsnitt?
Det er viktig å oppgi standardavviket når man oppgir gjennomsnitt. Dette fordi to grupper kan ha likt gjennomsnitt, men ulik spredning. Når man oppgir standardavviket får man også et mål på spredning og kan se at gruppene er forskjellige selv om de har samme gjennomsnitt.
Hvilken formel er dette?
Z-transformasjon
Man tar enkeltskår minus gjennomsnittet, og deler dette på standardavviket.
Hva er box plots? Hvorfor er det en god måte å plotte dataene dine på?
En boxplot gir både mye og oversiktlig informasjon om data i sin fremstilling.
Den gir både informasjon om sentraltendens og spredning.
En box plot viser medianen ved streken i boksen.
I tillegg viser den spredningen som bredden på boksen, som er basert på et mål som kalles interkvartilområdet.
En smal boks betyr at det ikke er særlig stor spredning mellom 1. og 3. kvartil (interquartile range), og en bred boks viser at det er større variasjon mellom 1. og 3. kvartil. En boxplot viser også hva som er 1. og 3.kvartilverdi.
Bjelkene viser hva som er minimum- og maksimumsverdi, når disse er innenfor 1,5 IQR under Q1 og 1,5 IQR over Q3. Hvis dette ikke er tilfelle så settes streken ved 1,5 IQR under Q1 og 1,5 IQR over Q3, og verdiene utenfor dette blir da outliers markert med punkter.