Learning statistics with jamovi: a tutorial for psychology students and other beginners (4 Beskrivende statistikk) Flashcards
Hva er beskrivende statistikk?
Hver gang du får et nytt datasett er en av de første oppgavene du må gjøre, er å finne måter å oppsummere dataene på en kompakt og lettfattelig måte. Dette er hva beskrivende statistikk innebærer
Hva betyr sentral tendens?
Det vil si at du vil vite noe om hvor “gjennomsnittet” eller “midten” av dataene dine ligger. De tre mest brukte målene er gjennomsnitt, median og modus.
Hva menes med gjennomsnitt og forklar hva N og X1, X2, X3… Xn står for?
Gjennomsnittet av et sett med observasjoner er bare et normalt, gammeldags gjennomsnitt. Legg sammen alle verdiene, og del deretter på det totale antallet verdier. De fem første AFL-vinnermarginene var 56, 31, 56, 8 og 32, så gjennomsnittet av disse observasjonene er bare: 183/5=36,6
Her vil N stå for antall observasjoner: 5
X1, X2, X2… Xn er symbolet til hver og en av observasjonene. Så observasjon 2 altså X2 vil være 31 poeng
Hva menes med medianen?
Det andre målet på sentral tendens som folk bruker mye er medianen , og det er enda lettere å beskrive enn gjennomsnittet. Medianen til et sett med observasjoner er bare den midterste verdien. Som før, la oss forestille oss at vi bare var interessert i de første 5 AFL-vinnermarginene: 56, 31, 56, 8 og 32. For å finne ut medianen sorterer vi disse tallene i stigende rekkefølge: 8, 31, 32 , 56, 56. Da er medianen 32!
Fra inspeksjon er det åpenbart at medianverdien av disse 5 observasjonene er 32 siden det er den midterste i den sorterte listen (jeg har skrevet den med fet skrift for å gjøre det enda tydeligere). Lette greier. Men hva skal vi gjøre hvis vi er interessert i de 6 første kampene i stedet for de 5 første? Siden den sjette kampen i sesongen hadde en vinnermargin på 14 poeng, er vår sorterte liste nå 8, 14, 31 , 32 , 56, 56.
Og det er to midterste tall, 31 og 32. Medianen er definert som gjennomsnittet av disse to tallene, som selvfølgelig er 31,5.
Når bør medianen og gjennomsnittet brukes?
Hvis dataene dine er på nominell skala, bør du sannsynligvis ikke bruke verken gjennomsnittet eller medianen. Både gjennomsnittet og medianen er avhengige av ideen om at tallene som er tildelt verdier er meningsfulle. Hvis nummereringsskjemaet er vilkårlig, er det sannsynligvis best å bruke modusen i stedet.
Hvis dataene dine er ordinalskala, er det mer sannsynlig at du vil bruke medianen enn gjennomsnittet. Medianen bruker kun ordreinformasjonen i dataene dine (dvs. hvilke tall som er større), men avhenger ikke av de nøyaktige tallene som er involvert. Det er akkurat den situasjonen som gjelder når dataene dine er i orden. Gjennomsnittet, på den annen side, bruker de nøyaktige numeriske verdiene som er tildelt observasjonene, så det er egentlig ikke passende for ordinære data.
For intervall- og forholdsskaladata er begge generelt akseptable. Hvilken du velger avhenger litt av hva du prøver å oppnå. Middelet har den fordelen at det bruker all informasjonen i dataene (noe som er nyttig når du ikke har mye data). Men det er veldig følsomt for ekstreme, ytre verdier.
EKS
For å gi et konkret eksempel, anta at Bob (inntekt $50 000), Kate (inntekt $60 000) og Jane (inntekt $65 000) sitter ved et bord. Gjennomsnittsinntekten ved bordet er $58.333 og medianinntekten er $60.000. Så setter Bill seg ned med dem (inntekt $100.000.000). Gjennomsnittsinntekten har nå hoppet til $25.043.750, men medianen stiger bare til $62.500. Hvis du er interessert i å se på den samlede inntekten ved tabellen, kan gjennomsnittet være det riktige svaret. Men hvis du er interessert i hva som teller som en typisk inntekt ved bordet, ville medianen være et bedre valg her.
Hva står modus for?
Modusen til en prøve er veldig enkel. Det er den verdien som forekommer oftest.
EKS:
tenk på dette scenariet: en venn av deg tilbyr et spill og de velger en fotballkamp tilfeldig. Uten å vite hvem som spiller må du gjette den nøyaktige gevinstmarginen. Hvis du gjetter riktig vinner du $50. Hvis du ikke gjør det, taper du $1. Det er ingen trøstepremier for “nesten” å få riktig svar. Du må gjette nøyaktig rett margin. For denne innsatsen er gjennomsnittet og medianen helt ubrukelig for deg. Det er modusen du bør satse på. For å beregne modusen for variabelen afl.margins i jamovi, gå tilbake til det datasettet og på ‘Exploration’ – ‘Descriptives’-skjermen vil du se at du kan utvide delen merket ‘Statistics’. Klikk på avmerkingsboksen merket ‘Modus’ og du vil se den modale verdien presentert i ‘Beskrivelsestabellen’, som i figur 4.7 . Så dataene fra 2010 antyder at du bør satse på en margin på 3 poeng.
Kan man fjerne tall fra en undersøkelse?
Ja
Her er det fokus på rekkevidden av utvalget
Utvalget av en variabel er veldig enkelt. Det er den største verdien minus den minste verdien. For AFLs vinnermargindata er maksimumsverdien 116 og minimumsverdien er 0.
Hvis datasettet har en eller to ekstremt dårlige verdier, vil vi at statistikken vår ikke blir unødig påvirket av disse tilfellene. For eksempel i en variabel som inneholder svært ekstreme uteliggere
-100, 2, 3, 4, 5, 6, 7, 8, 9, 10
det er tydelig at rekkevidden ikke er robust. Denne variabelen har et område på 110, men hvis uteliggeren ble fjernet ville vi ha et område på bare 8.
Hva er Interkvartilt område (IQR) og forklar hva det er
Interkvartilområdet (IQR) er som området , men i stedet for forskjellen mellom største og minste verdi tas forskjellen mellom 25. persentil og 75. persentil.
Man tar altså å finner området mellom 25. persentil og 75. persentil ved å subtrahere 75 verdien med 25 verdien.
50.50-12.75=37.75
Eksempel Figur 4.8
Hva menes med gjennomsnittlig absolutt avvik?
Det er et mål for å finne avviket opp i mot gjennomsnittet. Altså hvor langt unne verdiene er gjennomsnittet.
Avviket fra gjennomsnittet kan skrives ned med minus tegn forran
Det absoluttet avviket er ikke opptatt av minus tegn, og vil bare vite tallet og hvor langt unna det er gjennomsnittet.
Vi bruker det absoluttet avviket og finner gjennomsnittlig avvik av alle scorene ved å dele på antall notasjoner (N) =15.52
Eksempel Tabell 4.2
Hva er standardavvik i dette faget
Det samme!
For å finne det må man ta kvadratrot av variansen. Her tolker vi standardavviket slik:
Generelt bør du forvente at 68 % av dataene faller innenfor 1 standardavvik fra gjennomsnittet, 95 % av dataene faller innenfor 2 standardavvik fra gjennomsnittet, og 99,7 % av dataene faller innenfor 3 standardavvik fra gjennomsnittet.
Dette har vi hatt før.
Forklar kort hva som brukes mest og hva som bør brukes når av rekkevidde, interkvartil rekkevidde, gjennomsnittlig absolutt avvik, varians og standardavvik.
Rekkevidde . Gir deg hele spredningen av dataene. Det er veldig sårbart for uteliggere, og som en konsekvens blir det ikke ofte brukt med mindre du har gode grunner til å bry deg om ytterpunktene i dataene.
Interkvartil rekkevidde . Forteller deg hvor “den midterste halvdelen” av dataene sitter. Den er ganske robust og utfyller medianen fint. Denne brukes mye.
Gjennomsnittlig absolutt avvik . Forteller deg hvor langt “i gjennomsnitt” observasjonene er fra gjennomsnittet. Det er veldig tolkbart, men har noen få mindre problemer (ikke diskutert her) som gjør det mindre attraktivt for statistikere enn standardavviket. Brukt noen ganger, men ikke ofte.
Varians . Forteller deg gjennomsnittlig kvadratisk avvik fra gjennomsnittet. Det er matematisk elegant og er sannsynligvis den “riktige” måten å beskrive variasjon rundt gjennomsnittet på, men det er fullstendig utolkbart fordi det ikke bruker de samme enhetene som dataene. Nesten aldri brukt bortsett fra som et matematisk verktøy, men det er begravet “under panseret” på et veldig stort antall statistiske verktøy.
Standardavvik . Dette er kvadratroten av variansen. Det er ganske elegant matematisk og det er uttrykt i de samme enhetene som dataene, slik at det kan tolkes ganske bra. I situasjoner der gjennomsnittet er målet for sentral tendens, er dette standarden. Dette er det desidert mest populære variasjonsmålet.
Kort sagt, IQR og standardavvik er lett de to vanligste målene som brukes for å rapportere variabiliteten til dataene. Men det er situasjoner der de andre blir brukt. Jeg har beskrevet dem alle i denne boken fordi det er en god sjanse for at du støter på de fleste av disse et sted.
Hvordan ser alle disse 6 ut: Negative skew, no skew, positive skew, Platykurtic, Mesokurtic og Leptokurtic. (hint, normalfordeling)
EKSEMPEL Figur 4.11 og 4.12
Figur 4.12
I denne figuren har dataene til venstre en ganske flat fordeling, med tynne haler, så kurtosen er negativ og vi kaller dataene platykurtic. Dataene til høyre har en fordeling med fete haler, så kurtosen er positiv og vi sier at dataene er leptokurtiske. Men dataene i midten har verken tynne eller fete haler, så vi sier at den er mesokurtisk og har kurtosis null.
Hva menes med standard score?
Det er dette som er målt mtp z-verdier. Altså en z-verdi på 1 er ett standardavvik unna gjennomsnittet.
Standard score=din score-gjenomsnittet/standardavvik
EKS:
EN rekke mennesker skal svare på 50 spørsmål og de skal måles hvor mange ganger de er gretten når de svarer (i know det er rart)
gjennomsnittet grettenhet er 17 , jeg får 35 og standardavvik er 5.
35-17/5=3.6
Dette er over 3 standardavvik fra gjennomsnittet og er en ekstrem verdi. HUSK: 68 % av dataene faller innenfor 1 standardavvik fra gjennomsnittet, 95 % av dataene faller innenfor 2 standardavvik fra gjennomsnittet, og 99,7 % av dataene faller innenfor 3 standardavvik fra gjennomsnittet. Så da er jeg over 99,7%