Statistikk (kvantitativ analyse) Flashcards
To typer statistikk
Beskrivende/deskriptiv statistikk innebærer teknikker som hjelper oss med å oppsummere dataene, bla. korrelasjon mellom variabler, spredning og sentraltendens.
Induktiv/normativ statistikk innebærer hvordan vi forsøker å bruke data for å trekke konklusjoner om populasjoner, gjennom bla. sannsynlighet, hypotesetesting og signifikans.
Variabel
En variabel er noe som varierer, og identifiserer fenomener som kan endre verdi. Den avhengige variabelen er dataene våre, som ikke er under vår kontroll. Altså utfallsvariabelen som blir påvirket av noe. Den uavhengige variabelen er den forskeren manipulerer eller kontrollerer for å kunne måle dens effekt på de avhengige variablene.
Et eksempel kan være barns evne til å huske tall, som kan være den avhengige variabelen ettersom forskeren ikke kan gjøre noe med dette. Forskeren kan imidlertid gjøre noe med læringsmetoden, som da kunne vært den uavhengige variabelen.
Målenivåer
For å tilordne en person en verdi på en variabel så benytter vi ulike målenivåer; nominal-, ordinal-, intervall- og forholdstalls-nivå.
Variabler på nominalnivå kategoriseres ved å sette merkelapper på forskjellige typer data, f.eks. kjønn eller etnisitet.
Variabler på ordinalnivå rangeres langs et kontinuum, uten å måle avstanden mellom posisjonene, f.eks. 1., 2. og 3. plass i en test.
Variabler på intervallnivå har intervaller med samme verdi over hele skalaen, f.eks. temperatur i celsius.
Variabler på forholdstallsnivå/ratio har like intervaller, men har et absolutt nullpunkt, f.eks. høyde og vekt.
Kategoriske variabler
Variabler på nominal- og ordinalnivå betegnes ofte som kategoriske variabler, etter som avstanden og ordningen på tallverdiene ikke er definert.
Kontinuerlige variabler
Variabler på de andre nivåene samt sentraltendens og spredning, gjerne betegnes som kontinuerlige variabler. Disse kan anta alle verdier, ofte innenfor et bestemt intervall.
Korrelasjon
Korrelasjon kan defineres som en samvariasjon eller sammenheng mellom to variabler. Kausalitet må ikke blandes med korrelasjon.
Korrelasjonen sier bare at det er en sammenheng, ikke noe om retningen, altså at den ene variabelen ikke nødvendigvis er årsak til den andre.
Kausalitet
Kausalitet går ut på at årsaken produserer en virkning. Det oppstår en årsakssammenheng, og vi får en retning på denne.
Positiv korrelasjon
En positiv korrelasjon betyr bare at høye verdier av den ene variabelen ofte vil finnes sammen med høye verdier av den andre. F.eks. finner vi gjerne positiv korrelasjon mellom røyking og lungekreft, eller antall studietimer og karakter.
Andre forklaringer på korrelasjon (ikke kausalitet)
Vet ikke hvilken variabel som forårsaker den andre (retningen). Påvirkningen kan være gjensidig. Eller tredjevariabel/utenforliggende variabler.
Tredjevariabelproblemet
Tredjevariabelproblemet, som vi ofte har i ikke-eksperimentelle design, kan illustreres med eksempelpåstanden «det å spise iskrem fører til drukning». Vi kan fint finne en positiv korrelasjon her, men sammenhengen vil være spuriøs, dvs. at sammenhengen skyldes bakenforliggende variabler, som f.eks. økt temperatur og flere som bader.
Statistisk signifikans
Sammenheng/forskjell/endring er ikke sannsynlig å ha oppstått tilfeldig.
Henger sammen med hypotesetesting.
Betyr ikke at vi har funnet kausalitet.
Mål for sentraltendens
Sentraltendens = fellesbetegnelse på ulike «gjennomsnittsmål»
- Det aritmetiske snitt = er egentlig gjennomsnittet. Man legger sammen alle tallene i et sett og deler på antall tall i settet. Dette forteller oss noe om sentraltendensen for settet, eller den mest typiske verdien.
- Median = det midterste tallet i et sett når verdiene står i stigende rekkefølge. Et annet mål for sentraltendens som ikke innebærer de samme problemene som snittet når datasettet inneholder ekstreme verdier.
- Modus/typetall = verdien som forekommer mest frekvent i settet, og om det er to kalles det bimodalt. Et annet verktøy for å måle sentraltendensen. Snitt og median kan ikke regnes ut på en nominell skala.
Mål for spredning
Spredning = et mål for hvor mye eller lite verdiene i et sett varierer i forhold til sentraltendensen.
- Variasjonsbredde = avstanden mellom den høyeste og laveste verdien i et tallsett.
- Kvartilavvik = avstanden mellom de to verdiene som markerer endepunktene for den øverste og laveste fjerdedelen (25%) av skårene i stigende rekkefølge.
- Gjennomsnittsavvik = forskjellen mellom skåren og gjennomsnittet i datasettet.
Varians = et mål på spredningen av tallene rundt gjennomsnittet. Tar kvadratet av hver avviksskåre og legger den sammen, deretter deler på antall verdier i settet.
- Standardavvik = kvadratroten av variansen.
Samvariasjon mellom variabler
Korrelasjonskoeffisient = gir et numerisk sammendrag på retningen og styrken på det lineære forholdet mellom to variabler.
Når prediksjon er mulig, er det fordi det foreligger samvariasjon.
- Jo sterkere korrelasjon, jo bedre kan vi predikere.
Effektstørrelse
Dersom du skal sammenligne forskjeller eller sammenhenger innad eller på tvers av studien, benytter vi effektstørrelser (mellom 0 og 1). Det er bare i eksperimentelle design at man har tilstrekkelig kontroll med andre variabler til å vite hva forskjellen er en effekt av.