Statistik 1 Flashcards
Vad är variationsbredd?
Högsta värdet minus lägsta värdet i datamängden.
Användbart då datafördelning är mycket sned, bimodal, rektangulär
Vad är en kvartilavvikelse
Kvartilavvikelser bygger på percentiler
En percentil är det värde under vilket en viss procentandel ligger
så vid percentil 50 (medianen) finns 50% av datamängden under.
Då percentiler delar in datamängden i fjärdedelar kallas det kvartiler.
Kvartilavvikelsen är (q3-q1) /2
spridningsmått
sammanfattade mått över hur mätvärderna är utspridda i datamängden
standardavvikelser
är på sätt och vis ett mått på observationernas genomsnittliga avstånd från medelvärdet.
Frihetsgrader
antalet frihetsgrader är det antal värden som återstår, som har “frihet att variera”, när man har subtraherat det totala antalet restriktioner från antalet värden.
En restriktion orsakas av ett mått som beräknats från värden (ex: medelvärdet)
Varians
genomsnittliga kvadrerade avvikelsen från medelvärdet
Z-poäng
värden på olika skalor kan översättas till z-poäng och då jämföras.
Z-poänget talar om hur långt ifrån medelvärdet en observation befinner sig, i standardavvikelser beräknat.
Hur räknas z-poäng?
Räkna ut skillnad mellan värde och medelvärdet för populations/ stickprov
Får avstånd till medelvärdet
Delar avståndet med standardavvikelse för population/stickprov
Nu har vi antalet standardavvikelser första värdet är ifrån medel poäng = z-poäng
Normalfördelning
hur datan är fördelad, om den är normalfördelad är den klockformad, symmetrisk och mellan två värden återfinns alltid en bestämd proportion av alla observationer:
Vad avgränsar z-värdena +-1.96?
95% av observationerna
Vad innebär skewness?
hur sned en fördelning är i jämförelse med normalfördelning
Ett värde på 0 = helt symmetrisk
- värde = svansen åt vänster
+ värde = svansen åt höger
Värden utanför +-2 = kraftigt snefördelad
Vad är kurtosis?
graden av toppighet i kurvan.
0 = lika toppig som normalfördelning
+ värde = toppigare än normalfördelning (starkt koncentrerad i mitten)
- värde = plattare än normalfördelning
Vad kan beräknas med z-värde och normalfördelning?
Sannolikheten för ett visst utfall
Ex: befinner du dig över standardavvikelse 1, är sannolikheten att en slumpmässig persons värde också är över 1 standardavvikelse 15,86%
Vad är en korrelation?
Ett mått på graden av samvariation mellan två variabler
Vad är ett skensamband?
Ett samband eller korrelation som orsakats av en bakomliggande variabel
Vad innebär positiv/negativ samband
Om sambandet är positivt eller negativt informerar om sambandets riktning.
samband mellan 2 variabler kan vara:
Positivt = ökning i X variabeln ger även ökning i Y variabeln
Negativ = ökning i X variabeln leder till minskning i Y variabeln.
Vad är extremvärden?
enstaka eller få värden som är avstickare ifrån resterande data. Dessa kan kraftigt påverka korrelationskoefficienten.
En graf/punktdiagram kan användas för att avslöja extremvärden
Pearsons produktkorrelationskoefficient
Vanligaste sättet att beräkna en korrelation och mäter graden av linjär samvariation.
Hur räknas Pearsons r?
- Översätta talparen till z-poäng
- Multiplicera de z-transformerade talen inom varje par med varandra
- Addera alla z-produkterna ihop
- Dela summan med antalet talpar minus 1 (n-1)
Hur vet man om sambandet är stort?
Det kan bero på:
- vad för förväntningar som fanns på resultatet
- vad tidigare forskning har visat
- hur signifikant resultatet är
Man kan även använda cohens riktlinjer:
- Svagt samband - r =0,1
- Medelstarkt - r = 0,3
- Starkt - r =0,5
Vad är determinationskoefficienten
Det kvadrerade r värdet.
Det anger proportion förklarad varians och kan ge tydligare bild av korrelationens styrka.
Det är så mycket av variansen, eller spridningen, i ena variabeln som kan förklaras av den andra.
Spearmans rangkorrelationskoefficient
Spearmans räknar ut en korrelation likt pearsons men med variabler på ordinalskalnivå (rangskala)
Antaganden för pearsons r
- intervall/kvotnivå
- data i talpar
- normalfördelning
- inga extremvärden
- homoscedasticitet
- linjärt samband
Antaganden för Spearman
- båda variabler på ordinalnivå
- icke-parametrisk
- fördel att använda vid extremvärden
- fördel att använda vid snedfördelning
- fungerar vid heteroscedasicitet
- monotonistiskt samband (behöver ej vara linjärt)
Vad innebär restriction of range?
Vid begränsad spridning/variation hos våra variabler och ju mindre variation, desto svårare att få samvariation.
Vad är partiell korrelation?
Partiell korrelation är en uträkning som används för att utesluta eller bevisa en bakomliggande variabel mellan korrelationen.
Hur beräknas partiell korrelation?
När man beräknar en partiell korrelation räknar man ut korrelationen mellan vardera variabel och en tredje variabel som tros kunna vara en medlande faktor.
Man har då kontrollerat för den tredje faktorn i korrelationen.
Vad är frekvens (frekvenstabeller)?
antal förekomster av något variabelvärde.
I frekvenstabeller redovisas antalet eller frekvenserna för de olika variabelvärdena
Summan av frekvenserna ska alla bli densamma som totala deltagarna (n)
Relativa frekvenser
Frekvens andelen, angivet i procent.
Antalet förekomster av något variabelvärde dividerat med det totala antalet.
Kumulerade frekvenser
kumulativt summerade frekvenser
Frekvenser adderas nedåt.
Vad är klassindelat material?
vid kvantitativa variabler är det ofta praktiskt att klassindela material - då samlas flertal värden till en “klass” eller grupp.
Det är bra att ha klasser som är lika stora
Hur kan man klassindela?
Utifrån bestämd klassbredd:
- dividera variationsbredden med valda klassbredden och avrunda uppåt för estimat på antal klasser
Utifrån antal klasser:
- Räkna ut variationsbredd
Sedan dividera med antal klasser för att få estimat på klassbredden
Vad menas med större spridning?
Men större spridning kan man tänka att fördelningskurvan blivit uttryckt.
Vid lägre spridning är kurvan mer centraldragen, eller dragen åt ett visst håll - man kan tänka sig att den har högre topp.