inför omtentan Flashcards
Datanivåer för variabler
- *Nominaldata** - kategorier utan meningsfull rangordning (ex. yrke, kön)
- Typvärde är ok - inte medelvärde/median
- Matematiska operationer går inte
- *Ordinaldata** - rangordnade kategorier utan meningsfulla avstånd (ex. placering i tävling, mående på en skala)
- Typvärde och median är ok - ej medelvärde
- Matematiska operationer går inte
- *Intervalldata** - kvantitativ mätskala med lika stort avstånd mellan mätvärdena utan meningsfull nollpunkt (ex. grader Celsius, IQ)
- Addition och subtraktion kan utföras
- Medelvärde och median kan beräknas
- *Kvotdata** - intervalldata med meningsfull nollpunkt (ex. inkomst, längd, vikt, ålder)
- Alla matematiska operationer kan utföras
- Medelvärde och median kan beräknas
Deskriptiv statistik
Man tittar normaltsett på två typer av mått: centralmått och spridningsmått.
Centralmått:
- Typvärde - det värde det finns flest av (kan användas på alla datanivåer)
- Median - mittersta värdet/medelvärdet på de två mittersta
- (Aritmetiskt) medelvärde (x bar) - summan av alla värden delat med antal värden
Spridningsmått:
- Variationsbredd - skillnaden mellan det största och minsta värdet (påverkas av outliers)
- Standardavvikelse - mäter “ungefär” hur stort avstånd det i genomsnitt är mellan en observation och medelvärdet (samma enhet som data)
- *Varians** - standardavvikelse i kvadrat
Hur vet jag att en variabel är normalfördelad? x4
- Inspektion av histogram - x - mätvärden, y - frekvens
- Typvärde, median och medelvärde är nästan likadana
- Ungefär lika många värden under som över medelvärdet
- “Test of normality” i statistikprogram - om det är signifikant kan man inte anta att populationen är normalfördelad.
P-värde
Hur sannolikt det är att av en slump få en effekt, som är MINST lika stor som effekten i vårat stickprov givet att nollhypotesen är sann. Om det understiger alfa förkastas nollhypotesen. Värdet står för är sannolikheten att observera en DATA vi testat Inte att en hypotes eller teori stämmer.
Typer av T-test
- *One-samples T-test** - ett stickprovsmedelvärde (ex. jämföra med känt populationsmedelvärde)
- Kan ett stickprov antas vara draget från en population med ett visst medelvärde?
ex: Kan ett känt stickprovsmedelvärde antas vara samma som pop.medelvärdet?
- *Independent samples T-test** - oberoende mätningar (ex. två grupper)
- Kan två stickprov antas vara dragna från populationer med samma medelvärde?
- Förutsätter oberoende observationer
ex: tittar män och kvinnor i genomsnitt lika mycket på tv?
- *Paired samples T-test** - beroende mätningar (ex. för och eftermätningar)
- Kan två matchade stickprov antas ha samma medelvärde?
- Inomindividsdesign eller matchade individer
ex: Kan femåringar antas gilla glass lika mycket som de gillar godis?
Typ-1 fel och Typ-2 fel
Typ-1 fel (alfa) - vi förkastar nollhypotesen trots att den är sann.
nollhypotesen förkastas trots att ingen effekt existerar i populationen. Vi tror att en effekt existerar som i verkligheten inte finns. (bestäms innan och ligger oftast på 5%)
Typ-2 fel (beta) - vi behåller nollhypotesen trots att den är falsk.
nollhypotesen behålls trots att en effekt finns i populationen Vi missar en effekt som faktiskt finns.
kovarians
Ett ostandardiserat mått på linjär association mellan två variabler. Man kan inte jämföra olika kovariansestimat med varandra då de kan anta vilka värden som helst, deras värde säger ingenting om styrka i korrelation.
korrelation
Statistisk representation av ett linjärt samband mellan två kontinuerliga variabler
Pearsons korrelationskoefficient
- Vanligaste korrelationskoefficienten
- Används för kontinuerliga variabler på intervall eller kvotnivå
- Hittar den raka linjen mellan x och y som bäst överensstämmer med data (sammanfattar sambandet mellan de två variablerna)
- Standardiserad korrelationskoefficient som alltid är mellan eller lika med -1 och 1
- Fångar bara linjära samband och påverkas mycket av outliers.
- För signifikanstestning är frihetsgrader n-2
Kom ihåg vid Pearsons x3
- Huruvida en signifikant r är intressant eller inte avgörs från fall till fall. En korrelation på 0.1 kan spela roll i ett sammanhang men vara helt obetydlig i ett annat sammanhang.
- Icke-signifikanta korrelationer är icke-signifikanta oavsett styrka
- Med tillräckligt stort n blir även mycket svaga r signifikanta
Determinationskoefficienten
Svarar på frågan - hur många procent av variansen i en variabel som kan förklaras av varians i en annan variabel. Det är korrelationskoefficient upphöjt till två.
Det är som om man tog alla värden som man har och tittar på deras värde på x-axeln och bytte ut de observerade värdena på y axeln mot de som prediceras av korrelationskoefficienten. Det man vill se är hur mycket av variansen som bevaras om man gör detta och förklaras i procent. R2 = 0.98 är 98% bevarad varians.
Chi2 - goodness of fit
Mäter den totala avvikelsen mellan en observerad (o) och en förväntad (e) frekvensfördelning. Görs på nominaldata med en viss distribution dragen från en population.
Post-hoc: Chi2 - Goodness of fit
- Får man ett signifikant värde på Chi2 goodness of fit kan man utföra ett post-hoc test för att undersöka vilken av kategorierna som avviker mest där tabellen görs om till att bara jämföra en kategori (som man vill undersöka) mot alla andra kategorier. Övriga kategorier slås alltså ihop.
- Man kan också använda konfidensintervall. Om den estimerade andelen inte ligger inom konfidensintervallet för den observerade andelen förkastas H0. OBS! Genom att använda denna formel ignorerar vi att andel inte är en kontinuerlig variabel (ligger alltid mellan 0 och 1). Vid små stickprov, eller om vi analyserar andelar som ligger nära ändpunkterna (0 och 1), kan vi få problem och bör välja en annan metod t.ex. Wilson Score Interval (lite mer komplicerad formel)
Chi2 - test for independence
Testar om två variablers frekvensfördelning kan antas vara oberoende av varandra. Variablerna befinner sig på nominalnivå.
Post-hoc: Chi2 - test for independence
För att hitta vilken nivå på variabel påverkar signifikans i Chi2 test for independence ska den justerade standardiserade residualen beräknas för varje cell. Värdet blir då ett mått på hur mycket observerat värde avviker från förväntat värde, när hänsyn tagits till hur mycket värden av detta slag brukar variera.
Detta värde approximerar z-poäng! Därför kan man förkasta H0 om det absoluta värdet överstiger 1.96 (alfa på 0.05).
Parametriska vs icke-parametriska test
Parametriska test
- Ex. Pearsons, ANOVA, t-test
- Ställer höga krav på data, men uppfylls dessa är parametriska krav förstahandsalternativ
- Utgår från att data i populationen är fördelat på ett visst sätt (oftast normalfördelningen)
- Gör antaganden om parametrar från den fördelningen (ex. medelvärde, varians)
- Beroende variabel (med några undantag) på intervall eller kvotnivå
Icke-parametriska test
- Chi2, Spearman
- Färre antaganden än vid parametrisk testning
- Nackdelen är lägre power (högre risk för typ-2 fel) OM antaganden bakom parametrisk testning är uppfyllda