inför omtentan Flashcards
Datanivåer för variabler
- *Nominaldata** - kategorier utan meningsfull rangordning (ex. yrke, kön)
- Typvärde är ok - inte medelvärde/median
- Matematiska operationer går inte
- *Ordinaldata** - rangordnade kategorier utan meningsfulla avstånd (ex. placering i tävling, mående på en skala)
- Typvärde och median är ok - ej medelvärde
- Matematiska operationer går inte
- *Intervalldata** - kvantitativ mätskala med lika stort avstånd mellan mätvärdena utan meningsfull nollpunkt (ex. grader Celsius, IQ)
- Addition och subtraktion kan utföras
- Medelvärde och median kan beräknas
- *Kvotdata** - intervalldata med meningsfull nollpunkt (ex. inkomst, längd, vikt, ålder)
- Alla matematiska operationer kan utföras
- Medelvärde och median kan beräknas
Deskriptiv statistik
Man tittar normaltsett på två typer av mått: centralmått och spridningsmått.
Centralmått:
- Typvärde - det värde det finns flest av (kan användas på alla datanivåer)
- Median - mittersta värdet/medelvärdet på de två mittersta
- (Aritmetiskt) medelvärde (x bar) - summan av alla värden delat med antal värden
Spridningsmått:
- Variationsbredd - skillnaden mellan det största och minsta värdet (påverkas av outliers)
- Standardavvikelse - mäter “ungefär” hur stort avstånd det i genomsnitt är mellan en observation och medelvärdet (samma enhet som data)
- *Varians** - standardavvikelse i kvadrat
Hur vet jag att en variabel är normalfördelad? x4
- Inspektion av histogram - x - mätvärden, y - frekvens
- Typvärde, median och medelvärde är nästan likadana
- Ungefär lika många värden under som över medelvärdet
- “Test of normality” i statistikprogram - om det är signifikant kan man inte anta att populationen är normalfördelad.
P-värde
Hur sannolikt det är att av en slump få en effekt, som är MINST lika stor som effekten i vårat stickprov givet att nollhypotesen är sann. Om det understiger alfa förkastas nollhypotesen. Värdet står för är sannolikheten att observera en DATA vi testat Inte att en hypotes eller teori stämmer.
Typer av T-test
- *One-samples T-test** - ett stickprovsmedelvärde (ex. jämföra med känt populationsmedelvärde)
- Kan ett stickprov antas vara draget från en population med ett visst medelvärde?
ex: Kan ett känt stickprovsmedelvärde antas vara samma som pop.medelvärdet?
- *Independent samples T-test** - oberoende mätningar (ex. två grupper)
- Kan två stickprov antas vara dragna från populationer med samma medelvärde?
- Förutsätter oberoende observationer
ex: tittar män och kvinnor i genomsnitt lika mycket på tv?
- *Paired samples T-test** - beroende mätningar (ex. för och eftermätningar)
- Kan två matchade stickprov antas ha samma medelvärde?
- Inomindividsdesign eller matchade individer
ex: Kan femåringar antas gilla glass lika mycket som de gillar godis?
Typ-1 fel och Typ-2 fel
Typ-1 fel (alfa) - vi förkastar nollhypotesen trots att den är sann.
nollhypotesen förkastas trots att ingen effekt existerar i populationen. Vi tror att en effekt existerar som i verkligheten inte finns. (bestäms innan och ligger oftast på 5%)
Typ-2 fel (beta) - vi behåller nollhypotesen trots att den är falsk.
nollhypotesen behålls trots att en effekt finns i populationen Vi missar en effekt som faktiskt finns.
kovarians
Ett ostandardiserat mått på linjär association mellan två variabler. Man kan inte jämföra olika kovariansestimat med varandra då de kan anta vilka värden som helst, deras värde säger ingenting om styrka i korrelation.
korrelation
Statistisk representation av ett linjärt samband mellan två kontinuerliga variabler
Pearsons korrelationskoefficient
- Vanligaste korrelationskoefficienten
- Används för kontinuerliga variabler på intervall eller kvotnivå
- Hittar den raka linjen mellan x och y som bäst överensstämmer med data (sammanfattar sambandet mellan de två variablerna)
- Standardiserad korrelationskoefficient som alltid är mellan eller lika med -1 och 1
- Fångar bara linjära samband och påverkas mycket av outliers.
- För signifikanstestning är frihetsgrader n-2
Kom ihåg vid Pearsons x3
- Huruvida en signifikant r är intressant eller inte avgörs från fall till fall. En korrelation på 0.1 kan spela roll i ett sammanhang men vara helt obetydlig i ett annat sammanhang.
- Icke-signifikanta korrelationer är icke-signifikanta oavsett styrka
- Med tillräckligt stort n blir även mycket svaga r signifikanta
Determinationskoefficienten
Svarar på frågan - hur många procent av variansen i en variabel som kan förklaras av varians i en annan variabel. Det är korrelationskoefficient upphöjt till två.
Det är som om man tog alla värden som man har och tittar på deras värde på x-axeln och bytte ut de observerade värdena på y axeln mot de som prediceras av korrelationskoefficienten. Det man vill se är hur mycket av variansen som bevaras om man gör detta och förklaras i procent. R2 = 0.98 är 98% bevarad varians.
Chi2 - goodness of fit
Mäter den totala avvikelsen mellan en observerad (o) och en förväntad (e) frekvensfördelning. Görs på nominaldata med en viss distribution dragen från en population.
Post-hoc: Chi2 - Goodness of fit
- Får man ett signifikant värde på Chi2 goodness of fit kan man utföra ett post-hoc test för att undersöka vilken av kategorierna som avviker mest där tabellen görs om till att bara jämföra en kategori (som man vill undersöka) mot alla andra kategorier. Övriga kategorier slås alltså ihop.
- Man kan också använda konfidensintervall. Om den estimerade andelen inte ligger inom konfidensintervallet för den observerade andelen förkastas H0. OBS! Genom att använda denna formel ignorerar vi att andel inte är en kontinuerlig variabel (ligger alltid mellan 0 och 1). Vid små stickprov, eller om vi analyserar andelar som ligger nära ändpunkterna (0 och 1), kan vi få problem och bör välja en annan metod t.ex. Wilson Score Interval (lite mer komplicerad formel)
Chi2 - test for independence
Testar om två variablers frekvensfördelning kan antas vara oberoende av varandra. Variablerna befinner sig på nominalnivå.
Post-hoc: Chi2 - test for independence
För att hitta vilken nivå på variabel påverkar signifikans i Chi2 test for independence ska den justerade standardiserade residualen beräknas för varje cell. Värdet blir då ett mått på hur mycket observerat värde avviker från förväntat värde, när hänsyn tagits till hur mycket värden av detta slag brukar variera.
Detta värde approximerar z-poäng! Därför kan man förkasta H0 om det absoluta värdet överstiger 1.96 (alfa på 0.05).
Parametriska vs icke-parametriska test
Parametriska test
- Ex. Pearsons, ANOVA, t-test
- Ställer höga krav på data, men uppfylls dessa är parametriska krav förstahandsalternativ
- Utgår från att data i populationen är fördelat på ett visst sätt (oftast normalfördelningen)
- Gör antaganden om parametrar från den fördelningen (ex. medelvärde, varians)
- Beroende variabel (med några undantag) på intervall eller kvotnivå
Icke-parametriska test
- Chi2, Spearman
- Färre antaganden än vid parametrisk testning
- Nackdelen är lägre power (högre risk för typ-2 fel) OM antaganden bakom parametrisk testning är uppfyllda
P vs I-P test för association
Parametriska test
Pearsons korrelation
- Känslig för outliers
- Variabler: intervall eller kvotnivå
- Normalfördelade variabler
- Homoskedasticitet: variansen i Y är densamma för alla X-värden och variansen i X är densamma för alla Y-värden
- För varje värde på X är Y-värdena normalfördelade, och vice versa
Icke parametriska test
Spearman korrelation
- Ej känslig för outliers
- Variabler: En eller fler variabler på ordinalnivå
Chi2 - test of independence
- Variabler: nominalnivå
- Förväntad frekvens bör överstiga 5
- Oberoende observationer, enbart en datapunkt per individ
P vs I-P test för medelvärdesskillnad mellan två grupper
Parametriska test
- *Independent sample t-test**
- 2 nivåer på oberoende variabel
- Beroendevariabel: intervall eller kvotnivå
- Normalfördelad beroendevariabel
- Homogena populationsvarianser (variansen är densamma för variabeln i båda populationer)
- Oberoende observationer - varje individ tillhör bara en grupp
- *Envägs oberoende ANOVA**
- 3 eller fler nivåer på oberoende variabel
- Berondevariabel: intervall eller kvotnivå
- Normalfördelad beroendevariabel
- Homogena varianser i alla grupper
- Oberoende observationer - varje individ tillhör bara en grupp
Icke parametriska test
- *Mann-Whitney U-test**
- 2 nivåer på beroendevariabel
- Beroendevariabel: ordinalnivå
- Fungerar för snedfördelad beroendevariabel
P vs I-P test för upprepade mätningar
Parametriska test
- *Paired sample t-test**
- 2 mättilfällen/nivåer på OV
- Beroendevariabel: intervall eller kvotnivå
- Normalfördelade beroendevariabler i båda grupper
- Homogena populationsvarianser (variansen är densamma för variabeln i båda populationer)
- *Beroende ANOVA**
- 3 eller fler mättilfällen/nivåer på OV
- Beroendevariabel: intervall eller kvotnivå
- Normalfördelade beroendevariabler
- Homogena populationsvarianser (inom mättillfällen)
- Homogena populationskovarianser (korrelation är samma mellan mättillfällen)
- Sphericity - Homogena varianser för alla skillnader MELLAN nivåerna på OV - Mauchly’s Test of Sphericity (är p-värdet signifikant måste vi förkasta antagandet)
Icke parametriska test
- *Wilcoxon signed rank t-test**
- 2 mättilfällen/nivåer på OV
- Beroendevariabel: ordinalnivå
- Fungerar för snedfördelad/ej normalfördelad beroendevariabel
- *McNemar’s test**
- 2 mättilfällen/nivåer på OV
- Beroendevariabel: nominalnivå
- Individer kan flyttas mellan kategorier
ANOVA
- Analysis of variance
- Handlar om att kvantifiera varians MELLAN och INOM grupper. Sedan ställs variationen mellan grupperna mot variansen inom grupperna i Fkvoten
Envägs oberoende ANOVA (analysis of variance)
- Testar om fler än två nivåer av en oberoende variabel (nominalnivå) har samma påverkan på en kontinuerlig beroende variabel (intervall eller kvotnivå), eller om det finns en skillnad i effekt mellan åtminstone två av dem
Hur man ser effekter av variabler för tvåvägs oberoende ANOVA i linjediagram
- Huvudeffekter: Medelvärdesskillnad för nivåer på OV 1 och OV2 (mellan de olika linjerna och mellan de olika punkterna)
- Interaktionseffekt: Om de är parallella finns ingen interaktionseffekt, om de har olika lutning förekommer interaktionseffek
Tvåvägs oberoende ANOVA
Används när man har faktoriell design med TVÅ oberoende variabler på nominalnivå med minst två nivåer var, men fortfarande bara en beroende variabel.
2 Huvudeffekter
- Huvudeffekt av OV1 (ex. metod): Kan medelvärden på BV antas vara samma för nivåerna A och B? (H0 - samma, H1 - inte samma)
- Huvudeffekt av OV2 (ex. kön): Kan medelvärden på BV antas vara samma för nivåerna M och K? (H0 - samma, H1 - inte samma)
1 Interaktionseffekt
- Effekten av OV1 på BV varierar mellan nivåerna på OV2
Ex: Hur behandlingsmetod påverkar välbefinnande beror på huruvida man är man eller kvinna. (H0 - Ingen interaktion, H1 - Interaktion)
En fördel jämfört med envägs ANOVA är att man får högre power pga. mindre oförklarad/residual varians (SSw) medan den förklarade variansen (SSb) fortfarande är lika stor.
Antaganden - Tvåvägs oberoende ANOVA
- Homogena populationsvarianser i alla grupper inom varje OV
- Normalfördelad BV (är stickprovet stort kan viss snedfördelning tolereras)
- Oberoende observationer - varje person finns bara i en cell