Korrelation & regression Flashcards
När skall man göra vilken typ av korrelationstest?
- Pearson korrelation
–> korrelationskoefficient r
–> 1 OV
–> godtyckligt antal nivåer
–> OV på intervall/kvot skala
–> BV på kvot/intervall skala - Spearman korrelation
–> korrelationskoefficient rho
–> 1 OV
–> godtyckligt antal nivåer av OV
–> OV på ordinalskalenivå
–> BV på ordinalskalenivå
–> mindre känslig för outliers - Multipel regression
–> 2 eller fler OV
–> godtyckligt antal nivåer
–> OV på intervall/kvotnivå
–> BV på intervall/kvotnivå
Vad innebär korrelation?
- Korrelation beskriver sambandet mellan två variabler. Om de är:
–> orelaterade
–> positivt korrelerande, r=1 (perfekt positiv korrelation)
–> negativt korrelerade, r=-1 (perfekt negativ korrelation) - Korrelationen anger styrkan i ett linjärt samband
- Korrelation kräver parvisa mätningar t.ex. kreativitet & ålder, attityd & beteende osv
Vad är korrelation för någon typ av design?
Korrelation är en icke-experimentell design
–> ingen kontroll
–> ingen manipulation
–> korrelation kan inte säga någonting om kausaliteten
–> metod för att mäta korrelation är vanligen enkätstudier
Hur går hypotesprävning av r till?
Det finns en korrelationstabell för rkrit som beror av
–> p
–> df= n-2
Om r>rkrit förkastar vi Ho, dvs sannolikheten att vi har fått ett slumpresultat <5%.
Om r>0 positivt samband
Om r<0 negativt samband
Hur tolkar man storleken på korrelationen?
- utgå från tidigare studier
- Utgå från effekten i meta-analyser
Bara för att man har en signifikant effekt innebär det INTE att man har en meningsfull effekt
vad innebär determinationskoefficienten?
- Anger andel förklarad varians
–> hur stor del av variationen i en variabel som kan härledas till variationen av den andra variabeln - r^2=determinationskoefficienten
- Ett annat sätt att beskriva styrkan i sambandet
- Determinationskoefficienten är inte linjär
EXEMPEL
Sömnbrist & arbetsminne korrelation på r=0.76
r^2 = 0.58. –> 58% av variansen i arbetsminne förklaras av sömnbrist
–> innebär också att 42% av arbetsminne förklaras av andra orsaker och mätfel
Vad innebär homoskedasticitet?
Att variansen i Y är detsamma för alla X-värden
Vad inebär bivariat normalfördelning?
För varje x-värde är Y-värden normalfördelade
För varje Y-värde är x-värden normalfördelade
Vad menas med att det kan finnas risker med “restriction of range”?
At endast titta på en specifik range av X t.ex. kan skapa en falsk bild av korrelationen.
Har man t.ex. en icke-linjär korrelation men endast tittar på nedre delen av skalan kan det se ut som att man har en positiv korrelation
Tittar man på mitten delen kan det se ut som att man inte har någon korrelation alls
Tittar man på övre delen av x-skalan kan det se ut som att man har en negativ korrelation
Medan man i själva verket har en icke-linjär korrelation.
Därför är det viktigt att titta på hela rangen!
Vad är risken med outliers vad det gäller korrelation?
Outliersk kan skapa en falsk korrelation.
Det kan se ut som att vi har t.ex. en positivt linjär korrelaiton men i själva verket är det endast en datapunkt som är väldigt extrem.
Dessutom kan outliers minska faktiskt korrelationer
Viktigt att plotta korrelationerna för att förstå datan
Vad ska man akta sig vad det gäller korrelation?
- Kausalitet: Man kan inte veta någonting om kausaliteten i sambandet
- Skensamband
–> Variablerna kanske inte beror av varandr utan av bakomliggande variabler eller alternativa förklaringar. - Även små korrelationer kan bli signifikanta vid tillräckligt stort n
- Viktigt med teoretiskt grundade antaganden
EXEMPEL
positiv korrelation mellan personer som tror att bin laden var död när US invaderade hans byggnad i pakistan OCH de som tror att bin laden fortfarande lever. En tredje variabel kan förklara detta samband och det är tron på konspirationsteorier.
Antaganden för att kunna göra korrelationsanalys?
- homoskedasticitet
–> Att variansen i y är detsamma för alla x-värden - Bivariat normalfördelning
–> För varje x-värde är Y-värden normalfördelade
–> för varje y-värde är x-värden normalfördelade
vad är regression användbart för?
Regression är användbart för att göra prediktioner dvs antaganden om hypotetiska utfall
Med utgångspunkt i information om X vill vi kunna uttala oss om Y
Man kan göra både enkel och multipel regressionsanalys
Vad innebär enkel regressionsanalys?
Enkel regressionsanalys innebär
–> 1 BV
–> 1 OV
vad innebär Multipel regressionsanalys?
Multipel regressionsanalys innebär:
–> 1 BV
–> två eller fler OV (prediktorer)