Korrelation och regression Flashcards
Kovarians
samvariationen mellan två variabler x och y. Hur en förändring i x påverkar y. Problem med måttet är att det påverkas av måttenheter –> går ej jmf, exempelvis huruvida X längd mäts i cm eller m, då får man ett annat mått på kovarians. Detta löser man genom att använda sig av korrelationer –> jmfbara
Korrelation
sambandsmått som är kollar om det finns någon koppling mellan 2 variabler. Det förutsätter ett linjärt samband.
Hur stark denna koppling är mäts med Pearsons r (parametrisk) eller Spearmans p (icke-parametriskt).
Detta ger inte ett nått på kausalitet (orsakssamband) utan samband.
När kan r ge ett missvisande/felaktikt resultat
r = pearsons korrelation
- Två populationer, det är två olika populationer som mätts vilket ger upphov till ett linjärt samband som inte finns. Exempel, vuxna och barn mellan korrelation mellan skostorlek och lön.
- Vid icke-linjärt samband, enligt perason kommer de säga att det inte finns ett samband men det kan ju finnas ett annat typ av samband. I dessa fall behöver ett annat måste
- För begränsad variationsvidd, en begränsad del av datan har samlats in. Inget mått på samband men det kan mycket väl vara så att ett finns om man får in all data.
- Outlier, få datapunkter nertill och någon outliers så kommer det att ge något som er ut som ett samband som egentligen inte finns.
Förklarad varians/delade variansen/determinationskoefficienten
Den kvadrerade korrelationskoefficient r2 (pearsons r). - Anger förklaringsgraden, alltså hur stor del av variationen i den ena variabel kan förklaras av variationen i den andra variabeln.
Exempelvis, om resultatet på två tentor korrelerar med r=.80 är den delade variansen .802=.64, då delar de 64% av variansen, 64% av variationen i den ena variabeln kan då förklaras av variationen i den andra variabeln. 100–64= 36% av variationen beror på något annat exempelvis att testen inte mäter samma sak eller slumpvariation. Detta kan illustreras i venndiagram.
Är intressant för att man får fram hur mkt av variansen i ena varabeln förklas av den andra variabel.
Effektstorlekar vid korrelation
Kriterierna för liten, måttlig och stor - r eller r2 används som mått på effektstorlek - Kriterier för bedömning: r vs r2 Liten 0.1 0.01 Måttlig 0.3 0.09 Stor: >0.5 0.25
Regression enkel
korrelation är ett mått på styrkan av sambandet mellan 2 variabler. Regression är en vidareutveckling av korrelation som tillåter prediktion via regressionsekvation Y´=a+bx (regressionslinjensekvationen, regr a skär i y-axel, b är lutningen).
icke standardiserade regressionskoefficienten
Y´=a+bx
b är den icke standardiserade regressionskoefficienten som anger regressionslinjens lutning i måttenheter. Hur många skalsteg ökar Y’ då X ökar ett steg? linjens lutning (b)
b är skalberoende, resultaten kan inte jämföras.
Standardiserade regressionskoefficienten
β-värden anger X effekt på Y i SD,
β-värden från olika analyser kan jämföras tack vara standardiseringen. Den standardiserade regressionslinjen går genom 0,0.
Multipel korrelation (R):
uttrycker den sammanlagda korrelationen mellan prediktorvariablerna (OBV) och kriterievariabeln (BV). Anger graden av sambanden mellan kombinationen av de oberoende variablerna och den beroendevariabeln.
Användnngsområde för multipel korrelation
Användningsområden:
- flera oberoende variabler,
- När man vill kontrollera för andra variablers inverkan på sambandet (3e variabeln).
Vad står R2 för?
förklaringsgraden, hur väl OBV fångar in BV. Förklarad varians!
Partiell korrelation (pr):
då vi vet alla parvisa korrelationer mellan 3 variabler så kan vi isolera sambandet mellan två av dessa, x och y genom att ta bort inverkan från den medierade variabeln z.
Varför kan man vilja göra en partiell korrelation? När vi vill ta bort inverkan från en medierande faktor på sambandet mellan två andra variabler.
Semipartiell korrelation (sr):
man justerar bort den beroende variabelns påverkar på de oberoende variablerna. Man justerar bort den ena variabelns (här Z) effekt på en av de övriga variablerna (här Y)
Multipel regression
tillåter prediktion av kriterievariabeln (BV) från flera prediktorer (OBV).
Olika metoder som används vid multipel regression
Standard multipel regression
Hierarkisk (sekventiell) multipel regression