Korrelation och regression Flashcards
När och hur mäts bivariat korrelation?
Vid observationsstudier och epidemiologiska studier
- Benämns ibland icke-interventionsstudier eller icke-experimentella studier
- Ingen aktiv åtgärd vidtas utan studiedeltagarna observeras under rådande förutsättningar
Mäts med pearsons r (el spearmans p)
Vad gör man vid en observationsstudie när man använder bivariat korrelation?
- Observerar 2 variabler vid ett tillfälle (tvärsnittstudie) eller med ett tidsintervall (longitudinell studie)
- Individers resultat plottas in i ett “scatterplot” som är en variabelrymd
Varians
Variation runt ex medelvärden (medelkvadratens yta)
- Medelvärdet av de kvadratiska avstånden från datapunkterna till medelvärdet över alla datapunkter
- Vill veta varje punkts avstånd till medelvärdet
Kovarians
Mått på grad av samvariation mellan variabler, ett sambandsmått
- Hur en förändring i x påverkar y
- Beräknas med hjälpa av varje punkts avvikelser från sina respektive medelvärden (avvikelser från både medelvärde y och medelvärde x)
Hur påverkas kovarians av måttenheter?
- Olika kovariansmått går ej att jämföra
- För att göra om till samma enhet dividerar man med standardavvikelsen i y- och x-led
Hur relaterar r och kovariansen till varandra?
Om man dividerar cov med standardavvikelserna för x och y så fås korrelationskoefficienten
Korrelationskoefficienten
- Pearson’s r
- Olika r kan jämföras
- r uttrycker sambandets styrka och riktning
- r kan variera mellan -1 och +1
Delad varians (eller andel förklarad varians)
- Den kvadrerade korrelationskoefficienten är den delade variansen
- Den anger hur stor andel av variationen i den ena variablen som kan förklaras av variationen i den andra variabeln
Tumregler för effektstorlek vid korrelation
Liten: r 0.1, r2 0.01, delad varians 1%
Måttlig: r 0.3, r2 0.09, delad varians 9%
Stor: r >0.5, r2 0.25, delad varians 25%
Inferenstest av r (p-värde och BF)
Nollhypotes: korrelation i population = 0
Förekomst av stickprovskorrelationer antas vara normalfördelad
P-värde: från uppmätt r beräknas t-statistic
Bayesfaktorn: H1 exemplifierat med en “non-informative flat prior” (när man ej vet vad alternativhypotesen ska vara). Sedan kvoten mellan p-värde och BF. (?)
Meehls 6th law
“Everything correlates to some extent with everything else”
- Även pyttesmå korrelationer blir signifikanta om samplet är tillräckligt stort
I vilka situationer kan r bli missvisande och vad kan man göra för att undvika det?
- Icke-linjärt samband
- Outliers
- För begränsad variationsvidd (t.ex. för brett ålderspann)
- Två populationer
- Se till att variablerna är hyggligt normalfördelade och använd annars något icke-parametrisk test)
- Gör alltid en visuell inspektion av scatterplot
Enkel regression
Har en prediktor och en kriterievariabel
- Vill kunna predicera något
- Korrelation är ett mått på styrkan av sambandet mellan två variabler. Regression visar hur sambandet ser ut.
Enkel regressionsmodell
Y = a+bxX
- X = prediktorvariabel, OBV
- Y = predicerad kriterievariabel, BV
- a = skärningspunkt med Y
- b = lutning
Linjen Y=a+bxX går igenom
- interceptet a (=värdet av Y då X=0)
- medelvärdet för X och Y
b
Den icke standardiserade regressionskoefficienten
- Anger regressionslinjens lutning i måttenheter
- Besvarar frågan: Hur många skalsteg ökar Y då X ökar ett steg?
- Ju större b desto kraftigare lutning
- Uttrycks i skalenheter och resultat kan därför ej jämföras