Regressionsanalys Flashcards
Hur placeras regressionslinjen i förhållande till observerade datapunkter?
Så att residualerna blir så små som möjligt (det vill säga avstånden mellan predicerade och observerade värden).
Beskriv formeln för regressionslinjen (ledtråd: ”a”, ”b”).
y = a + bx
b beskriver lutningen på linjen (ökning i y när x ökar med ett)
a beskriver interceptet
Allt annat konstant, vad händer med regressionslinjen när korrelationen mellan prediktorn och utfallsvariabeln minskar?
Linjen blir mer flack. Formeln för b: b = r * (standardavvikelse för y / standardavvikelse för x) Om korrelationen (r) minskar så minskar även b, lutningen blir mindre.
Regressionslinjen går alltid genom en viss punkt. Vilken?
Medelvärdet för den beroende och medelvärdet för den oberoende variabeln (Mx;My).
På vilket sätt skiljer sig β (beta) från ”den ordinarie” regressionskoefficienten b? Vilken fördel har β jämfört med b?
Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning med beta. β anger hur många standardavvikelser värdet på y ökar för varje ökning med en standardavvikelse på x-variabeln.
Värdet på β påverkas inte av enheten man mäter i. Den indikerar prediktiv förmåga (till skillnad från b), eftersom den kan jämföras med andra standardiserade regressionskoefficienter.
Regressions SS
SS som återstår när observerade värden ersätts med predicerade värden. Vi vill att vår modell (det predicerade värdet) ska behålla så mycket varians som möjligt. Ju större regressions SS är i förhållande till residual SS desto mer av variansen i den beroende variabeln förklaras av vår modell (desto högre R-square får vi).
Residual SS (error)
SS som går förlorad när observerade värden ersätts med predicerade värden.
Between SS
Den SS som återstår om varje persons värde ersätts med resp. gruppmedelvärde.
Within SS
Den SS som förloras om varje värde ersätts med resp. gruppmedelvärde.
Vid regressionsanalys använder man sig av två olika frihetsgrader (df). Vad kallas dessa och hur beräknas de?
Regressionsfrihetsgrader (Reg.df): antalet prediktorer (p)
Residualfrihetsgrader (Res.df): Totala antalet personer - antalet prediktorer - 1 (N-p-1)
Vad står ”R” respektive ”R²” för?
R: korrelationen mellan predicerade och observerade y-värden
R² (R-square i SPSS output): Hur stor andel av variansen i BV (y) som kan förklaras av variansen i OV (x). Med andra ord är R²= förklarad varians
Vad har man för antaganden angående varians och fördelning i utfallsvariabeln vid enkel regressionsanalys?
Antagandet om homoscedasticitet innebär att variansen för y är homogen. Det är den om spridningen i variabeln y är ungefär lika stor för alla värden på x.
Antagandet om approximativt normalfördelade residualer innebär ungefär att y-värdena för varje x-värde bör vara normalfördelade.
Vad skiljer multipel från enkel regressionsanalys?
Man använder flera oberoende variabler (prediktorer) för att predicera en beroende variabel (y).
Vad innebär kollinearitet? Beskriv något mått på kollinearitet och någon tumregel vad den bör anta för värden.
Om en OV kan förklaras utifrån en annan OV sägs den ha kollinearitet. Denna OV bidrar inte så mycket till förklaringen av BV och kan innebära problem för modellen. T.ex. riskerar man att dra slutsatsen att en OV inte har nån effekt på BV trots att den har det.
Tolerance (bra om det är högt) > 0,4
Vad innebär ”adjusted R square”?
Förklarad varians (hur stor andel av variansen i BV som kan förklaras av variansen i OV) justerat för antal prediktorer och antal deltagare. Om man har många deltagare i förhållande till antal prediktorer blir skillnaden mellan adjusted R square och R square inte så stor.