Regressionsanalys Flashcards
Hur placeras regressionslinjen i förhållande till observerade datapunkter?
Så att residualerna blir så små som möjligt (det vill säga avstånden mellan predicerade och observerade värden).
Beskriv formeln för regressionslinjen (ledtråd: ”a”, ”b”).
y = a + bx
b beskriver lutningen på linjen (ökning i y när x ökar med ett)
a beskriver interceptet
Allt annat konstant, vad händer med regressionslinjen när korrelationen mellan prediktorn och utfallsvariabeln minskar?
Linjen blir mer flack. Formeln för b: b = r * (standardavvikelse för y / standardavvikelse för x) Om korrelationen (r) minskar så minskar även b, lutningen blir mindre.
Regressionslinjen går alltid genom en viss punkt. Vilken?
Medelvärdet för den beroende och medelvärdet för den oberoende variabeln (Mx;My).
På vilket sätt skiljer sig β (beta) från ”den ordinarie” regressionskoefficienten b? Vilken fördel har β jämfört med b?
Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning med beta. β anger hur många standardavvikelser värdet på y ökar för varje ökning med en standardavvikelse på x-variabeln.
Värdet på β påverkas inte av enheten man mäter i. Den indikerar prediktiv förmåga (till skillnad från b), eftersom den kan jämföras med andra standardiserade regressionskoefficienter.
Regressions SS
SS som återstår när observerade värden ersätts med predicerade värden. Vi vill att vår modell (det predicerade värdet) ska behålla så mycket varians som möjligt. Ju större regressions SS är i förhållande till residual SS desto mer av variansen i den beroende variabeln förklaras av vår modell (desto högre R-square får vi).
Residual SS (error)
SS som går förlorad när observerade värden ersätts med predicerade värden.
Between SS
Den SS som återstår om varje persons värde ersätts med resp. gruppmedelvärde.
Within SS
Den SS som förloras om varje värde ersätts med resp. gruppmedelvärde.
Vid regressionsanalys använder man sig av två olika frihetsgrader (df). Vad kallas dessa och hur beräknas de?
Regressionsfrihetsgrader (Reg.df): antalet prediktorer (p)
Residualfrihetsgrader (Res.df): Totala antalet personer - antalet prediktorer - 1 (N-p-1)
Vad står ”R” respektive ”R²” för?
R: korrelationen mellan predicerade och observerade y-värden
R² (R-square i SPSS output): Hur stor andel av variansen i BV (y) som kan förklaras av variansen i OV (x). Med andra ord är R²= förklarad varians
Vad har man för antaganden angående varians och fördelning i utfallsvariabeln vid enkel regressionsanalys?
Antagandet om homoscedasticitet innebär att variansen för y är homogen. Det är den om spridningen i variabeln y är ungefär lika stor för alla värden på x.
Antagandet om approximativt normalfördelade residualer innebär ungefär att y-värdena för varje x-värde bör vara normalfördelade.
Vad skiljer multipel från enkel regressionsanalys?
Man använder flera oberoende variabler (prediktorer) för att predicera en beroende variabel (y).
Vad innebär kollinearitet? Beskriv något mått på kollinearitet och någon tumregel vad den bör anta för värden.
Om en OV kan förklaras utifrån en annan OV sägs den ha kollinearitet. Denna OV bidrar inte så mycket till förklaringen av BV och kan innebära problem för modellen. T.ex. riskerar man att dra slutsatsen att en OV inte har nån effekt på BV trots att den har det.
Tolerance (bra om det är högt) > 0,4
Vad innebär ”adjusted R square”?
Förklarad varians (hur stor andel av variansen i BV som kan förklaras av variansen i OV) justerat för antal prediktorer och antal deltagare. Om man har många deltagare i förhållande till antal prediktorer blir skillnaden mellan adjusted R square och R square inte så stor.
Vad kan man anta om ANOVA-tabellen vid en regressionsanalys visar på en signifikant F-kvot?
Att modellen förklarar mer varians än vad en modell helt utan prediktorer skulle göra (modellen är bättre än slumpen). Åtminstone en av prediktorerna kan antas ha ett samband som är starkare än 0 i populationen.
Vad anger b- och β-koefficienterna vid en multipel regressionsanalys?
B: Hur mycket den beroende variabeln ökar (i skalsteg) när prediktorn ökar med 1 (skalsteg), givet att övriga prediktorer hålls konstanta.
Beta: Hur mycket den beroende variabeln ökar (i sd) när prediktorn ökar med 1 sd, givet att övriga prediktorer hålls konstanta.
Enter
Alla valda OV tas med i modellen. Alla OV behandlas som om de skulle vara sist i hierarkin.
Hierarkisk
OV tas med i en viss (bestämd) ordning. Effekten av en OV beräknas medan OV på högre nivå kontrolleras.
Forward
Programmet väljer ut OV som förklarar mest varians, adderar sedan nästa OV o.s.v. OV tas med i modellen tills den förklarade variansen inte längre ökar signifikant.
Backward
Alla OV tas med i modellen och sedan elimineras (successivt) de OV som inte bidrar signifikant till förklarad varians.
Stepwise
Kombination av forward och backward.
Beskriv, steg för steg, hur man skulle gå tillväga för att testa om en viss variabel X kan antas ha en kurvlinjär effekt på en annan variabel Y.
- Z-transformera regressionskoefficienten
- Kvadrera den Z-transformerade regressionskoefficienten
- Undersök sambandet på nytt, tillsammans med den ursprungliga prediktorn
Beskriv, steg för steg, hur man skulle gå tillväga för att testa om två variabler X och Z kan antas ha en interaktionseffekt på en tredje variabel Y.
- Multiplicera de två variablerna X och Y (X*Y)
2. Undersök sambandet å nytt, tilllsammans med de ursprungliga prediktorerna X och Y
Tänk dig att vi finner, vid en multipel regressionsanalys, att regressionskoefficienten för prediktor X är lika med +0,3, att regressionskoefficienten för prediktor Z är lika med -0,2, och att koefficienten för interaktionstermen X × Z är lika med +0,4 (alla koefficienter är signifikanta). Beskriv hur värdena +0,3; -0,2; och +0,4 kan tolkas.
När prediktorn X ökar med 1, så ökar den beroende variabeln med 0,3, givet att värdet på den andra prediktorn är genomsnittligt.
När prediktorn Z ökar med 1, så minskar den beroende variabeln med 0,2m givet att värdet på den andra prediktorn är genomsnittligt.
När den ena prediktorn ökar med 1, så ökar effekten av den andra med 0,4. T ex om prediktor X ökar från 0 (medelvärde när de är standardiserade) till 1, så ändras effekten av Z från -0,2 till –0,2 + 0,4 = 0,2.
Säg att vi har en kategorivariabel med fyra kategorier som vi vill ta med som en prediktor i en regressionsanalys. Beskriv hur man skall göra.
- Vi skapar 4-1=3 dikotoma “dummy-variabler”.
- Om en observation är av rätt kategori får det värdet 1, alla andra blir 0.
- Den sista fjärde kategorin får ingen dummyvariabel utan blir referenskategori.
- Vi kör analysen och jämför dummy-variablerna mot den sammanslagna kategorivariabeln. Om det finns en signifikant skillnad i varians mellan den och en dummy-variabel vet vi om en kategori skiljer sig signifikant från de andra.
När är logistisk regression att föredra framför linjär regression? Varför?
När den beroende variabeln är dikotom. Logistisk gör det möjligt att predicera värden på dikotoma variabler eftersom vi får oddskvoter.
Säg att en kontinuerlig prediktor X får en regressionskoefficient på +0,2 (p < .05) vid en logistisk regression (binär). Beskriv vad värdet +0,2 står för.
För varje ökning av X med 1 ökar den naturliga logaritmen för oddsen att tillhöra den undersökta kategorin med 0,2. Alltså: Oddsen ökar när prediktorn ökar!
Diagnostik
(1) Residualerna bör i genomsnitt vara ungefär noll för alla nivåer av de predicerade värdena. Detta kan undersökas genom att titta på en scatterplot med predicerade värden på x-axeln och med residualer på y-axeln. (Det ska inte se ut att finnas något samband)
(2) Ingen person bör ha en ”otillbörligt” stark effekt på framräknat intercept eller regressionskoefficient. Detta kan undersökas genom att titta på histogram över de standardiserade DfBeta-värdena. (Vi vill inte ha några outliers)