Regressionsanalys Flashcards

1
Q

Hur placeras regressionslinjen i förhållande till observerade datapunkter?

A

Så att residualerna blir så små som möjligt (det vill säga avstånden mellan predicerade och observerade värden).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Beskriv formeln för regressionslinjen (ledtråd: ”a”, ”b”).

A

y = a + bx
b beskriver lutningen på linjen (ökning i y när x ökar med ett)
a beskriver interceptet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Allt annat konstant, vad händer med regressionslinjen när korrelationen mellan prediktorn och utfallsvariabeln minskar?

A
Linjen blir mer flack.
Formeln för b: b = r * (standardavvikelse för y / standardavvikelse för x)
Om korrelationen (r) minskar så minskar även b, lutningen blir mindre.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Regressionslinjen går alltid genom en viss punkt. Vilken?

A

Medelvärdet för den beroende och medelvärdet för den oberoende variabeln (Mx;My).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

På vilket sätt skiljer sig β (beta) från ”den ordinarie” regressionskoefficienten b? Vilken fördel har β jämfört med b?

A

Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning med beta. β anger hur många standardavvikelser värdet på y ökar för varje ökning med en standardavvikelse på x-variabeln.

Värdet på β påverkas inte av enheten man mäter i. Den indikerar prediktiv förmåga (till skillnad från b), eftersom den kan jämföras med andra standardiserade regressionskoefficienter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Regressions SS

A

SS som återstår när observerade värden ersätts med predicerade värden. Vi vill att vår modell (det predicerade värdet) ska behålla så mycket varians som möjligt. Ju större regressions SS är i förhållande till residual SS desto mer av variansen i den beroende variabeln förklaras av vår modell (desto högre R-square får vi).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Residual SS (error)

A

SS som går förlorad när observerade värden ersätts med predicerade värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Between SS

A

Den SS som återstår om varje persons värde ersätts med resp. gruppmedelvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Within SS

A

Den SS som förloras om varje värde ersätts med resp. gruppmedelvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vid regressionsanalys använder man sig av två olika frihetsgrader (df). Vad kallas dessa och hur beräknas de?

A

Regressionsfrihetsgrader (Reg.df): antalet prediktorer (p)

Residualfrihetsgrader (Res.df): Totala antalet personer - antalet prediktorer - 1 (N-p-1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vad står ”R” respektive ”R²” för?

A

R: korrelationen mellan predicerade och observerade y-värden

R² (R-square i SPSS output): Hur stor andel av variansen i BV (y) som kan förklaras av variansen i OV (x). Med andra ord är R²= förklarad varians

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad har man för antaganden angående varians och fördelning i utfallsvariabeln vid enkel regressionsanalys?

A

Antagandet om homoscedasticitet innebär att variansen för y är homogen. Det är den om spridningen i variabeln y är ungefär lika stor för alla värden på x.

Antagandet om approximativt normalfördelade residualer innebär ungefär att y-värdena för varje x-värde bör vara normalfördelade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad skiljer multipel från enkel regressionsanalys?

A

Man använder flera oberoende variabler (prediktorer) för att predicera en beroende variabel (y).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad innebär kollinearitet? Beskriv något mått på kollinearitet och någon tumregel vad den bör anta för värden.

A

Om en OV kan förklaras utifrån en annan OV sägs den ha kollinearitet. Denna OV bidrar inte så mycket till förklaringen av BV och kan innebära problem för modellen. T.ex. riskerar man att dra slutsatsen att en OV inte har nån effekt på BV trots att den har det.

Tolerance (bra om det är högt) > 0,4

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad innebär ”adjusted R square”?

A

Förklarad varians (hur stor andel av variansen i BV som kan förklaras av variansen i OV) justerat för antal prediktorer och antal deltagare. Om man har många deltagare i förhållande till antal prediktorer blir skillnaden mellan adjusted R square och R square inte så stor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vad kan man anta om ANOVA-tabellen vid en regressionsanalys visar på en signifikant F-kvot?

A

Att modellen förklarar mer varians än vad en modell helt utan prediktorer skulle göra (modellen är bättre än slumpen). Åtminstone en av prediktorerna kan antas ha ett samband som är starkare än 0 i populationen.

17
Q

Vad anger b- och β-koefficienterna vid en multipel regressionsanalys?

A

B: Hur mycket den beroende variabeln ökar (i skalsteg) när prediktorn ökar med 1 (skalsteg), givet att övriga prediktorer hålls konstanta.

Beta: Hur mycket den beroende variabeln ökar (i sd) när prediktorn ökar med 1 sd, givet att övriga prediktorer hålls konstanta.

18
Q

Enter

A

Alla valda OV tas med i modellen. Alla OV behandlas som om de skulle vara sist i hierarkin.

19
Q

Hierarkisk

A

OV tas med i en viss (bestämd) ordning. Effekten av en OV beräknas medan OV på högre nivå kontrolleras.

20
Q

Forward

A

Programmet väljer ut OV som förklarar mest varians, adderar sedan nästa OV o.s.v. OV tas med i modellen tills den förklarade variansen inte längre ökar signifikant.

21
Q

Backward

A

Alla OV tas med i modellen och sedan elimineras (successivt) de OV som inte bidrar signifikant till förklarad varians.

22
Q

Stepwise

A

Kombination av forward och backward.

23
Q

Beskriv, steg för steg, hur man skulle gå tillväga för att testa om en viss variabel X kan antas ha en kurvlinjär effekt på en annan variabel Y.

A
  1. Z-transformera regressionskoefficienten
  2. Kvadrera den Z-transformerade regressionskoefficienten
  3. Undersök sambandet på nytt, tillsammans med den ursprungliga prediktorn
24
Q

Beskriv, steg för steg, hur man skulle gå tillväga för att testa om två variabler X och Z kan antas ha en interaktionseffekt på en tredje variabel Y.

A
  1. Multiplicera de två variablerna X och Y (X*Y)

2. Undersök sambandet å nytt, tilllsammans med de ursprungliga prediktorerna X och Y

25
Q

Tänk dig att vi finner, vid en multipel regressionsanalys, att regressionskoefficienten för prediktor X är lika med +0,3, att regressionskoefficienten för prediktor Z är lika med -0,2, och att koefficienten för interaktionstermen X × Z är lika med +0,4 (alla koefficienter är signifikanta). Beskriv hur värdena +0,3; -0,2; och +0,4 kan tolkas.

A

När prediktorn X ökar med 1, så ökar den beroende variabeln med 0,3, givet att värdet på den andra prediktorn är genomsnittligt.

När prediktorn Z ökar med 1, så minskar den beroende variabeln med 0,2m givet att värdet på den andra prediktorn är genomsnittligt.

När den ena prediktorn ökar med 1, så ökar effekten av den andra med 0,4. T ex om prediktor X ökar från 0 (medelvärde när de är standardiserade) till 1, så ändras effekten av Z från -0,2 till –0,2 + 0,4 = 0,2.

26
Q

Säg att vi har en kategorivariabel med fyra kategorier som vi vill ta med som en prediktor i en regressionsanalys. Beskriv hur man skall göra.

A
  1. Vi skapar 4-1=3 dikotoma “dummy-variabler”.
  2. Om en observation är av rätt kategori får det värdet 1, alla andra blir 0.
  3. Den sista fjärde kategorin får ingen dummyvariabel utan blir referenskategori.
  4. Vi kör analysen och jämför dummy-variablerna mot den sammanslagna kategorivariabeln. Om det finns en signifikant skillnad i varians mellan den och en dummy-variabel vet vi om en kategori skiljer sig signifikant från de andra.
27
Q

När är logistisk regression att föredra framför linjär regression? Varför?

A

När den beroende variabeln är dikotom. Logistisk gör det möjligt att predicera värden på dikotoma variabler eftersom vi får oddskvoter.

28
Q

Säg att en kontinuerlig prediktor X får en regressionskoefficient på +0,2 (p < .05) vid en logistisk regression (binär). Beskriv vad värdet +0,2 står för.

A

För varje ökning av X med 1 ökar den naturliga logaritmen för oddsen att tillhöra den undersökta kategorin med 0,2. Alltså: Oddsen ökar när prediktorn ökar!

29
Q

Diagnostik

A

(1) Residualerna bör i genomsnitt vara ungefär noll för alla nivåer av de predicerade värdena. Detta kan undersökas genom att titta på en scatterplot med predicerade värden på x-axeln och med residualer på y-axeln. (Det ska inte se ut att finnas något samband)
(2) Ingen person bör ha en ”otillbörligt” stark effekt på framräknat intercept eller regressionskoefficient. Detta kan undersökas genom att titta på histogram över de standardiserade DfBeta-värdena. (Vi vill inte ha några outliers)