L7 Multipel lineær regression Flashcards

1
Q

Hvordan fortolkes hældningskoefficienten i multipel lineær regression?

A

Ændringen i y, når x stiger med 1, når kontrolvariable holdes konstant (!!)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvad sker der (rent teknisk) når vi kontrollerer?

A

Vi fjerner al variation i X, der kan forklares af kontrolvariable (Z1, Z2 mv.)

Vi tager residualerne ”med videre” fra regressionen af X2 på Y - altså det som regressionslinjen ikk kan forklare.
- Disse residualer bruges herfra i en ny regression af X1 på y

But dont worry - stata klarer arbejdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad sker der, hvis der inkluderes kontrolvariable, som kun påvirker x?

A

Så får vi mere multikollinearitet og dermed større standardfejl. Jo mindre var(x) der er tilbage, jo større standardfejl.

Hvis SE(beta1-hat) stiger markant ved inddragelse af kontrolvariable, så tjek om der er meget stærk korrelation mellem z og x.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad sker der, hvis der inkluderes kontrolvariable, som kun påvirker y? (og som ikke påvirkes af x)

A

Så bliver standardfejlen mindre. SE(beta1) afhænger af variationen omkring regressionslinjen (som tæller). Når der kommer mindre variation i y, vil variationen omkring regressionslinjen blive mindre = mindre SE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad sker, hvis man inkluderer variable, som påvirkes af x og som påvirker y?

A

Post treament bias!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvornår skal man inkludere kontrolvariable? - hvad er kriteriet for udvælgelse?

A

Når de både påvirker x og y (udeladt variable bias). Dermed afhjælper de problemet med selektionsbias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvilke typer kontrolvariable er typisk gode?

A

Demografiske, som med sikkerhed er bestemt før x og y (køn, alder mv.).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvilke antagelser gælder for MLR? Hvordan undersøges de?

A

Antagelser omkring design:

  • uafhængige observationer
  • fravær af selektionsbias eller E(UlX)=0

Antagelser der undersøges grafisk:

  • linearitet: scatterplot (eller ACPR ved MLR)
  • outliers: scatterplot (eller ACPR ved MLR)
  • homoskedasticitet: RVP plpot

Antagelser, som STATA undersøger
- fravær af perfekt multikollinearitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Er X ukorreleret med kontrolvariable?

A

Ja pr. design.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad sker der med kontrolvariablene, når x+1

A

De holdes konstante.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Er alt bare perfekt, hvis du har kontrolleret, for alle relevante variable?

A

Der er forbehold omkring post-treatment bias, målefejl i variable (målingsvaliditet) og misspecifikation (transformation).

Altid bekymring om selektionsbias pga. design.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad gør du, hvis er i tvivl om en kontrolvariabel er post-treatment

A

Lave en model med og uden (skriveøvelse 3)! Ændrer koefficienterne sig, så har du problemet. Er det post-treatment eller selektionsbias?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvilke ting kan gøre at de over- eller undervurderer en effekt?

A

Post-treatment bias
UVB
Målefejl
Misspecifikation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvordan fungerer kategoriske variable i en regression (x eller kontrolvariable).

A

i.variable: STATA omkoder automatisk kategoriske variable til en række dummyvariable (x-1).

Den udeladte kategori er referencekategori. Hældningskoefficienten bliver således udtryk for forskellen mellem referencekategorien og dummy.

Eks.
Treatment = reference
Civic duty = forskel mellem treatment og civic duty gruppen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvordan tolkes konstanten i MLR (både på interval og kategoriske)?

A

Når Y og samtlige kontrolvariable holdes på 0. For kategoriske: gennemsnittet for Y i ref. kategorien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

g

A

q

17
Q

Er konstanten meningsfuld i MLR?

A

Nej ikke altid. Fordi Y og alle kontrolvariabel er 0 i skæringen, så vil det ikke altid være substantielt meningsfuldt.

Hvis alder=0 i konstanten vil en tolkning af den sjældent være meningsfuld

18
Q

Hvordan estimeres parametrene i MLR?

A

Tankegange er den samme som fra lineær regression, altså minimering af SSR (summen af kvardrede residualer). Her skal vi bare finde det hyperplan, som har den mindste kvadrede afvigelse.

Altså en flerdimensionel ret linje. Samme problem: vi skal finde det rette ’plan’, som minimerer afstanden mellem planet og det enkelte residual.

19
Q

Hvorfor bruger vi justeret R2?

A

R2 stiger jo flere variable, der inddrages. Derfor må vi lave en justeret R2, der tager højde for antallet af variable (frihedsgrader)

20
Q

Hvordan fortolkes kontrolvariablenes hældningskoefficienter (eks. Beta2).

A

Hvor meget ændrer E(Y), når Z ændres x+1 (x holdes konstant). Den variation, som er uafhængig af x (beta1).

OBS: det er dog ikke substantielt relevant at forholde sig til kontrolvariablenes hældningskoefficienter.

21
Q

Hvad er det udeladt variabel bias?

A

Udeladt variabel bias, er det selektionsbias, der opstår, når vi undlader at kontrollere for en vigtig variabel. Nogle gange kan det være en uobserveret variabel

22
Q

Hvilken effekt har UVB på hældningskoefficienten?

A

Den kan enten over- eller undervurdere effekten.
B1hat = B1 + AXB

Hvor A og B er henholdvis kontrolvariablens påvirkning på x og y.

AXB = - * - = overvurdering
AXB = + * + = overvurdering
AXB = - * + = undervurdering
23
Q

Hvad er logikken bag post-treatment bias? Hvad gør det ved effekten?

A

Post-treatment bias opstår, hvis man kontrollerer for en variabel, der ligger efter x i tid og samtidig forventer at x har en påvirkning på denne.

Hvis vi vælger at kontrollere for sådan en variabel, renser vi for noget variation, som rent faktisk skyldes x og vi vil derfor får en over- eller undervurderet effekt! nedernnnnnnnn

24
Q

Hvad er perfekt multikollinearitet?

A

Perfekt multikollinearitet opstår, når der ingen selvstændig variation er tilbage for x, efter kontrol.

“Der må ikke være en perfekt forudsigeligt og ikke-tilfældigt forhold mellem to variable”.

Eks. beskæftigelse og sektor (not good).

25
Q

Forklar ACPR-plot :) RIP dig :)))

A

Post-estimations-kommando
Argumented component plus residual plot

Partielt scatterplot for X1 (skal dog laves for alle kontinuerte z’er som tjek af antagelser)

Tager residualerne fra regressionen af z-variablene på y og plotter dem overfor værdierne på X1

26
Q

Hvordan hænger UVB sammen med selektionsbias og E(u|x) = 0?

A

UVB er med til at skabe selektionsbias. Hvis vi ikke kontrollerer for en vigtig kontrolvariabel (som har substantiel påvirkning på både x og y), så får vi et selektionsproblem

27
Q

Hvad definerer en god og en dårlig kontrolvariabel?

A

God: påvirker x og y

Dårlig: post-treatment. påvirker udelukkende en variabel

28
Q

Skal du tjekke antagelser for kontrolvariable?

A

Ja

29
Q

Hvad viser et marginsplot?

A

Forudsagte effekter for forskellige værdier af x

30
Q

Hvad bruger man marginskommandoen til?

A

Udregner de betingede gennemsnit for forskellige niveauer af x

31
Q

Hvad er intuitionen bag post-treatment bias?

A

Den er ikke årsag til initielle forskellige mellem grupperne, fordi de ligger efter tid.

32
Q

Hvad viser ACPR-plot?

A

Den viser sammenhængen mellem y og x, renset for al den variation (alle de residualer), som kan forklares af kontrolvariable.

33
Q

Hvad er løsningen på multikollinearitet?

A

Hvis to variable er højt korrelerede, så kan det måske give mening at slå dem sammen som indeks?

34
Q

Hvad er trade-off mellem multikollinearitet og usikkerhed (ift. større SE)

A

Hvis det er en vigtig kontrolvariabel, som skaber multikollinearitet, så vil vi hellere have lidt mere usikkerhed og dermed acceptere en grad af multikollinearitet.

Så ved vigtig z
multi > usikkerhed

35
Q

Er SE > eller < end robuste SE?

A

SE < robust SE