L7 Multipel lineær regression Flashcards
Hvordan fortolkes hældningskoefficienten i multipel lineær regression?
Ændringen i y, når x stiger med 1, når kontrolvariable holdes konstant (!!)
Hvad sker der (rent teknisk) når vi kontrollerer?
Vi fjerner al variation i X, der kan forklares af kontrolvariable (Z1, Z2 mv.)
Vi tager residualerne ”med videre” fra regressionen af X2 på Y - altså det som regressionslinjen ikk kan forklare.
- Disse residualer bruges herfra i en ny regression af X1 på y
But dont worry - stata klarer arbejdet
Hvad sker der, hvis der inkluderes kontrolvariable, som kun påvirker x?
Så får vi mere multikollinearitet og dermed større standardfejl. Jo mindre var(x) der er tilbage, jo større standardfejl.
Hvis SE(beta1-hat) stiger markant ved inddragelse af kontrolvariable, så tjek om der er meget stærk korrelation mellem z og x.
Hvad sker der, hvis der inkluderes kontrolvariable, som kun påvirker y? (og som ikke påvirkes af x)
Så bliver standardfejlen mindre. SE(beta1) afhænger af variationen omkring regressionslinjen (som tæller). Når der kommer mindre variation i y, vil variationen omkring regressionslinjen blive mindre = mindre SE
Hvad sker, hvis man inkluderer variable, som påvirkes af x og som påvirker y?
Post treament bias!
Hvornår skal man inkludere kontrolvariable? - hvad er kriteriet for udvælgelse?
Når de både påvirker x og y (udeladt variable bias). Dermed afhjælper de problemet med selektionsbias.
Hvilke typer kontrolvariable er typisk gode?
Demografiske, som med sikkerhed er bestemt før x og y (køn, alder mv.).
Hvilke antagelser gælder for MLR? Hvordan undersøges de?
Antagelser omkring design:
- uafhængige observationer
- fravær af selektionsbias eller E(UlX)=0
Antagelser der undersøges grafisk:
- linearitet: scatterplot (eller ACPR ved MLR)
- outliers: scatterplot (eller ACPR ved MLR)
- homoskedasticitet: RVP plpot
Antagelser, som STATA undersøger
- fravær af perfekt multikollinearitet
Er X ukorreleret med kontrolvariable?
Ja pr. design.
Hvad sker der med kontrolvariablene, når x+1
De holdes konstante.
Er alt bare perfekt, hvis du har kontrolleret, for alle relevante variable?
Der er forbehold omkring post-treatment bias, målefejl i variable (målingsvaliditet) og misspecifikation (transformation).
Altid bekymring om selektionsbias pga. design.
Hvad gør du, hvis er i tvivl om en kontrolvariabel er post-treatment
Lave en model med og uden (skriveøvelse 3)! Ændrer koefficienterne sig, så har du problemet. Er det post-treatment eller selektionsbias?
Hvilke ting kan gøre at de over- eller undervurderer en effekt?
Post-treatment bias
UVB
Målefejl
Misspecifikation
Hvordan fungerer kategoriske variable i en regression (x eller kontrolvariable).
i.variable: STATA omkoder automatisk kategoriske variable til en række dummyvariable (x-1).
Den udeladte kategori er referencekategori. Hældningskoefficienten bliver således udtryk for forskellen mellem referencekategorien og dummy.
Eks.
Treatment = reference
Civic duty = forskel mellem treatment og civic duty gruppen
Hvordan tolkes konstanten i MLR (både på interval og kategoriske)?
Når Y og samtlige kontrolvariable holdes på 0. For kategoriske: gennemsnittet for Y i ref. kategorien