Udvidet regression pointer Flashcards
Hvordan diagnosticeres ikke-linearitet?
- inspicer (fx ACPR) + teori
- transformer hvis log
- estimer
- inspicer (fx ACPR)
- rapporter (gerne med graf)
På hvilke tre måder kan en logaritmisk transformation benyttes til at imødekomme ikke-linearitet?
Ikke-lineære sammenhænge mellem X og Y kan transformeres til linearitet.
* lineær-log, hvis gulv/loft. her logges X. Tolkning af hældning er B/100 stigning pr. 1% stigning i X.
* log-lineær, hvis stigende effekt. her logges y. tolkning af hældning er B*100 i % stigning i Y når X stiger med 1 enhed.
* log-log. Her logges begge. procentvis ændring i Y når X ændres med 1%.
Husk altid teori og graf
Hvad er polynomisk regression og hvordan kan den imødekomme ikke-linearitet?
Her kan sammenhængen være kurve-lineær fx konkave eller konveks.
reg y c.x##c.x i stata tilfølger X^2 led.
B1 er hældningen ved 0
2B2 ædringen i hældningen når x stiger med 1
også muligt med flere knæk (polynomier af højere grad).
Hvad er forskellen på en logaritmisk transformation og polynomisk regression?
Flere muligheder hvis non-linearitet. Tjek altid teori og graf evt modellens fit.
Hvorfor kan mediationsanalyse være svært at gøre ordentligt?
Man kan ønske at bruge post-treatment variable til at forstå mekanismen hvorigennem X påvirker Y.
Udfordring: det introducerer selekionsbias, hvis M er korreleret med fejlleddet.
Dont do this!!
Margins kommandoen
hvis dydx så beregnes marginal effekter.
hvis kun at (x1 x2 x3) så regnes forudsagte værdier af Y for hhv x1 x2 og x3.
Hvordan bliver konstantens tolkning, når der er blevet logaritmetransformeret?
Hvis X er logaritmetransformeret, så vil tolkningen af konstanten være, at det er gennemsnittet i Y, når log(x)=0. Dvs. når x=1. Derfor er konstanten gennemsnittet i Y når X=1.
Havde Y været logaritmetransformeret, ville konstanten kunne tolkes som gennemsnittet i log(Y) når X=0.
Hvad betyder det, når der er interaktion mellem to variabler?
når effekten af en uafhængig variabel afhænger af værdien på en anden uafhængig variabel.
Tilføjes blot et interaktionsled til den multiple regression. Interaktionsleddet består af krydsproduktet mellem X og Z.
Det er afgørende at Z påvirker sammenhængen mellem X og Y og IKKE Y.
Hvordan fortolkes regressionskoefficienterne når: β1X + β2Z + β3XZ?
β0: E(Y) når X=0 og Z=0 (kontrol variable er også 0)
β1: hvor meget stiger Y når X+1 og Z=0
β2: hvor meget stiger Y når Z+1og X=0. Forskel i E(Y) mellem Z og Z+1 når X=0.
β3: forskel i sammenhæng mellem X og Y når Z stiger med én
Kontrolvariable ændrer ”kun” på i hvilken grad vi kan udtale os kausalt på baggrund af resultaterne og at koefficienter skal tolkes som ”…. Når vi holder *kontrolvariabel* konstant”.
Hvad viser et marginaleffekt plot og hvordan er det forskelligt fra et plot der viser forudsagt Y?
Et marginaleffekt plot viser effekten af X1 på Y ved en række Z værdier.
Dette adskiller sig fra et plot der viser forudsagte Y. Her er Z holdt konstant på fx tre Z-værdier (typisk lav, middel, høj).
Laves med margins og marginsplot
Hvilken yderligere linearitetsantagelse gør vi os, når den interagerende variabel er kontinuer?
Samme antagelser som ved lineær regression
- ingen selektionsbias
- linearitet (i grundleddene)
- fravær af outliers
- uafhængige observationer
ingen perfekt mulitkollinearitet
Dertil:
- nu opmærksom på både X og Z særligt i forbindelse med selektionsbias.
- lineær interaktionseffekt (brug interflex med wald-test)
- common support
Hvordan kan man undersøge om en interaktiv sammenhæng med en kontinuert variabel er lineær?
1) Tjek først om sammenhængen ml. Y og X samt Y og Z er lineær (med fx Lowess). Hvis ikke er det måske nødvendigt at transformere enten Y, X eller Z
2) Brug interflex kommandoen til at tjekke om effekten af X ændres lineært henover Z.
Det Interflex gør er at estimere interaktionen separat indenfor hver gruppe og spytter den estimerede marginale effekt ud for medianen i den pågældende gruppe. På den måde løsner den op for linearitetsantagelsen da effekten af X på Y nu kan variere mellem grupperne.
giver visuelt tjek og signifikanttest om linearitetsantagelsen holder.
Hvorfor er der større risiko for ekstrapolation ved interaktionssammenhænge - og hvad er ekstrapolation?
Ekstrapolation betyder, at man konkluderer for meget ud fra for små stikprøver/for få respondenter.
Der er større risiko for ekstrapolation ved interaktion, fordi man jo tester effekten på Y når en af de andre variable stiger med en OG den anden holdes konstant (og der er måske ikke så mange observationer, hvor det sker…).
Hvad kendetegner grupperet data?
Grupperet data er når data er indlejret i grupper. Konkrete grupper: fx elever i skole, borgere i lande. Abstrakte grupper: fx det samme individ målt flere gange (paneldata eller eksperiment med gentagne treatments).
Fedt: vi kan udnytte det til at afdæmpe selektionsbias (fixed effects)
MEN: skaber afhængighed (i.i.d. nope) så nogen gange behov for klyngerobuste standard fejl.
Hvad er paneldata?
data fra flere enheder (i) hvor hver enhed er observeret på to eller flere tidspunkter (t). Fx cigaret forbrug og priser over tid. Data siges derfor at være grupperet i tid og rum.
Hjælper os med kombination med fixed effects meget med at bedrive kausal inferens.
Det giver dog også nogle udfordringer mht. statistisk inferens, som vi lige skal imødekomme med klyngejusterede standardfejl.