Lineær regression og interaktive modeller Flashcards
Hvad er den identificerende antagelse i lineær regression?
Antagelse: At det gennemsnitlige fejlled er ukorreleret med X → dvs. fravær af selektionsbias
Kaldes uafhængigheds-antagelsen i regression: Der skal være uafhængighed mellem fejlledet og X
En meget hård antagelse
Hvad er problemet med at inddrage kontrolvariable i almindelig “vanilla” regression?
Når vi kontrollerer - eller holder nogle faktorer konstante - så er vi i gang med at re-vægte vores data.
Når vi kontrollerer prøver vi at si det varians fra i X og Y, der kan forklares af vores kontrolvariable.
Den “effektive sample” som regressionen bruger til genere sit estimat, kan ende med at stemme meget lidt overens med den population vi er interesserede i.
Hvad er en interaktionsmodel?
I interaktionsmodeller undersøger vi effekten af X på Y afhængigt af værdien på Z.
Matematisk gør vi det ved at inkludere et multipelt led mellem X og Z (altså et krydsprodukt af de to). Det man faktisk gør er at putte en lineær regression ind i en lineær regression.
Hvorfor er det svært at bedrive kausal inferens på baggrund af interaktionsmodeller?
- Så er der pludselig to variable, som vi skal have gode betingelser for at estimere kausale effekter på baggrund af.
- Dvs. man skal også tænke potentielle outcomes og selektionsbias ift. interaktionsvariablen → dvs.du skal jo egentlig helst have eksogen variation på både X og Z → og det har man jo sjældent.
- Interaktioner er ofte noget man bruger til at forsøge at komme tættere på mekanisme-forklaringer
Hvad dækker LIE-antagelsen over i interaktionsmodeller?
Vigtig antagelse om lineære interaktionseffekter, hvis en af variablene i interaktionen er kontinuert
Antagelse: når Z stiger med 1, så bør effekten af X på Y stige med det samme, og dette gælder for hele variationsbredden af Z
OBS: En meget stærk antagelse
Hvad er problemet med LIE-antagelsen?
- Ofte er interaktionseffekter ikke lineære: ofte vil man fx have en teori om, at effekten er stærk for lave niveauer af Z og så aftager som niveauet på Z stiger (eller omvendt).
- Estimaterne for interaktionseffekten vil være misvisende, hvis der ikke er common support på moderatoren
Så kan vi ende med at estimere en lineær regression, der baserer sig på meget få observationer: fordi der ikke er observationer på alle niveauer Z.
Der er mangel på common support - vi ekstrapolerer data til områder, hvor vi faktisk ikke har data
Hvad er de normale antagelser bag lineær regression?
- At sammenhængen mellem X og Y meningsfuldt kan beskrives ved hjælp af en lineær funktion: dvs. at en hældningskoefficient vil fortælle os noget meningsfuldt
- Uafhængige observationer: vi skal have fået vores observationer tilfældigt fra en population af observationer → dvs. der må ikke være en systematisk måde vi har indsamlet vores data på, der er relateret til vores variable.
- Variation i X i populationen: der skal være nogen i både treatment og kontrolgruppe
- Den del af Y der er uforklaret af X (fejlledet) skal være ukorreleret med alle vores X’er (dvs. også evt. kontrolvariable)
Hvis disse betingelser er opfyldt, så får vi et unbiased estimat for den kausale effekt.
CEF (ligningen for en lineær regression)
E(yIx)=konstanten/skæringspunktet + effekten af X/hældningskoefficienten + fejlledet
Linær regressions fleksibilitet
Lineær regression er et fleksibelt værktøj, der kan håndtere mange forskellige former for modeller.
Selvom én af de 4 antagelser er, at sammenhængen skal kunne beskrives lineært, så er denne også meget fleksibel, eftersom OLS også er god til at estimere andre former for sammenhænge (der ikke er lineære).
Derudover kan man i OLS modellere sine variable, hvis man ikke tror de er lineære - fx til:
Logaritmer
Polynomier
Hvad kan være løsningen hvis LIE antagelsen ikke holder i ens interaktion?
Brug en model, der tillader ikke lineære-interaktionseffekter
Fx ved at opdele din Z i 3 bins, hvor du tillader, at de rer forskellige interaktionseffekter inden for hver bin.
De lineære interaktioner i hver bin må gerne adskille sig fra hinanden (fx være positiv i den lave bin og negativ i den høje bin). Dvs. de giver interaktionseffekterne lov til at variere inden for hver bin.
Så kan man så sammenligne resultaterne fra den ikke-lineære model med den lineære, og se hvilken én der bedst beskriver data