L12 Dikotome afhængige Flashcards
Hvordan fortolkes hældningskoefficienten i logistisk regression?
Ændring i logitsandsynlighed for for Y=1 (treatment), når x ændres 1.
Hvordan fortolkes hældningskoefficienten i den lineære sandsynlighedsmodel?
Ændringen i sandsynlighed for Y=1 (treatment), når x ændres 1.
Hvad er forskellen på ‘forskel i gennemsnit’ og dikotom afhængig?
Dikotom afhænig vs. forskel i gennemsnit: uafhængig dikotom
Hvorfor er transformation ikke en løsning for den lineære sandsynlighedsmodel ift. gulv- og lofteffekter?
Den er dikotom, så det giver samme problem trods transformation.
Hvad er den lineære sandsynlighedsmodel (LSM)?
Dikotom afhængig, hvor beta1 bliver ændring i sandsynlighed for y=1, når x+1.
E(Y)=Pr(Y=1)
Hvorfor kan en LSM generere forudsagte sandsynligheder der ligger over 1 eller under 0?
Fordi den ikke tager højde for gulv- og loftseffekter. Den er sgu bare lineær
Hvad er en logistisk regressionsmodel?
En logistisk regressionsmodel er logisk transformation af y, som tager højde for gulv- og loft effekter. Modellen er lineær i logitsandsynligheden.
Pr(Y=1 l X1…Xk) er mellem 0 og 1, og derfor giver det empirisk bedre mening.
Dog bliver effekten referenceafhængig (hvor er du på x). Kontrolvariablene er ikke lineært afhængige af x (svært at tolke multivariat).
Hvordan ser sammenhængen ud, når Y er en logistisk funktion af X?
S-form. Tager højde for gulv- og lofteffekter
Eksponentielt stigende –> lineær på midten –> eksponentiel aftagende
Hvordan kan man fortolke parametrene i den logistiske regressionsmodel?
Det er bøvlet. Når x+1, så stiger logitsandsynligheden for Y=1 med beta1.
- sig noget om retningen af sammenhængen
- signifikansen
Pseudo R^2: eks. 0,6. Vi kan forklare ca. 60% af vores afhængige variable med vores uafhængige. Vi bliver 60% bedre til at ’gætte’ vores afhængige.
Chi-squared test: H0: variablene i modellen forklarer intet.
Log-likelihood estimator: jo tættere på nul, jo bedre end estimater (pandang til RMSE).
Hvordan beregnes, visualiseres og fortolkes effekten af X i en logistisk regressionsmodel?
Effekten af x på y i en logistisk model kan beregnes på flere måder:
- Log-odds: logitsandsynligheden til Y=1, når x stiger med 1
- Odds-ratios
- AME: gennemsnitlige marginale effekt af x på y.
Fortolkes:
Generelt bare noget bøf at tolke på log-odds, derfor tolker vi ofte på AME ved margins, dydx(var*). Eller kigge på de forudsagte sandsynligheder ved forskellige niveauer af x (eks. interkvartiler) ved margins, at
Visuelt:
Marginscontplot - viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x
Hvilke antagelser gælder for LSM?
Der gælder samme antagelser som for regression:
- Linearitet (pas på gulv- og lofteffekter)
- Outliers (særligt ekstrem x)
- Uafhængige observationer
- Fravær af heteroskedasticitet
Ved kontrolvariable
- Fravær af perfekt multikollinearitet
Hvad kan problemet være ved at bruge LSM ift. dikotome afhængige?
LSM tager ikke højde for gulv- og loftseffekter (hvilket ikke substantielt giver mening, når y kun tager værdier, der enten er 0 eller 1) - vi kan ikke antage linearitet
Hvorfor er data altid heteroskedastisk ved dikotome afhængig?
Der gælder altid heteroskedasticitet, da variansen omkring regressionslinjen aldrig kan være homogen: derfor altid robuste SE
- Variansen vil altid være størst omkring 0,5 og aftager mod hhv. 1 og 0, da der kun ligger observationer ved 0 og 1 (dummy)
Hvad er log-odds?
Logit-sandsynligheden for y=1 med beta1, når x stiger med 1.
Går fra -uendelig til uendelig
0 er lig 50%
Hvorfor linearitetsantagelsen lidt funky ved LSM?
Linearitet er lidt en dårlig antagelse pga. gulv og lofteffekter. Den kan forudsige sandsynligheder >1 og <0. Det giver empirisk ingen mening.