L12 Dikotome afhængige Flashcards
Hvordan fortolkes hældningskoefficienten i logistisk regression?
Ændring i logitsandsynlighed for for Y=1 (treatment), når x ændres 1.
Hvordan fortolkes hældningskoefficienten i den lineære sandsynlighedsmodel?
Ændringen i sandsynlighed for Y=1 (treatment), når x ændres 1.
Hvad er forskellen på ‘forskel i gennemsnit’ og dikotom afhængig?
Dikotom afhænig vs. forskel i gennemsnit: uafhængig dikotom
Hvorfor er transformation ikke en løsning for den lineære sandsynlighedsmodel ift. gulv- og lofteffekter?
Den er dikotom, så det giver samme problem trods transformation.
Hvad er den lineære sandsynlighedsmodel (LSM)?
Dikotom afhængig, hvor beta1 bliver ændring i sandsynlighed for y=1, når x+1.
E(Y)=Pr(Y=1)
Hvorfor kan en LSM generere forudsagte sandsynligheder der ligger over 1 eller under 0?
Fordi den ikke tager højde for gulv- og loftseffekter. Den er sgu bare lineær
Hvad er en logistisk regressionsmodel?
En logistisk regressionsmodel er logisk transformation af y, som tager højde for gulv- og loft effekter. Modellen er lineær i logitsandsynligheden.
Pr(Y=1 l X1…Xk) er mellem 0 og 1, og derfor giver det empirisk bedre mening.
Dog bliver effekten referenceafhængig (hvor er du på x). Kontrolvariablene er ikke lineært afhængige af x (svært at tolke multivariat).
Hvordan ser sammenhængen ud, når Y er en logistisk funktion af X?
S-form. Tager højde for gulv- og lofteffekter
Eksponentielt stigende –> lineær på midten –> eksponentiel aftagende
Hvordan kan man fortolke parametrene i den logistiske regressionsmodel?
Det er bøvlet. Når x+1, så stiger logitsandsynligheden for Y=1 med beta1.
- sig noget om retningen af sammenhængen
- signifikansen
Pseudo R^2: eks. 0,6. Vi kan forklare ca. 60% af vores afhængige variable med vores uafhængige. Vi bliver 60% bedre til at ’gætte’ vores afhængige.
Chi-squared test: H0: variablene i modellen forklarer intet.
Log-likelihood estimator: jo tættere på nul, jo bedre end estimater (pandang til RMSE).
Hvordan beregnes, visualiseres og fortolkes effekten af X i en logistisk regressionsmodel?
Effekten af x på y i en logistisk model kan beregnes på flere måder:
- Log-odds: logitsandsynligheden til Y=1, når x stiger med 1
- Odds-ratios
- AME: gennemsnitlige marginale effekt af x på y.
Fortolkes:
Generelt bare noget bøf at tolke på log-odds, derfor tolker vi ofte på AME ved margins, dydx(var*). Eller kigge på de forudsagte sandsynligheder ved forskellige niveauer af x (eks. interkvartiler) ved margins, at
Visuelt:
Marginscontplot - viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x
Hvilke antagelser gælder for LSM?
Der gælder samme antagelser som for regression:
- Linearitet (pas på gulv- og lofteffekter)
- Outliers (særligt ekstrem x)
- Uafhængige observationer
- Fravær af heteroskedasticitet
Ved kontrolvariable
- Fravær af perfekt multikollinearitet
Hvad kan problemet være ved at bruge LSM ift. dikotome afhængige?
LSM tager ikke højde for gulv- og loftseffekter (hvilket ikke substantielt giver mening, når y kun tager værdier, der enten er 0 eller 1) - vi kan ikke antage linearitet
Hvorfor er data altid heteroskedastisk ved dikotome afhængig?
Der gælder altid heteroskedasticitet, da variansen omkring regressionslinjen aldrig kan være homogen: derfor altid robuste SE
- Variansen vil altid være størst omkring 0,5 og aftager mod hhv. 1 og 0, da der kun ligger observationer ved 0 og 1 (dummy)
Hvad er log-odds?
Logit-sandsynligheden for y=1 med beta1, når x stiger med 1.
Går fra -uendelig til uendelig
0 er lig 50%
Hvorfor linearitetsantagelsen lidt funky ved LSM?
Linearitet er lidt en dårlig antagelse pga. gulv og lofteffekter. Den kan forudsige sandsynligheder >1 og <0. Det giver empirisk ingen mening.
Hvilken sammenhæng er der mellem logit-sandsynligheden og x?
Lineær sammenhæng
Hvad kan du sige af fornuftige ting om logit-sandsynligheder?
Karakteristika (evt. tegn)
- Går fra minus uendelig til uendelig (ikke begrænset af at gå fra 0-1)
- -1=25% ssh. For y=1
- 0=50% ssh. for y=1 (centreret omkring 0)
- 1=75% ssh. For y=1
Log-odds er ca. lineær mellem -1 og 1 Altså ca. lineært forhold mellem faktisk og logitsandsynligheder mellem -1 og 1. På midterstykket af kurven er der et relativt lineært forhold
Hvad er pseudo R2?
hvor meget mindre bliver log(likelihood) af at inkludere den uafhængige variabel i modellen
Altså hvor meget bedre bliver jeg til at estimere y-hat (sandsynligheden for y=1), når jeg kender den uafhængige
Hvornår er sammenhængen mellem x og y stærkest i logistisk regression?
For Pr(Y=1)=50%, da vil der være den stærkeste sammenhæng mellem x og y. Tænk på hældningen. Til at starte med er den tiltagende eksponentielt. Netop på midtpunktet er den stærkest og skifter herefter til konkav.
Hvad afgør standardfejlen for beta1-hat?
Stejlheden på log(likelihood) / den uafhængige variation i x
beta1-hat er normalfordelt omkring det sande parameter beta1 på tværs af stikprøver (hvis n>50)
Hvordan estimeres beta1 i logistisk regression og hvordan er det forskelligt fra OLS regression?
Ved logistisk benytter man Maximum likelihood funktionen, mens man ved OLS regression bruger mindste kvadraters metode (minSSR).
Likelihood-funktionen angiver hvor sandsynlig en koefficient er givet datasættet.
Log-likelihood: jo tættere på 0, des bedre en estimator, da Ln(0)=1. Sandsynligheden for beta1 er den sande koefficient er altså her =1.
Hvad er AME?
Gennemsnitlige marginale effekter.
Sandsynligheden for y=1 stiger i gennemsnit med beta1*100%, når x+1 (når alle andre variable holdes konstante)
Hvad er antagelserne for logistisk regression og kravene til datamængden?
Der gælder samme antagelser som for regression:
- Linearitet i logitsandsynlighederne (s-formen!)
- Outliers (særligt ekstrem x)
- Uafhængige observationer
- Fravær af heteroskedasticitet
Ved kontrolvariable
- Fravær af perfekt multikollinearitet
Krav til datamængde
100: for lidt
200: formentligt nok (dog mindre end 20 variable)
500: altid tilstrækkeligt
Hvad viser et marginsplot (dikotome afhængige)?
Viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x
Hvordan undersøger man linearitetsantagelsen for intervalskalerede variable i den logistiske regression?
Der skal være linearitet mellem x (+kontrolvariable) og logitsandsynligheder til y. Vi kan ikke tjekke det her med ACPR-plot (mif). Løsningen er at behandle kontinuerte variable, som kategoriske.
Opdel den kontinuerte variable i eks. 10 kategorier. Hvis kontinuerte kategorier <15, så behold de oprindelige kategorier.
Inden for hver kategori estimerer man logitsandsynligheden. Derefter plotter man disse sandsynligheder. De skulle gerne være nogenlunde lineær!
- Egen xvarkat=cut(xvar), group(10)
- Logit y xvarkat zvar zvar
- Margins, at(xvarkat=(0 (1) 9) predict(xb)
- Marginsplot
Margins giver os her logitsandsynlighederne - modsat de andre marginskommandoer!
Kunne man bare bruge LSM istedet for logit eller hva?
Hvis vi tolker på AME vil hældningskoefficienten for LSM være ret tæt på AME.
Hvis vi har en kategoriske x og ingen kontinuerte kontrolvariable, så er det det samme at bruge LSM
Hvis vi bare vil lave generelle antagelser om sammenhængen er LSM så fint, men hvis vi er interesseret i de eksakte sandsynligheder, så er log-odds og logit helt super
Hvordan får du margins til at forudsige logitsandsynligheder?
margins, at(xvar= ()) predict xb
Hvad gør du med interaktioner og afhængige dikotom?
Det kan være interessant med en interaktion og logitmodel. Men det er sim-pelthen for fucking bøvlet. Don’t do it. Prøv at slippe afsted med LPM og inter-aktion.
–> ellers suppler interaktionskoefficienter med marginsplot.
Hvilken model skal du bruge, hvis dummy-dummy?
LSM! Der er ingen forskel mellem LSM og logit, og derfor vil du være en knold, hvis du bruger logit.