L12 Dikotome afhængige Flashcards

1
Q

Hvordan fortolkes hældningskoefficienten i logistisk regression?

A

Ændring i logitsandsynlighed for for Y=1 (treatment), når x ændres 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvordan fortolkes hældningskoefficienten i den lineære sandsynlighedsmodel?

A

Ændringen i sandsynlighed for Y=1 (treatment), når x ændres 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er forskellen på ‘forskel i gennemsnit’ og dikotom afhængig?

A

Dikotom afhænig vs. forskel i gennemsnit: uafhængig dikotom

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvorfor er transformation ikke en løsning for den lineære sandsynlighedsmodel ift. gulv- og lofteffekter?

A

Den er dikotom, så det giver samme problem trods transformation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er den lineære sandsynlighedsmodel (LSM)?

A

Dikotom afhængig, hvor beta1 bliver ændring i sandsynlighed for y=1, når x+1.

E(Y)=Pr(Y=1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvorfor kan en LSM generere forudsagte sandsynligheder der ligger over 1 eller under 0?

A

Fordi den ikke tager højde for gulv- og loftseffekter. Den er sgu bare lineær

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er en logistisk regressionsmodel?

A

En logistisk regressionsmodel er logisk transformation af y, som tager højde for gulv- og loft effekter. Modellen er lineær i logitsandsynligheden.

Pr(Y=1 l X1…Xk) er mellem 0 og 1, og derfor giver det empirisk bedre mening.

Dog bliver effekten referenceafhængig (hvor er du på x). Kontrolvariablene er ikke lineært afhængige af x (svært at tolke multivariat).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvordan ser sammenhængen ud, når Y er en logistisk funktion af X?

A

S-form. Tager højde for gulv- og lofteffekter

Eksponentielt stigende –> lineær på midten –> eksponentiel aftagende

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan kan man fortolke parametrene i den logistiske regressionsmodel?

A

Det er bøvlet. Når x+1, så stiger logitsandsynligheden for Y=1 med beta1.

  • sig noget om retningen af sammenhængen
  • signifikansen

Pseudo R^2: eks. 0,6. Vi kan forklare ca. 60% af vores afhængige variable med vores uafhængige. Vi bliver 60% bedre til at ’gætte’ vores afhængige.

Chi-squared test: H0: variablene i modellen forklarer intet.

Log-likelihood estimator: jo tættere på nul, jo bedre end estimater (pandang til RMSE).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan beregnes, visualiseres og fortolkes effekten af X i en logistisk regressionsmodel?

A

Effekten af x på y i en logistisk model kan beregnes på flere måder:

  • Log-odds: logitsandsynligheden til Y=1, når x stiger med 1
  • Odds-ratios
  • AME: gennemsnitlige marginale effekt af x på y.

Fortolkes:
Generelt bare noget bøf at tolke på log-odds, derfor tolker vi ofte på AME ved margins, dydx(var*). Eller kigge på de forudsagte sandsynligheder ved forskellige niveauer af x (eks. interkvartiler) ved margins, at

Visuelt:
Marginscontplot - viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvilke antagelser gælder for LSM?

A

Der gælder samme antagelser som for regression:

  • Linearitet (pas på gulv- og lofteffekter)
  • Outliers (særligt ekstrem x)
  • Uafhængige observationer
  • Fravær af heteroskedasticitet

Ved kontrolvariable
- Fravær af perfekt multikollinearitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad kan problemet være ved at bruge LSM ift. dikotome afhængige?

A

LSM tager ikke højde for gulv- og loftseffekter (hvilket ikke substantielt giver mening, når y kun tager værdier, der enten er 0 eller 1) - vi kan ikke antage linearitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvorfor er data altid heteroskedastisk ved dikotome afhængig?

A

Der gælder altid heteroskedasticitet, da variansen omkring regressionslinjen aldrig kan være homogen: derfor altid robuste SE

  • Variansen vil altid være størst omkring 0,5 og aftager mod hhv. 1 og 0, da der kun ligger observationer ved 0 og 1 (dummy)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er log-odds?

A

Logit-sandsynligheden for y=1 med beta1, når x stiger med 1.

Går fra -uendelig til uendelig
0 er lig 50%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvorfor linearitetsantagelsen lidt funky ved LSM?

A

Linearitet er lidt en dårlig antagelse pga. gulv og lofteffekter. Den kan forudsige sandsynligheder >1 og <0. Det giver empirisk ingen mening.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvilken sammenhæng er der mellem logit-sandsynligheden og x?

A

Lineær sammenhæng

17
Q

Hvad kan du sige af fornuftige ting om logit-sandsynligheder?

A

Karakteristika (evt. tegn)

  • Går fra minus uendelig til uendelig (ikke begrænset af at gå fra 0-1)
  • -1=25% ssh. For y=1
  • 0=50% ssh. for y=1 (centreret omkring 0)
  • 1=75% ssh. For y=1

Log-odds er ca. lineær mellem -1 og 1 Altså ca. lineært forhold mellem faktisk og logitsandsynligheder mellem -1 og 1. På midterstykket af kurven er der et relativt lineært forhold

18
Q

Hvad er pseudo R2?

A

hvor meget mindre bliver log(likelihood) af at inkludere den uafhængige variabel i modellen

Altså hvor meget bedre bliver jeg til at estimere y-hat (sandsynligheden for y=1), når jeg kender den uafhængige

19
Q

Hvornår er sammenhængen mellem x og y stærkest i logistisk regression?

A

For Pr(Y=1)=50%, da vil der være den stærkeste sammenhæng mellem x og y. Tænk på hældningen. Til at starte med er den tiltagende eksponentielt. Netop på midtpunktet er den stærkest og skifter herefter til konkav.

20
Q

Hvad afgør standardfejlen for beta1-hat?

A

Stejlheden på log(likelihood) / den uafhængige variation i x

beta1-hat er normalfordelt omkring det sande parameter beta1 på tværs af stikprøver (hvis n>50)

21
Q

Hvordan estimeres beta1 i logistisk regression og hvordan er det forskelligt fra OLS regression?

A

Ved logistisk benytter man Maximum likelihood funktionen, mens man ved OLS regression bruger mindste kvadraters metode (minSSR).

Likelihood-funktionen angiver hvor sandsynlig en koefficient er givet datasættet.

Log-likelihood: jo tættere på 0, des bedre en estimator, da Ln(0)=1. Sandsynligheden for beta1 er den sande koefficient er altså her =1.

22
Q

Hvad er AME?

A

Gennemsnitlige marginale effekter.

Sandsynligheden for y=1 stiger i gennemsnit med beta1*100%, når x+1 (når alle andre variable holdes konstante)

23
Q

Hvad er antagelserne for logistisk regression og kravene til datamængden?

A

Der gælder samme antagelser som for regression:

  • Linearitet i logitsandsynlighederne (s-formen!)
  • Outliers (særligt ekstrem x)
  • Uafhængige observationer
  • Fravær af heteroskedasticitet

Ved kontrolvariable
- Fravær af perfekt multikollinearitet

Krav til datamængde

100: for lidt
200: formentligt nok (dog mindre end 20 variable)
500: altid tilstrækkeligt

24
Q

Hvad viser et marginsplot (dikotome afhængige)?

A

Viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x

25
Q

Hvordan undersøger man linearitetsantagelsen for intervalskalerede variable i den logistiske regression?

A

Der skal være linearitet mellem x (+kontrolvariable) og logitsandsynligheder til y. Vi kan ikke tjekke det her med ACPR-plot (mif). Løsningen er at behandle kontinuerte variable, som kategoriske.

Opdel den kontinuerte variable i eks. 10 kategorier. Hvis kontinuerte kategorier <15, så behold de oprindelige kategorier.

Inden for hver kategori estimerer man logitsandsynligheden. Derefter plotter man disse sandsynligheder. De skulle gerne være nogenlunde lineær!

  • Egen xvarkat=cut(xvar), group(10)
  • Logit y xvarkat zvar zvar
  • Margins, at(xvarkat=(0 (1) 9) predict(xb)
  • Marginsplot

Margins giver os her logitsandsynlighederne - modsat de andre marginskommandoer!

26
Q

Kunne man bare bruge LSM istedet for logit eller hva?

A

Hvis vi tolker på AME vil hældningskoefficienten for LSM være ret tæt på AME.

Hvis vi har en kategoriske x og ingen kontinuerte kontrolvariable, så er det det samme at bruge LSM

Hvis vi bare vil lave generelle antagelser om sammenhængen er LSM så fint, men hvis vi er interesseret i de eksakte sandsynligheder, så er log-odds og logit helt super

27
Q

Hvordan får du margins til at forudsige logitsandsynligheder?

A

margins, at(xvar= ()) predict xb

28
Q

Hvad gør du med interaktioner og afhængige dikotom?

A

Det kan være interessant med en interaktion og logitmodel. Men det er sim-pelthen for fucking bøvlet. Don’t do it. Prøv at slippe afsted med LPM og inter-aktion.

–> ellers suppler interaktionskoefficienter med marginsplot.

29
Q

Hvilken model skal du bruge, hvis dummy-dummy?

A

LSM! Der er ingen forskel mellem LSM og logit, og derfor vil du være en knold, hvis du bruger logit.