Logistische Regression Flashcards

1
Q

Wofür verwendet man die logistische Regression?

A
  • dichotome (kategoriale) abhängige Variablen statistisch analysieren
  • deshalb gut für Sozialwissenschaften geeignet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie kann man vorhergesagte Wahrscheinlichkeiten graphisch darstellen in Abhängigkeit einer anderen Variable? (nicht mit margins)

A

twoway lfit kat-y kon-x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind Odds?

A

Chancen
Formel: odds(x) = p(x) / 1 - p(x)
Wertebereich: 0 bis + unendlich

STATA
logistic oder logit, or
multiplikativer Effekt (kein Effekt = 1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind Logits?

A
  • logarithmierte Odds
    Wertebereich: - unendlich bis + unendlich

STATA
logit
additiver Effekt (kein Effekt = 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie beschränkt man eine Regression auf bestimmte Gruppen?

A

mit if-Bedingung
z.B. if age >= 18
if german < 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie findet man heraus, welche Variable den größeren Einfluss hat?

A

listcoef (muss man evtl. noch herunterladen findit listcoef, runterscrollen, spost13ado runterladen)
- standardisierte Koeffizienten (vorletzte Spalte) interpretieren
- Achtung, geht nur bei metrischen Variablen!
- bei negativen Vorzeichen:
listcoef, reverse

Am besten so machen:
listcoef positive varlist
listcoef negative varlist, reverse
–> dann standardisierte Koeffizienten vergleichen

ACHTUNG: standardisierte Effektkoeffizienten sind wie ODDS zu beurteilen, also multiplikativer Effekt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie kann ich die Wahrscheinlichkeiten für bestimmte Personen/ Gruppen berechnen?

A

average marginal predictions:
margins

marginal predictions at means
margins, atmeans

marginal predictions at representative values
margins, at(alter=(20(10)80)) atmeans

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie muss ich kategoriale Variablen ins Modell aufnehmen?

A
  • immer als Dummies

- also mit i. Präfix

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wie finde ich heraus, ob eine Variable einen signifikanen Erkenntniszuwachs in meinem Modell bringt?

A
Mit dem LR-Test
STATA:
logit fullmodell
est store full
logit fullmodell ohne die eine Variable
lrtest full
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was gibt die Klassifikationstabelle an?

A
  • Sensitivität: wie viele 1en richtig vorhergesagt wurden (Richtig-positiv-Rate)
  • Spezifität: wie viele 0en richtig vorhergesagt wurden (richtig-negativ-Rate)
  • Counts R-Quadrat: wie viele der Vorhersagen insgesamt richtig waren

STATA-Befehl
lstat
???

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was macht der Hosmer-Lemeshow-Test?

A

H0: die Abweichungen zwischen erwarteten Häufigkeiten von Rot-Grün in einem Kovariatenmuster und den beobachteten Häufigkeiten von Rot-Grün sind zufällig.
H1: Die Abweichungen zwischen erwarteten und beobachteten Häufigkeiten in einem Kovariatenmuster sind systematisch.
–> wir wollen H0 beibehalten, also unsignifikantes Ergebnis
- Einteilung in 10 Gruppen (Quantile)

STATA:
logistische Regression
lfit, group (10) --> Konvention
oder 
logistische Regression
estat gof, group(10)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie macht man einen Leverage-vs-Residuen-Plot und was besagt er?

A
logistische Regression
predict leverage, hat
predict residual, res
predict cmatt, number
graph twoway scatter leverage residual, msymbol(point) mlabel(cmatt)

–> dann einflussreiche Fälle anschauen
list Kovariaten aus der Regression if cmatt==#

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie verändert sich die Wahrscheinlichkeit „Rot-Grün“ zu wählen in Abhängigkeit von Alter
und Erhebungsbiet? –> was muss ich eingeben?

A

logistische regression
margins i.region, at (alter=(20(10)80)) atmeans
marginsplot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wenn ich einen Interaktionseffekt zwischen einer kategorialen und einer kontinuierlichen Variable einbauen soll, was muss ich beachten?

A
  • für die Interpretierbarkeit des Interaktionseffekt muss die metrische Variable zentriert werden
  • die Größe des Interaktionseffekt ist davon abhängig
STATA:
cap drop metrischez
sum metrische
gen metrischez = metrische - r(mean)
logit yvar xvar i.var##c.metrischez ...
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie kann ich die globale Güte des Modells beurteilen?

A
logistische Regression
fitstat
(muss evtl. noch installiert werden: ssc install fitstat)
mindestens zwei R2 Interpretieren:
McFadden
Tjurs D
Count R2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was besagt Adj. Count R2 von 0.12 und Count R2 von 0.598?

A

Durch das Modell verringert sich die falsche Klassifikation von Beobachtungen um 12 Prozent gegenüber einer Vorhersage aufgrund der Randverteilung. Insgesamt werden 59.8 Prozent der Beobachtungen korrekt klassifiziert.

adj.: verbesserung im vergleich zur schätzung über randverteilung

17
Q

Was besagt ein Tjurs D von 0.06?

A

Die Differenz zwischen der durchschnittlichen/ mittleren Wahrscheinlichkeit der ersten Ausprägung der AV
gegenüber durchschnittlichen/ mittleren Wahrscheinlichkeit der zweiten Ausprägung der AV beträgt lediglich 6 Prozentpunkte. Das könnte besser sein.

Differenz der durchschnittlichen Wahrscheinlichkeit zwischen tatsächlichen Wählern und Nicht-Wählern

18
Q

Was besagt das McFadden R2?

A

McFadden beträgt … und ist gut/ nicht so gut. Das Modell verbessert also die Schätzung signifikant im Vergleich zum Nullmodell.

19
Q

Was ist Leverage?

A
  • Hebel
  • die Besonderheit der Beobachtung
  • wie weit die Beobachtungvon den anderen Beobachtung entfernt ist
20
Q

Was ist ein Residuum?

A
  • Abweichung der vorhergesagten Werte von den beobachteten Werten
  • -> hohes Residuum = schlechte Vorhersage
21
Q

Sagen Sie die Wahrscheinlichkeiten für konfessionslose männliche Ost- und Westdeutsche im Alter von 50 Jahren mit durchschnittlicher Bildung und Links-Rechts-Selbsteinstufung vorher. –> was muss ich eingeben?

A

logistische Regression

margins i.region, at(alter=50 konfession=6 geschlecht=1) atmeans

22
Q

Was sind Deltabeta und Deltachiquadrat?

A
  • Gütemaße für individuelle Komponenten

Deltabeta:
predict deltabeta, db
- wie groß ist der Einfluss des Kovariatenmusters auf den Beta-Koeffizienten?

Deltachiquadrat:
predict deltachi, dx2
- hat sich der Modellfit geändert?

Dann Graph:
predict p, p
predict kov, number
twoway scatter db p, mlabel(kov) msymbol(point)

bzw.
twoway scatter dx2 p, mlabel(kov) msymbol(point)

23
Q

Warum ist die lineare Regression für dichotome kategoriale Variablen ungeeignet? Was sind die drei Probleme des linearen Wahrscheinlichkeitsmodells?

A
  1. Wertebereich der AV muss zwischen 0 und 1 liegen –> mit linReg können Wahrscheinlichkeiten über 1 vorhergesagt werden (unplausibel!)
  2. Annahme der Homogenität der Varianzen und der identischen Fehler kann nicht gelten
  3. Annahme des linearen Zusammenhangs zwischen UV und AV kann nicht gelten –> hier eher s-förmiger Zusammenhang
24
Q

Wie werden Interaktionseffekte interpretiert?

A
  • am besten metrische Variable zentrieren
  • Haupteffekt für kategoriale interpretieren; Achtung, durschnittliche metrische Variable!
  • Haupteffekt für metrische Variable interpretieren; Achtung: Referenzkategorie
  • Interaktionseffekt: für andere Kategorie ist der Effekt größer/ kleiner

Graph:
margins i.kat, at(z-metrisch=(#(#)#)) atmeans
marginsplot

25
Q

Welche Gütemaße für den globalen Modellfit gibt es?

A
  • Pseudo R-Quadrate: McFadden, Tjurs D, CountR2
  • Pearson-Chi-Quadrat-Test
  • Hosmer-Lemeshow-Test
26
Q

Welche Gütemaße für individuelle Komponenten gibt es?

A
  • Delta-Chi-Quadrat
  • Deltabeta
  • Leverage vs Residual Plot
27
Q

Was ist die Idee der Maximum-Likelihood-Schätzung?

A
  • Konstante und b-Koeffizienten sind unbekannt
  • ML schätzt diese Parameter iterativ, so dass Wahrscheinlichkeit des Zustandekommens der beobachteten Daten maximal wird
  • Gesamtwahrscheinlichkeit wird aus Einzelwahrscheinlichkeiten ermittelt
  • iterativ: verschiedene Parameter werden ausprobiert; Verfahren wird abgebrochen, wenn Wahrscheinlichkeit, die beobachteten Daten zu reproduzieren im Vgl. zum vorherigen Iterationsschritt nicht mehr gesteigert wird
28
Q

Wie funkitoniert der Pearson-Chi-Quadrat-Test?

A
  • fragt: gibt es eine systematische Abweichung zwischen den beobachteten Daten und dem Modell?
  • Formel für das Person-Residuum: Anzahl beobachtete Werte y=1 - Anzahl vorhergesagte Werte y=1 / geschätzte Standardabweichung der Residuen –> dann damit Chi-Quadrat-Test machen?
  • Stata-Befehl: lfit
  • guckt sich für jedes Kovariatenmuster an, wie viele Untersuchungseinheiten eine 1 auf der AV haben und wie viele davon gut vorausgesagt wurden

H0: es gibt keine systematische Abweichungen
H1: es gibt systematische Abweichungen
–> wir wollen insignifikantes Ergebnis

29
Q

Bei den Tests: wann Variablen/ Interkations/ Quadrierunegn drin lassen?

A

wenn sie signifikant sind

30
Q

Was ist der Wald-Test?

A
  • ein Signifikanztest
  • für große Samples ist die Wald-Statistik annähernd standardnormalverteilt und entspricht damit der z-Statistik
  • Irrtumswahrscheinlichkeit für die b-Koeffizienten aus z-Statistik
  • man kann damit Konfidenzintervalle berechnen mit +-1.96 Standardabweichungen/ Standardfehlern
  • Nullhypothese: b-Koeffizient = 0
31
Q

Wie wird McFadden R2 berechnet?

A

PseudoR2MF = 1 - (lnLfull / lnL0)

1 minus Loglikelihood des Fullmodells durch Loglikelihood des Nullmodells

32
Q

Wie wird das Count R2 begerechnet?

A

lstat –> Klassifikationstabelle
Hautpdiagonale durch n

d.h.
Anzahl der richtigen 1en plus Anzahl der richtigen 0en
durch Anzahl der Beobachtungen

33
Q

Wie wird das Adjusted Count R2 berechnet?

A

lstat –> Klassifikationstabelle

Hauptdiagonale minus Spalte mit meisten Beobachtungen durch n minus Spalte mit meisten Beobachtungen

34
Q

Wie berechnet man Tjur’s D?

A
logistische regression
cap drop p
predict p, p
sum p if av==1
sum p if av==0
disp --> Differenz von mean ausrechnen
35
Q

Was sind Marginaleffekte und wie kann ich sie berechnen?

A

Sie geben die Veränderung der Wahrscheinlichkeit an.

average marginal effects
margins, dydx

marginal effects at means
margins, dydx atmeans

marginal effects at representative values
margins, dydx at(….) atmeans

und dann marginsplot

36
Q

Welche Probleme können bei einem Modellvergleich auftreten und wie können diese vermieden werden?

A

Zur Identifikation des Modells muss die Fehlervarianz fixiert werden. Dies führt dazu, dass bei Hinzunahme erklärender Variablen die Varianz der latenten AV (Y) ansteigt. Y wird damit reskaliert und die Koeffizienten sind nicht mehr vergleichbar.
–> durch Reskalierung wird Konfundierung unterschätzt

  • Fehlerterm wird festgelegt mit Mittelwert 0 und Varianz Pi-Quadrat/3

Lösungsmöglichkeiten: y-Standardisierung, KHB-Methode

qui: logit eigenheim hheink hhgroes alter west if alter<60
estimates store full
qui: logit eigenheim hhgroes alter west if e(sample)
estimates store reduced
estimates table reduced full
* –> Differenz im Alterseffekt liegt bei .005; Wirklich so klein?
findit khb
khb logit eigenheim hhgroes alter west || hheink
–> Zeigt, ob die Differenz signifikant ist

37
Q

Woran noch denken bei der Effektinterpretation?

A
  • sagen ob der Effekt signifikant oder sehr signifikant ist!