Logistische Regression Flashcards
Wofür verwendet man die logistische Regression?
- dichotome (kategoriale) abhängige Variablen statistisch analysieren
- deshalb gut für Sozialwissenschaften geeignet
Wie kann man vorhergesagte Wahrscheinlichkeiten graphisch darstellen in Abhängigkeit einer anderen Variable? (nicht mit margins)
twoway lfit kat-y kon-x
Was sind Odds?
Chancen
Formel: odds(x) = p(x) / 1 - p(x)
Wertebereich: 0 bis + unendlich
STATA
logistic oder logit, or
multiplikativer Effekt (kein Effekt = 1)
Was sind Logits?
- logarithmierte Odds
Wertebereich: - unendlich bis + unendlich
STATA
logit
additiver Effekt (kein Effekt = 0)
Wie beschränkt man eine Regression auf bestimmte Gruppen?
mit if-Bedingung
z.B. if age >= 18
if german < 3
Wie findet man heraus, welche Variable den größeren Einfluss hat?
listcoef (muss man evtl. noch herunterladen findit listcoef, runterscrollen, spost13ado runterladen)
- standardisierte Koeffizienten (vorletzte Spalte) interpretieren
- Achtung, geht nur bei metrischen Variablen!
- bei negativen Vorzeichen:
listcoef, reverse
Am besten so machen:
listcoef positive varlist
listcoef negative varlist, reverse
–> dann standardisierte Koeffizienten vergleichen
ACHTUNG: standardisierte Effektkoeffizienten sind wie ODDS zu beurteilen, also multiplikativer Effekt
Wie kann ich die Wahrscheinlichkeiten für bestimmte Personen/ Gruppen berechnen?
average marginal predictions:
margins
marginal predictions at means
margins, atmeans
marginal predictions at representative values
margins, at(alter=(20(10)80)) atmeans
Wie muss ich kategoriale Variablen ins Modell aufnehmen?
- immer als Dummies
- also mit i. Präfix
Wie finde ich heraus, ob eine Variable einen signifikanen Erkenntniszuwachs in meinem Modell bringt?
Mit dem LR-Test STATA: logit fullmodell est store full logit fullmodell ohne die eine Variable lrtest full
Was gibt die Klassifikationstabelle an?
- Sensitivität: wie viele 1en richtig vorhergesagt wurden (Richtig-positiv-Rate)
- Spezifität: wie viele 0en richtig vorhergesagt wurden (richtig-negativ-Rate)
- Counts R-Quadrat: wie viele der Vorhersagen insgesamt richtig waren
STATA-Befehl
lstat
???
Was macht der Hosmer-Lemeshow-Test?
H0: die Abweichungen zwischen erwarteten Häufigkeiten von Rot-Grün in einem Kovariatenmuster und den beobachteten Häufigkeiten von Rot-Grün sind zufällig.
H1: Die Abweichungen zwischen erwarteten und beobachteten Häufigkeiten in einem Kovariatenmuster sind systematisch.
–> wir wollen H0 beibehalten, also unsignifikantes Ergebnis
- Einteilung in 10 Gruppen (Quantile)
STATA: logistische Regression lfit, group (10) --> Konvention oder logistische Regression estat gof, group(10)
Wie macht man einen Leverage-vs-Residuen-Plot und was besagt er?
logistische Regression predict leverage, hat predict residual, res predict cmatt, number graph twoway scatter leverage residual, msymbol(point) mlabel(cmatt)
–> dann einflussreiche Fälle anschauen
list Kovariaten aus der Regression if cmatt==#
Wie verändert sich die Wahrscheinlichkeit „Rot-Grün“ zu wählen in Abhängigkeit von Alter
und Erhebungsbiet? –> was muss ich eingeben?
logistische regression
margins i.region, at (alter=(20(10)80)) atmeans
marginsplot
Wenn ich einen Interaktionseffekt zwischen einer kategorialen und einer kontinuierlichen Variable einbauen soll, was muss ich beachten?
- für die Interpretierbarkeit des Interaktionseffekt muss die metrische Variable zentriert werden
- die Größe des Interaktionseffekt ist davon abhängig
STATA: cap drop metrischez sum metrische gen metrischez = metrische - r(mean) logit yvar xvar i.var##c.metrischez ...
Wie kann ich die globale Güte des Modells beurteilen?
logistische Regression fitstat (muss evtl. noch installiert werden: ssc install fitstat) mindestens zwei R2 Interpretieren: McFadden Tjurs D Count R2