Logistische Regression Flashcards
Wofür verwendet man die logistische Regression?
- dichotome (kategoriale) abhängige Variablen statistisch analysieren
- deshalb gut für Sozialwissenschaften geeignet
Wie kann man vorhergesagte Wahrscheinlichkeiten graphisch darstellen in Abhängigkeit einer anderen Variable? (nicht mit margins)
twoway lfit kat-y kon-x
Was sind Odds?
Chancen
Formel: odds(x) = p(x) / 1 - p(x)
Wertebereich: 0 bis + unendlich
STATA
logistic oder logit, or
multiplikativer Effekt (kein Effekt = 1)
Was sind Logits?
- logarithmierte Odds
Wertebereich: - unendlich bis + unendlich
STATA
logit
additiver Effekt (kein Effekt = 0)
Wie beschränkt man eine Regression auf bestimmte Gruppen?
mit if-Bedingung
z.B. if age >= 18
if german < 3
Wie findet man heraus, welche Variable den größeren Einfluss hat?
listcoef (muss man evtl. noch herunterladen findit listcoef, runterscrollen, spost13ado runterladen)
- standardisierte Koeffizienten (vorletzte Spalte) interpretieren
- Achtung, geht nur bei metrischen Variablen!
- bei negativen Vorzeichen:
listcoef, reverse
Am besten so machen:
listcoef positive varlist
listcoef negative varlist, reverse
–> dann standardisierte Koeffizienten vergleichen
ACHTUNG: standardisierte Effektkoeffizienten sind wie ODDS zu beurteilen, also multiplikativer Effekt
Wie kann ich die Wahrscheinlichkeiten für bestimmte Personen/ Gruppen berechnen?
average marginal predictions:
margins
marginal predictions at means
margins, atmeans
marginal predictions at representative values
margins, at(alter=(20(10)80)) atmeans
Wie muss ich kategoriale Variablen ins Modell aufnehmen?
- immer als Dummies
- also mit i. Präfix
Wie finde ich heraus, ob eine Variable einen signifikanen Erkenntniszuwachs in meinem Modell bringt?
Mit dem LR-Test STATA: logit fullmodell est store full logit fullmodell ohne die eine Variable lrtest full
Was gibt die Klassifikationstabelle an?
- Sensitivität: wie viele 1en richtig vorhergesagt wurden (Richtig-positiv-Rate)
- Spezifität: wie viele 0en richtig vorhergesagt wurden (richtig-negativ-Rate)
- Counts R-Quadrat: wie viele der Vorhersagen insgesamt richtig waren
STATA-Befehl
lstat
???
Was macht der Hosmer-Lemeshow-Test?
H0: die Abweichungen zwischen erwarteten Häufigkeiten von Rot-Grün in einem Kovariatenmuster und den beobachteten Häufigkeiten von Rot-Grün sind zufällig.
H1: Die Abweichungen zwischen erwarteten und beobachteten Häufigkeiten in einem Kovariatenmuster sind systematisch.
–> wir wollen H0 beibehalten, also unsignifikantes Ergebnis
- Einteilung in 10 Gruppen (Quantile)
STATA: logistische Regression lfit, group (10) --> Konvention oder logistische Regression estat gof, group(10)
Wie macht man einen Leverage-vs-Residuen-Plot und was besagt er?
logistische Regression predict leverage, hat predict residual, res predict cmatt, number graph twoway scatter leverage residual, msymbol(point) mlabel(cmatt)
–> dann einflussreiche Fälle anschauen
list Kovariaten aus der Regression if cmatt==#
Wie verändert sich die Wahrscheinlichkeit „Rot-Grün“ zu wählen in Abhängigkeit von Alter
und Erhebungsbiet? –> was muss ich eingeben?
logistische regression
margins i.region, at (alter=(20(10)80)) atmeans
marginsplot
Wenn ich einen Interaktionseffekt zwischen einer kategorialen und einer kontinuierlichen Variable einbauen soll, was muss ich beachten?
- für die Interpretierbarkeit des Interaktionseffekt muss die metrische Variable zentriert werden
- die Größe des Interaktionseffekt ist davon abhängig
STATA: cap drop metrischez sum metrische gen metrischez = metrische - r(mean) logit yvar xvar i.var##c.metrischez ...
Wie kann ich die globale Güte des Modells beurteilen?
logistische Regression fitstat (muss evtl. noch installiert werden: ssc install fitstat) mindestens zwei R2 Interpretieren: McFadden Tjurs D Count R2
Was besagt Adj. Count R2 von 0.12 und Count R2 von 0.598?
Durch das Modell verringert sich die falsche Klassifikation von Beobachtungen um 12 Prozent gegenüber einer Vorhersage aufgrund der Randverteilung. Insgesamt werden 59.8 Prozent der Beobachtungen korrekt klassifiziert.
adj.: verbesserung im vergleich zur schätzung über randverteilung
Was besagt ein Tjurs D von 0.06?
Die Differenz zwischen der durchschnittlichen/ mittleren Wahrscheinlichkeit der ersten Ausprägung der AV
gegenüber durchschnittlichen/ mittleren Wahrscheinlichkeit der zweiten Ausprägung der AV beträgt lediglich 6 Prozentpunkte. Das könnte besser sein.
Differenz der durchschnittlichen Wahrscheinlichkeit zwischen tatsächlichen Wählern und Nicht-Wählern
Was besagt das McFadden R2?
McFadden beträgt … und ist gut/ nicht so gut. Das Modell verbessert also die Schätzung signifikant im Vergleich zum Nullmodell.
Was ist Leverage?
- Hebel
- die Besonderheit der Beobachtung
- wie weit die Beobachtungvon den anderen Beobachtung entfernt ist
Was ist ein Residuum?
- Abweichung der vorhergesagten Werte von den beobachteten Werten
- -> hohes Residuum = schlechte Vorhersage
Sagen Sie die Wahrscheinlichkeiten für konfessionslose männliche Ost- und Westdeutsche im Alter von 50 Jahren mit durchschnittlicher Bildung und Links-Rechts-Selbsteinstufung vorher. –> was muss ich eingeben?
logistische Regression
margins i.region, at(alter=50 konfession=6 geschlecht=1) atmeans
Was sind Deltabeta und Deltachiquadrat?
- Gütemaße für individuelle Komponenten
Deltabeta:
predict deltabeta, db
- wie groß ist der Einfluss des Kovariatenmusters auf den Beta-Koeffizienten?
Deltachiquadrat:
predict deltachi, dx2
- hat sich der Modellfit geändert?
Dann Graph:
predict p, p
predict kov, number
twoway scatter db p, mlabel(kov) msymbol(point)
bzw.
twoway scatter dx2 p, mlabel(kov) msymbol(point)
Warum ist die lineare Regression für dichotome kategoriale Variablen ungeeignet? Was sind die drei Probleme des linearen Wahrscheinlichkeitsmodells?
- Wertebereich der AV muss zwischen 0 und 1 liegen –> mit linReg können Wahrscheinlichkeiten über 1 vorhergesagt werden (unplausibel!)
- Annahme der Homogenität der Varianzen und der identischen Fehler kann nicht gelten
- Annahme des linearen Zusammenhangs zwischen UV und AV kann nicht gelten –> hier eher s-förmiger Zusammenhang
Wie werden Interaktionseffekte interpretiert?
- am besten metrische Variable zentrieren
- Haupteffekt für kategoriale interpretieren; Achtung, durschnittliche metrische Variable!
- Haupteffekt für metrische Variable interpretieren; Achtung: Referenzkategorie
- Interaktionseffekt: für andere Kategorie ist der Effekt größer/ kleiner
Graph:
margins i.kat, at(z-metrisch=(#(#)#)) atmeans
marginsplot