Logistische Regression Flashcards
Wofür verwendet man die logistische Regression?
- dichotome (kategoriale) abhängige Variablen statistisch analysieren
- deshalb gut für Sozialwissenschaften geeignet
Wie kann man vorhergesagte Wahrscheinlichkeiten graphisch darstellen in Abhängigkeit einer anderen Variable? (nicht mit margins)
twoway lfit kat-y kon-x
Was sind Odds?
Chancen
Formel: odds(x) = p(x) / 1 - p(x)
Wertebereich: 0 bis + unendlich
STATA
logistic oder logit, or
multiplikativer Effekt (kein Effekt = 1)
Was sind Logits?
- logarithmierte Odds
Wertebereich: - unendlich bis + unendlich
STATA
logit
additiver Effekt (kein Effekt = 0)
Wie beschränkt man eine Regression auf bestimmte Gruppen?
mit if-Bedingung
z.B. if age >= 18
if german < 3
Wie findet man heraus, welche Variable den größeren Einfluss hat?
listcoef (muss man evtl. noch herunterladen findit listcoef, runterscrollen, spost13ado runterladen)
- standardisierte Koeffizienten (vorletzte Spalte) interpretieren
- Achtung, geht nur bei metrischen Variablen!
- bei negativen Vorzeichen:
listcoef, reverse
Am besten so machen:
listcoef positive varlist
listcoef negative varlist, reverse
–> dann standardisierte Koeffizienten vergleichen
ACHTUNG: standardisierte Effektkoeffizienten sind wie ODDS zu beurteilen, also multiplikativer Effekt
Wie kann ich die Wahrscheinlichkeiten für bestimmte Personen/ Gruppen berechnen?
average marginal predictions:
margins
marginal predictions at means
margins, atmeans
marginal predictions at representative values
margins, at(alter=(20(10)80)) atmeans
Wie muss ich kategoriale Variablen ins Modell aufnehmen?
- immer als Dummies
- also mit i. Präfix
Wie finde ich heraus, ob eine Variable einen signifikanen Erkenntniszuwachs in meinem Modell bringt?
Mit dem LR-Test STATA: logit fullmodell est store full logit fullmodell ohne die eine Variable lrtest full
Was gibt die Klassifikationstabelle an?
- Sensitivität: wie viele 1en richtig vorhergesagt wurden (Richtig-positiv-Rate)
- Spezifität: wie viele 0en richtig vorhergesagt wurden (richtig-negativ-Rate)
- Counts R-Quadrat: wie viele der Vorhersagen insgesamt richtig waren
STATA-Befehl
lstat
???
Was macht der Hosmer-Lemeshow-Test?
H0: die Abweichungen zwischen erwarteten Häufigkeiten von Rot-Grün in einem Kovariatenmuster und den beobachteten Häufigkeiten von Rot-Grün sind zufällig.
H1: Die Abweichungen zwischen erwarteten und beobachteten Häufigkeiten in einem Kovariatenmuster sind systematisch.
–> wir wollen H0 beibehalten, also unsignifikantes Ergebnis
- Einteilung in 10 Gruppen (Quantile)
STATA: logistische Regression lfit, group (10) --> Konvention oder logistische Regression estat gof, group(10)
Wie macht man einen Leverage-vs-Residuen-Plot und was besagt er?
logistische Regression predict leverage, hat predict residual, res predict cmatt, number graph twoway scatter leverage residual, msymbol(point) mlabel(cmatt)
–> dann einflussreiche Fälle anschauen
list Kovariaten aus der Regression if cmatt==#
Wie verändert sich die Wahrscheinlichkeit „Rot-Grün“ zu wählen in Abhängigkeit von Alter
und Erhebungsbiet? –> was muss ich eingeben?
logistische regression
margins i.region, at (alter=(20(10)80)) atmeans
marginsplot
Wenn ich einen Interaktionseffekt zwischen einer kategorialen und einer kontinuierlichen Variable einbauen soll, was muss ich beachten?
- für die Interpretierbarkeit des Interaktionseffekt muss die metrische Variable zentriert werden
- die Größe des Interaktionseffekt ist davon abhängig
STATA: cap drop metrischez sum metrische gen metrischez = metrische - r(mean) logit yvar xvar i.var##c.metrischez ...
Wie kann ich die globale Güte des Modells beurteilen?
logistische Regression fitstat (muss evtl. noch installiert werden: ssc install fitstat) mindestens zwei R2 Interpretieren: McFadden Tjurs D Count R2
Was besagt Adj. Count R2 von 0.12 und Count R2 von 0.598?
Durch das Modell verringert sich die falsche Klassifikation von Beobachtungen um 12 Prozent gegenüber einer Vorhersage aufgrund der Randverteilung. Insgesamt werden 59.8 Prozent der Beobachtungen korrekt klassifiziert.
adj.: verbesserung im vergleich zur schätzung über randverteilung
Was besagt ein Tjurs D von 0.06?
Die Differenz zwischen der durchschnittlichen/ mittleren Wahrscheinlichkeit der ersten Ausprägung der AV
gegenüber durchschnittlichen/ mittleren Wahrscheinlichkeit der zweiten Ausprägung der AV beträgt lediglich 6 Prozentpunkte. Das könnte besser sein.
Differenz der durchschnittlichen Wahrscheinlichkeit zwischen tatsächlichen Wählern und Nicht-Wählern
Was besagt das McFadden R2?
McFadden beträgt … und ist gut/ nicht so gut. Das Modell verbessert also die Schätzung signifikant im Vergleich zum Nullmodell.
Was ist Leverage?
- Hebel
- die Besonderheit der Beobachtung
- wie weit die Beobachtungvon den anderen Beobachtung entfernt ist
Was ist ein Residuum?
- Abweichung der vorhergesagten Werte von den beobachteten Werten
- -> hohes Residuum = schlechte Vorhersage
Sagen Sie die Wahrscheinlichkeiten für konfessionslose männliche Ost- und Westdeutsche im Alter von 50 Jahren mit durchschnittlicher Bildung und Links-Rechts-Selbsteinstufung vorher. –> was muss ich eingeben?
logistische Regression
margins i.region, at(alter=50 konfession=6 geschlecht=1) atmeans
Was sind Deltabeta und Deltachiquadrat?
- Gütemaße für individuelle Komponenten
Deltabeta:
predict deltabeta, db
- wie groß ist der Einfluss des Kovariatenmusters auf den Beta-Koeffizienten?
Deltachiquadrat:
predict deltachi, dx2
- hat sich der Modellfit geändert?
Dann Graph:
predict p, p
predict kov, number
twoway scatter db p, mlabel(kov) msymbol(point)
bzw.
twoway scatter dx2 p, mlabel(kov) msymbol(point)
Warum ist die lineare Regression für dichotome kategoriale Variablen ungeeignet? Was sind die drei Probleme des linearen Wahrscheinlichkeitsmodells?
- Wertebereich der AV muss zwischen 0 und 1 liegen –> mit linReg können Wahrscheinlichkeiten über 1 vorhergesagt werden (unplausibel!)
- Annahme der Homogenität der Varianzen und der identischen Fehler kann nicht gelten
- Annahme des linearen Zusammenhangs zwischen UV und AV kann nicht gelten –> hier eher s-förmiger Zusammenhang
Wie werden Interaktionseffekte interpretiert?
- am besten metrische Variable zentrieren
- Haupteffekt für kategoriale interpretieren; Achtung, durschnittliche metrische Variable!
- Haupteffekt für metrische Variable interpretieren; Achtung: Referenzkategorie
- Interaktionseffekt: für andere Kategorie ist der Effekt größer/ kleiner
Graph:
margins i.kat, at(z-metrisch=(#(#)#)) atmeans
marginsplot
Welche Gütemaße für den globalen Modellfit gibt es?
- Pseudo R-Quadrate: McFadden, Tjurs D, CountR2
- Pearson-Chi-Quadrat-Test
- Hosmer-Lemeshow-Test
Welche Gütemaße für individuelle Komponenten gibt es?
- Delta-Chi-Quadrat
- Deltabeta
- Leverage vs Residual Plot
Was ist die Idee der Maximum-Likelihood-Schätzung?
- Konstante und b-Koeffizienten sind unbekannt
- ML schätzt diese Parameter iterativ, so dass Wahrscheinlichkeit des Zustandekommens der beobachteten Daten maximal wird
- Gesamtwahrscheinlichkeit wird aus Einzelwahrscheinlichkeiten ermittelt
- iterativ: verschiedene Parameter werden ausprobiert; Verfahren wird abgebrochen, wenn Wahrscheinlichkeit, die beobachteten Daten zu reproduzieren im Vgl. zum vorherigen Iterationsschritt nicht mehr gesteigert wird
Wie funkitoniert der Pearson-Chi-Quadrat-Test?
- fragt: gibt es eine systematische Abweichung zwischen den beobachteten Daten und dem Modell?
- Formel für das Person-Residuum: Anzahl beobachtete Werte y=1 - Anzahl vorhergesagte Werte y=1 / geschätzte Standardabweichung der Residuen –> dann damit Chi-Quadrat-Test machen?
- Stata-Befehl: lfit
- guckt sich für jedes Kovariatenmuster an, wie viele Untersuchungseinheiten eine 1 auf der AV haben und wie viele davon gut vorausgesagt wurden
H0: es gibt keine systematische Abweichungen
H1: es gibt systematische Abweichungen
–> wir wollen insignifikantes Ergebnis
Bei den Tests: wann Variablen/ Interkations/ Quadrierunegn drin lassen?
wenn sie signifikant sind
Was ist der Wald-Test?
- ein Signifikanztest
- für große Samples ist die Wald-Statistik annähernd standardnormalverteilt und entspricht damit der z-Statistik
- Irrtumswahrscheinlichkeit für die b-Koeffizienten aus z-Statistik
- man kann damit Konfidenzintervalle berechnen mit +-1.96 Standardabweichungen/ Standardfehlern
- Nullhypothese: b-Koeffizient = 0
Wie wird McFadden R2 berechnet?
PseudoR2MF = 1 - (lnLfull / lnL0)
1 minus Loglikelihood des Fullmodells durch Loglikelihood des Nullmodells
Wie wird das Count R2 begerechnet?
lstat –> Klassifikationstabelle
Hautpdiagonale durch n
d.h.
Anzahl der richtigen 1en plus Anzahl der richtigen 0en
durch Anzahl der Beobachtungen
Wie wird das Adjusted Count R2 berechnet?
lstat –> Klassifikationstabelle
Hauptdiagonale minus Spalte mit meisten Beobachtungen durch n minus Spalte mit meisten Beobachtungen
Wie berechnet man Tjur’s D?
logistische regression cap drop p predict p, p sum p if av==1 sum p if av==0 disp --> Differenz von mean ausrechnen
Was sind Marginaleffekte und wie kann ich sie berechnen?
Sie geben die Veränderung der Wahrscheinlichkeit an.
average marginal effects
margins, dydx
marginal effects at means
margins, dydx atmeans
marginal effects at representative values
margins, dydx at(….) atmeans
und dann marginsplot
Welche Probleme können bei einem Modellvergleich auftreten und wie können diese vermieden werden?
Zur Identifikation des Modells muss die Fehlervarianz fixiert werden. Dies führt dazu, dass bei Hinzunahme erklärender Variablen die Varianz der latenten AV (Y) ansteigt. Y wird damit reskaliert und die Koeffizienten sind nicht mehr vergleichbar.
–> durch Reskalierung wird Konfundierung unterschätzt
- Fehlerterm wird festgelegt mit Mittelwert 0 und Varianz Pi-Quadrat/3
Lösungsmöglichkeiten: y-Standardisierung, KHB-Methode
qui: logit eigenheim hheink hhgroes alter west if alter<60
estimates store full
qui: logit eigenheim hhgroes alter west if e(sample)
estimates store reduced
estimates table reduced full
* –> Differenz im Alterseffekt liegt bei .005; Wirklich so klein?
findit khb
khb logit eigenheim hhgroes alter west || hheink
–> Zeigt, ob die Differenz signifikant ist
Woran noch denken bei der Effektinterpretation?
- sagen ob der Effekt signifikant oder sehr signifikant ist!