Logistische Regression Flashcards
Grundsätzliche Methodik
- Modell schätzt mit der Maximum Likelihood Schätzung die Wahrscheinlichkeit, dass Ereignis 1 (z.B. Wahlteilnahme) eintritt -> Schätzung der Wahrscheinlichkeit von Ereignis 1 (0 - 100%)
Wahrscheinlichkeitsansatz
- Es werden nicht mehr die Werte der AV selbst erklärt, sondern die Wahrscheinlichkeit dafür, dass das Ereignis 1 (hier: teilgenommen) oder 0 (hier: nicht teilgenommen) eintritt
- Wertebereich von Wahrscheinlichkeiten: zwischen 0 (Ereignis tritt mit Sicherheit nicht ein) und 1 (Ereignis tritt sicher ein)
- Werte dazwischen: sinnvoll als Wahrscheinlichkeitswerte interpretierbar
Maximum-Likelihood-Schätzung
- Schätz-Algorithmus der das Null-Modell iterativ (schrittweise) verbessert. Mit dieser Methode wird versucht, diejenigen Parameter zu finden, für die das Auftreten der vorliegenden Daten am wahrscheinlichsten sind.
- Verschiedene Parameterwerte werden schrittweise ausprobiert. Das Vorgehen wird dann abgebrochen, wenn sich die Wahrscheinlichkeit, die Daten zu reproduzieren im Vergleich zum vorigen Iterationsschritt nicht mehr gesteigert wird, also: bis keine Besserung mehr, diese werden dann als Lösung bzw. Endwert akzeptiert
—> Als Regressionskoeffizienten werden jene akzeptiert, die 1 & 0 am besten voraussagen.
Bei Maximum-Likelihood resultiert für jedes „Ausprobieren“ von Koeffizienten ein Like-lihood-Wert, der umso höher ist, je besser die ausprobierten Regressionskoeffizienten dazu in der Lage sind, die abhängige Variable vorauszusagen. Es werden die Koeffizienten akzep-tiert, bei denen der Likelihood-Wert maximal ist.
Was ist Pseudo R²?
- Gibt Auskunft über die Güte einer logistischen Modellschätzung. (Achtung! sagt im Gegensatz zu R² nichts über den Anteil ausgeschöpfter Varianz in einer Regressionsschätzung aus!)
- Pseudo-R²-Werte basieren auf Vergleich zwischen erster Iteration (= Null-Modell) und letzter Iteration (= beste Modellschätzung)
- Werte zwischen 0,2-0,4 gelten schon als hoch
- reine Fit-Indizes, die den Grad der relativen Anpassung einer Regressionsschätzung an die beobachteten Stichprobenwerte durch Vergleich der Log-Likelihood-Werte von Null-Modell (LL0) und Prädiktoren-Modell (LLP) ermitteln Ihre Zahlenwerte sind so zu interpretieren, dass diese den Prozentanteil berichten, um den der Schätzerfolgs des Null-Modells (gemessen im LL0-Wert) durch den Schätzerfolg des Prädiktoren-Modells (gemessen im LLP -Wert) verbessert werden kann. Die Pseudo-R2-Koeffizienten sind somit ein modell-relatives Gütemaß. Sie vergleichen nur die Schätzergebnisse von zwei logistischen Regressionsmodellen.
Pseudo R³
*Interpretationsbeispiel
Ein Pseudo R²-Wert von 0,2 sagt aus, dass sich der Schätzerfolg des Modells im Vergleich zum Nullmodell durch die Hinzunahme der UVs um 20% verbessert.
Wahrscheinlichkeit
*Formel
- P(Y=1)
Gegenwahrscheinlichkeit
*Formel
- 1-P(Y=1)
Odds
*Wertebereich
*Def
*Formel
- [0;+∞]
- Drücken die Chance für das Auftreten eines Ereignisses P(Yi = 1), im Verhältnis zum Nicht-Eintreten des Ereignisses 1-P(Yi =1) aus
- Wahrscheinlichkeit geteilt Gegenwahrscheinlichkeit
Odds
*Interpretation
o Odds > 1: Es ist wahrscheinlicher, dass das Ereignis eintritt, als dass es nicht eintritt
o Odds von 1: Das Eintreten und das Nicht-Eintreten des Ereignisses sind gleich wahrscheinlich
o Odds < 1: Es ist wahrscheinlicher, dass das Ereignis nicht eintritt, als dass es
Allgemeine Interpretation b-Koeffizienten:
- Je nachdem, on die b-Koeffizienten als Logits (b) oder als Odds-Ratio-Koeffizienten (eb) angegeben werden, gibt der b-Wert entweder die Änderung der Logits oder die Änderung des Chancenverhältnisses (Odds Ratio) an.
- In beiden Varianten ist nur die Richtung des Zusammenhangs , aber nicht die Werte an sich inhaltlich unmittelbar interpretierbar ( Signifikanz mit t-Test feststellbar)
Logits
* Wertebereich
* Interpretation
- [-∞; +∞]
- Logarithmierte Odds
→ Nur RICHTUNG und SIGNIFIKANZ interpretieren - positive Werte = Erhöhung der Wahrscheinlichkeit für Eintreten des Ereignisses
- negative Werte = Verringerung
Odds Ratio
*Wertebereich
*Def
- [0; +∞]
- OR drücken aus, um welchen Faktor sich der Odds-Wert (Chance) verändert, wenn statt des Odds-Wertes einer Gruppe 𝑚 der Odds-Wert einer Gruppe 𝑛 betrachtet wird* .
- OR bezeichnen also das Verhältnis der Chancen für das Auftreten der betrachteten Merkmalsausprägung der AV (z.B. Star Wars Fan) zwischen zwei Gruppen, welche sich in der Ausprägung eines unabhängigen Merkmals (z.B. Nerd/Normalo) unterscheiden.
Odds Ratio Interpretation
- k = 1: Die Odds, dass Y vorhanden, sind in der ersten und zweiten Gruppe gleich groß (kein ZH)
- k > 1: Die Odds, dass Y vorhanden, sind der ersten Gruppe sind um x-mal höher als in der zweiten Gruppe
- k < 1: Die Odds der ersten Gruppe, dass Y vorhanden, sind um x-mal geringer als in der zweiten Gruppe (Folglich: In Gruppe 2 um 1/k – höher als in Gruppe 1).