Logistische Regression Flashcards

1
Q

Grundsätzliche Methodik

A
  • Modell schätzt mit der Maximum Likelihood Schätzung die Wahrscheinlichkeit, dass Ereignis 1 (z.B. Wahlteilnahme) eintritt -> Schätzung der Wahrscheinlichkeit von Ereignis 1 (0 - 100%)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wahrscheinlichkeitsansatz

A
  • Es werden nicht mehr die Werte der AV selbst erklärt, sondern die Wahrscheinlichkeit dafür, dass das Ereignis 1 (hier: teilgenommen) oder 0 (hier: nicht teilgenommen) eintritt
  • Wertebereich von Wahrscheinlichkeiten: zwischen 0 (Ereignis tritt mit Sicherheit nicht ein) und 1 (Ereignis tritt sicher ein)
  • Werte dazwischen: sinnvoll als Wahrscheinlichkeitswerte interpretierbar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Maximum-Likelihood-Schätzung

A
  • Schätz-Algorithmus der das Null-Modell iterativ (schrittweise) verbessert. Mit dieser Methode wird versucht, diejenigen Parameter zu finden, für die das Auftreten der vorliegenden Daten am wahrscheinlichsten sind.
  • Verschiedene Parameterwerte werden schrittweise ausprobiert. Das Vorgehen wird dann abgebrochen, wenn sich die Wahrscheinlichkeit, die Daten zu reproduzieren im Vergleich zum vorigen Iterationsschritt nicht mehr gesteigert wird, also: bis keine Besserung mehr, diese werden dann als Lösung bzw. Endwert akzeptiert

—> Als Regressionskoeffizienten werden jene akzeptiert, die 1 & 0 am besten voraussagen.

Bei Maximum-Likelihood resultiert für jedes „Ausprobieren“ von Koeffizienten ein Like-lihood-Wert, der umso höher ist, je besser die ausprobierten Regressionskoeffizienten dazu in der Lage sind, die abhängige Variable vorauszusagen. Es werden die Koeffizienten akzep-tiert, bei denen der Likelihood-Wert maximal ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Pseudo R²?

A
  • Gibt Auskunft über die Güte einer logistischen Modellschätzung. (Achtung! sagt im Gegensatz zu R² nichts über den Anteil ausgeschöpfter Varianz in einer Regressionsschätzung aus!)
  • Pseudo-R²-Werte basieren auf Vergleich zwischen erster Iteration (= Null-Modell) und letzter Iteration (= beste Modellschätzung)
  • Werte zwischen 0,2-0,4 gelten schon als hoch
  • reine Fit-Indizes, die den Grad der relativen Anpassung einer Regressionsschätzung an die beobachteten Stichprobenwerte durch Vergleich der Log-Likelihood-Werte von Null-Modell (LL0) und Prädiktoren-Modell (LLP) ermitteln Ihre Zahlenwerte sind so zu interpretieren, dass diese den Prozentanteil berichten, um den der Schätzerfolgs des Null-Modells (gemessen im LL0-Wert) durch den Schätzerfolg des Prädiktoren-Modells (gemessen im LLP -Wert) verbessert werden kann. Die Pseudo-R2-Koeffizienten sind somit ein modell-relatives Gütemaß. Sie vergleichen nur die Schätzergebnisse von zwei logistischen Regressionsmodellen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Pseudo R³
*Interpretationsbeispiel

A

Ein Pseudo R²-Wert von 0,2 sagt aus, dass sich der Schätzerfolg des Modells im Vergleich zum Nullmodell durch die Hinzunahme der UVs um 20% verbessert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wahrscheinlichkeit
*Formel

A
  • P(Y=1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Gegenwahrscheinlichkeit
*Formel

A
  • 1-P(Y=1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Odds
*Wertebereich
*Def
*Formel

A
  • [0;+∞]
  • Drücken die Chance für das Auftreten eines Ereignisses P(Yi = 1), im Verhältnis zum Nicht-Eintreten des Ereignisses 1-P(Yi =1) aus
  • Wahrscheinlichkeit geteilt Gegenwahrscheinlichkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Odds
*Interpretation

A

o Odds > 1: Es ist wahrscheinlicher, dass das Ereignis eintritt, als dass es nicht eintritt
o Odds von 1: Das Eintreten und das Nicht-Eintreten des Ereignisses sind gleich wahrscheinlich
o Odds < 1: Es ist wahrscheinlicher, dass das Ereignis nicht eintritt, als dass es

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Allgemeine Interpretation b-Koeffizienten:

A
  • Je nachdem, on die b-Koeffizienten als Logits (b) oder als Odds-Ratio-Koeffizienten (eb) angegeben werden, gibt der b-Wert entweder die Änderung der Logits oder die Änderung des Chancenverhältnisses (Odds Ratio) an.
  • In beiden Varianten ist nur die Richtung des Zusammenhangs , aber nicht die Werte an sich inhaltlich unmittelbar interpretierbar ( Signifikanz mit t-Test feststellbar)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Logits
* Wertebereich
* Interpretation

A
  • [-∞; +∞]
  • Logarithmierte Odds
    → Nur RICHTUNG und SIGNIFIKANZ interpretieren
  • positive Werte = Erhöhung der Wahrscheinlichkeit für Eintreten des Ereignisses
  • negative Werte = Verringerung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Odds Ratio
*Wertebereich
*Def

A
  • [0; +∞]
  • OR drücken aus, um welchen Faktor sich der Odds-Wert (Chance) verändert, wenn statt des Odds-Wertes einer Gruppe 𝑚 der Odds-Wert einer Gruppe 𝑛 betrachtet wird* .
  • OR bezeichnen also das Verhältnis der Chancen für das Auftreten der betrachteten Merkmalsausprägung der AV (z.B. Star Wars Fan) zwischen zwei Gruppen, welche sich in der Ausprägung eines unabhängigen Merkmals (z.B. Nerd/Normalo) unterscheiden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Odds Ratio Interpretation

A
  • k = 1: Die Odds, dass Y vorhanden, sind in der ersten und zweiten Gruppe gleich groß (kein ZH)
  • k > 1: Die Odds, dass Y vorhanden, sind der ersten Gruppe sind um x-mal höher als in der zweiten Gruppe
  • k < 1: Die Odds der ersten Gruppe, dass Y vorhanden, sind um x-mal geringer als in der zweiten Gruppe (Folglich: In Gruppe 2 um 1/k – höher als in Gruppe 1).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly