3 Logistische Regressionsanalyse Flashcards

1
Q

Was ist die logistische Regression?

A

Eine Regressionsmethode zur Vorhersage der Wahrscheinlichkeit mittels, eine bestimmte Ausprägung einer kategorialen (meist dichotomen, z. B. Ja/Nein, 0/1) abhängigen Variable anzunehmen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist binär logistisch vs. multinominal logistisch?

A

binär logistisch: dichotome AV, z.B. Aufgabe nicht gelöst (=0) vs. Aufgabe gelöst (=1)

multinominal logistisch: mehrkategoriale AV, z.B. Antworten “ja”, “nein”, “weiss nicht”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wann verwendet man eine logistische Regression?

A

Wenn die abhängige Variable kategorial (meist binär) ist und eine lineare Regression nicht geeignet wäre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie lautet die Grundform der logistischen Regression?

A

logit(P) = ln(P / (1-P)) = β0 + β1X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist der Unterschied zwischen einfacher und multipler logistischer Regression?

A

Einfache logistische Regression hat nur eine unabhängige Variable, multiple logistische Regression mehrere unabhängige Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie werden die Parameter in der logistischen Regression geschätzt?

A

Mit der Maximum-Likelihood-Methode (ML), die Werte findet, die die beobachteten Daten am wahrscheinlichsten machen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist die Maximum-Likelihood-Schätzung?

A

Ähnlich wie die Kleinste-Quadrate-Schätzung -> Es wird versucht, eine Funktionskurve zu finden, die möglichst gut zu den Daten passt. ABER: Sie ist keine gerad emehr, sondern eine logistische Funktion!

-> Sie saget für die beobachteten y-Werte mölglichst hohe Wahrscheinlichkeiten voraus, wenn y = 1 ist und möglichst tiefe, wenn y = 0 ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie ist die Regressionsgleichung bei der logistischen Regression darstellbar?

A
  • in Form bedingter Wahrscheinlichkeiten der AV (häufig nicht möglich in Jamovi)
  • in Form bedingter Wettquatienten (Odds, Odds-Ratio)
  • in Form von Logits (Log-Odds, logarithmierte bedingte Wettquotienten) -> als einzige eine lineare Regressionsfunktion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist die Darstellung der bedingten Wahrscheinlichkeit der AV?

A
  1. Den Kategorien Werte zuordnen (z.B. 1 für die interessierende Kategorie, 0 für die andere Kategorie)
  2. Gleichung siehe Bild
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie könnte eine Darstellung der Bedingten Wahrscheinlichkeit aussehen?

A
  • Krümmung weist auf die logistische Regression hin
  • eine Person, die 0 positive Tagesereignisse zuv erzeichnen hatte, hat trotzdem eine wahrscheinlichkeit von 50% anzugeben, dass er/sie zufrieden mit dem Leben ist. Die Wahrscheinlichkeit steigt mit jedem positiven Lebensereigniss (aber nicht auf einer geraden/linear), da die Kurve abflacht.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was bedeutet beta0 bei der “bedingten Wahrscheinlichkeit” der logistischen Regression?

A

wie überall auch “das allgemeine Niveau”

-> meist weniger interessant als b1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist beta1 bei der “bedingten Wahrscheinlichckeit” der logistischen Regression

A

Stellt die Steigung dar

b1 zeigt Zunahme/Abnahme der Wahrscheinlichkeit bei steigendem X

-> Wenn b1 > 0, dann ist die Wahrscheinlichkeit von Y = 1 eine monoton steigende Funktion
-> wenn b1< 0. dann ist die wahrscheinlichkeit von Y = 1 eine monoton fallende funktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind bedingte Wettquotienten (Odds)?

A

Verhältnis aus der Wahrscheinlichkeit eines Ereignisses (trifft ein) und seiner Gegenwahrscheinlichkeit (trifft nicht ein) in Abhängigkeit der Ausprägung von X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie könnte eine Darstellung der Wettquotienten aussehen?

A
  • anders als bei der Bedingten Wahrscheinlichkeit bewegt man sich auf der y-Achse nicht mehr zwischen 0 und 1
  • Mit dem Wechsel von 0 auf 1 positives Tagesereignis steigt die Angabe der Lebenszufriedenheit nur wenig.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist b0 bei den bedingten Wettquotienten der logistischen Regression?

A

entspricht den Odds an der Stelle von X0 (Beispiel: Wie ist die Wahrscheinlichkeit zu erfrieren bei X=0 = Temperatur 0 Grad)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist b1 bei den bedingten Wettquotienten der logistischen Regression?

A

entspricht dem Odds-Ratio

(z.B. Was ist die Wahrscheinlichkeit zu erfrieren, wenn die unabhängige Variable um einen Grad erhöht wird?)

17
Q

Was ist der logarithmierte Wettquotient? Formel?

18
Q

Was bedeutet ein Wettquotient von 1?

A

Die Wahrscheinlichkeit von Erfolg und Misserfolg ist gleich gross.

Odds > 1 → Erfolg ist wahrscheinlicher als Misserfolg
Odds < 1 → Erfolg ist unwahrscheinlicher als Misserfolg
Odds = 1 → Erfolg und Misserfolg sind gleich wahrscheinlich

19
Q

Wie könnte die Darstellung der Logits aussehen?

A
  • nun haben wir eine Gerade, die wir viel einfacher Interpretierten können
20
Q

Was bedeutet b0 bei den Logits der logistischen Regression?

A

Logit an der Stelle X = 0

21
Q

Was bedeutet b1 bei den Logits der logistischen Regression?

A

Veränderung des Logits, wenn X um eine Einheit erhöht wird.

22
Q

Welche Effektgrössen gibt es in der logistischen Regression für einzelne UVs?

A

-Odds Ratio (OR)

23
Q

Welche Effektstärken gibt es in der logistischen Regression für das Gesamtmodell?

A
  • McFadden-Index
  • Cox & Snell-Index
  • Nagelkerke-Index
24
Q

Was ist ein Nullmodell (Basismodell, Intercept-only-Modell)?

A
  • Modell ohne Prädikatoren
  • Es sagt nur, wie viele Fälle zu einer Kategorie gehören (Berückstigtigt nur das Gesamtmodell von 1ern und 0ern)
  • McFadden Index misst z.B., wie viel besser ein Modell mit Prädiktoren ist im Vergleich zum Nullmodell.
25
Was ist das maximal eingeschränkte vs. das uneingeschränkte Modell?
* **uneingeschränkt:** Modell mit Prädikatoren * **eingeschränkt:** Enthält jeweils einen Prädikator weniger als das uneingeschränkte Modell -> man vergleicht, wie viel besser das uneingeschränkte Modell funktioniert im vergleich zum eingeschränkten (d.h. was der entsprechende Prädikator beiträgt) (sind abhängig, immer eins weniger)
26
Was ist das Nullmodell vs. das saturierte Modell
Das Nullmodell enthält keine Prädiktoren und das saturierte Modell (maximum likelyhood) enthält alle möglichen Prädiktoren (ist rein ein rechnerischer Trick, man kennt nicht wirklich alle Prädiktoren) (Die beiden Modelle sind unabhängig)
27
Was bedeutet ein Odds Ratio (OR)?
OR gibt an, wie stark eine unabhängige Variable die Wahrscheinlichkeit eines Ereignisses beeinflusst.
28
Wofür braucht man Klassifikation in der logistischen Regression?
Wenn man den Wert einer Person vorhersagen will, auf der abhängigen Variable anhand der Regressionsgleichung (eine Person, die nicht zur Stichprobe gehörte)
29
Wie klassifiziert man mit einer logistischen Regression?
Durch die Berechnung der vorhergesagten Wahrscheinlichkeit und Festlegung eines Cut-Off-Werts (Schwellenwert) (z. B. 0.5 für Ja/Nein).
30
Wie misst man die Klassifikationsgüte? (Wie gut ist mein Modell, die Personen korrekt zu klassifizieren?)
Man schaut sich die "Trefferquote" der Stichprobe im Nachhinein an -> achtung, zunahme von prädiktor heisst nicht, dass klassifikation besser wird, das heisst aber nicht, dass dieser Prädiktor nicht wichtig wäre, weil rein durch die Verteilung bereits ein hoher Wert stehen kann (siehe Bild)
31
Nennen Sie einen Beruf, in dem es von Vorteil ist, die Grundzüge der Klassifikation zu kennen und erläutern Sie, warum dem so wäre:
Psychotherapeut:in, besonders in der Diagnostik. In der diagnostischen Anwendung der logistischen Regression wird ein Schwellenwert benötigt, um anhand der berechneten Wahrscheinlichkeit eine Entscheidung zu treffen, ob eine Diagnose gestellt wird oder nicht. Antwort aus Moodle: Ärztin/Psychologe: Wenn eine Ärztin oder ein Psychologe die Grundzüge der Klassifikation verstehen, können sie ausrechnen, mit welcher Wahrscheinlichkeit bei einer Person eine Krankheit oder psychische Störung auftreten wird gegeben unterschiedlicher individueller Merkmale (Verhaltensweise wie Bewegung, Ernährung, genetische Vorbelastung etc.). Marktforschende: Wenn Marktforschende das Kaufverhalten von Personen kennen, können sie unter Hinzunahme ihres Klassifikationswissen die Wahrscheinlichkeit berechnen, dass eine Person ein zukünftiges Produkt kaufen wird.
32
Was ist eine Konfusionsmatrix?
Eine Tabelle, die zeigt, wie viele Fälle korrekt oder falsch klassifiziert wurden.
33
Wie identifiziert man Ausreißer in der logistischen Regression?
Mit Cook’s Distance oder der hat-Matrix, die zeigt, ob einzelne Datenpunkte starken Einfluss auf das Modell haben.
34
Welche Werte deuten auf einflussreiche Datenpunkte hin?
Cook’s Distance > 1 oder standardisierte Residuen > 2.
35
Welche Bedeutung hat β0 in einer logistischen Regressionsanalyse?
* β0 ist der Schnittpunkt des Logits mit der y-Achse, wenn X = 0. * β0 gibt den Logit für Y = 1 an, wenn X = 0.:
36
Wann ist ds Mcfadden R2 gut in der logistischen Regression?
Wenn der Chi-Quadrat-Test signifikant ist.