3 Logistische Regressionsanalyse Flashcards
Was ist die logistische Regression?
Eine Regressionsmethode zur Modellierung einer dichotomen abhängigen Variable (z. B. Ja/Nein, 0/1).
Wann verwendet man eine logistische Regression?
Wenn die abhängige Variable binär ist und eine lineare Regression nicht geeignet wäre.
Wie lautet die Grundform der logistischen Regression?
logit(P) = ln(P / (1-P)) = β0 + β1X
Was ist der Unterschied zwischen einfacher und multipler logistischer Regression?
Einfache logistische Regression hat nur eine unabhängige Variable, multiple logistische Regression mehrere unabhängige Variablen.
Wie werden die Parameter in der logistischen Regression geschätzt?
Mit der Maximum-Likelihood-Methode (ML), die Werte findet, die die beobachteten Daten am wahrscheinlichsten machen.
Wie testet man einen einzelnen Parameter?
Mit dem Wald-Test, der prüft, ob ein Regressionskoeffizient signifikant von Null abweicht.
Wie testet man ein Set von unabhängigen Variablen?
Mit dem Likelihood-Ratio-Test (LRT), der prüft, ob das Modell mit mehreren Prädiktoren besser ist als ohne sie.
Was bedeutet eine signifikante Likelihood-Ratio-Teststatistik?
Dass das Modell mit den unabhängigen Variablen eine bessere Anpassung hat als das Nullmodell.
Welche Effektgrößen gibt es in der logistischen Regression?
Odds Ratio (OR), Pseudo-R²-Werte (z. B. Nagelkerke R²), Likelihood-Ratio-Test.
Was bedeutet ein Odds Ratio (OR)?
OR gibt an, wie stark eine unabhängige Variable die Wahrscheinlichkeit eines Ereignisses beeinflusst.
Wie klassifiziert man mit einer logistischen Regression?
Durch die Berechnung der vorhergesagten Wahrscheinlichkeit und Festlegung eines Cut-Off-Werts (z. B. 0.5 für Ja/Nein).
Was ist eine Konfusionsmatrix?
Eine Tabelle, die zeigt, wie viele Fälle korrekt oder falsch klassifiziert wurden.
Wie überprüft man die Modellspezifikation?
Durch Tests auf fehlende Prädiktoren, nicht-lineare Zusammenhänge und Wechselwirkungen.
Wie misst man die Modellanpassungsgüte?
Mit dem Hosmer-Lemeshow-Test oder Pseudo-R²-Werten wie Nagelkerke R².
Was sind Messfehler in unabhängigen Variablen?
Fehlmessungen, die zu verzerrten Schätzungen der Regressionskoeffizienten führen können.
Wie erkennt man Multikollinearität in der logistischen Regression?
Durch hohe VIF-Werte oder hohe Korrelationen zwischen unabhängigen Variablen.
Wie identifiziert man Ausreißer in der logistischen Regression?
Mit Cook’s Distance oder der hat-Matrix, die zeigt, ob einzelne Datenpunkte starken Einfluss auf das Modell haben.
Welche Werte deuten auf einflussreiche Datenpunkte hin?
Cook’s Distance > 1 oder standardisierte Residuen > 2.