Logistische Regression Flashcards
Welche Unterschiede in den Voraussetzungen haben ALM und Genlins Modelle?
ALM setzt voraus:
- metrisches Outcome
-normalverteilte Fehler
Genlins kommt klar mit Voraussetzungsverletzungen bezüglich Heteroskedastizität, nicht-linearität, binäre outcomes (Extremfall boundedness, diskretheit)
Was passiert wenn man ein dichothomes Outcome mit ALM modelliert?
- Outcomes sind nicht metrisch, dh nicht kontinuierlich und unbeschränkt sondern Extremfall von Diskretheit & Beschränktheit (boundedness)
- Residuen nicht normalverteilt sondern um 0 und 1 geclustered
- Linearitätsannahme verletzt
-> Modell macht unsinnige Vorhersagen
Was ist die Grundidee des Generalisierten Linearen Models?
Linearkombinationen modellieren nicht direkt den Zusammenhang, sondern mittels link function
E(Y)=f ⁻¹[Linearkombination(X)]
Umkehrfunktion der link function wird unser Modell (aus mathematischen Gründen)
ALM ist Spezialfall mit dem identity link id(x)=x
unterschiede der Modelle in den link functions & inhaltlicher Interpretierbarkeit der Parameter
Was ist die Grundidee einer logistischen Regression? Welchen Wertebereich hat sie? Welche Probleme löst sie
mittels logit-Funktion als link function wird linearer Zusammenhang exponiert
vorhergesagte Werte liegen nur zwischen [0,1]
löst linearitätsproblem
Regressionskurve mit oberer und unterer Asymptote
Vorhergesagter Wert: Wahrscheinlichkeit Y=1 zu zeigen, unter der Linearkombination der Prädiktoren
-> löst Problem der Diskretheit:
Wahrscheinlichkeiten sind kontinuierlich aber beschränkt im Intervall [0,1] = boundedness
Was ist ein logit? Was bildet die logit Funktion ab?
logistic unit, auch log-odds
= natürlicher Logarithmus der Odds von Wahrscheinlichkeit p
-> Wahrscheinlichkeit p [0,1] als Zahl zwischen [-∞,∞] ab, löst boundedness
Linearkombination t liegt auf der Logitskala, Skalar
Wie kann die logistische Regression interpretiert werden?
P(Y=1|X) = Wahrscheinlichkeit für ein Outcome gegenüber dem anderen Outcome zu zeigen, gegeben den Prädiktor
Modelliert die Odds mittels exponierten linearkombinationen der Prädiktoren
Umkehrfunktion der logit Funktion -> verkehrte Achsen
modelliert nicht Outcome direkt sondern Wahrscheinlichkeit des Auftretens für Y
Welche Probleme löst die logistische Regression? Wie sieht die Funktion bei mehreren Prädiktoren aus?
löst:
- Diskretheit
- boundedness
- nicht-linearität
- liefert Vorhersage für dichotome outcomes mittels Wahrscheinlichkeiten
funktionale Assoziation immer in 2-dimensionalem Koordinatensystem der Wahrscheinlichkeit modelliert, auch bei k>1 Prädiktoren -> Regressionsebene auf Ebene der Logits dank link function
Was gibt das OR an?
Odds (x+1) / Odds (x) = OR = exp(b1)
Gibt die Wahrscheinlichkeitszunahme für Outcome Y=1 an, wenn der Prädiktor um eine Einheit steigt
Was ist das Assoziationsmaß (=Zusammenhangsmaß) der logistischen Regression?
OR
= wie stark ändern sich die Chancen für Y=1 wenn Prädiktor um eine Einheit ansteigt?
bei metrischen Prädiktoren:
exp(bj)ᵏ
für k Einheiten Veränderungen im Prädiktor
Welche Werte werden in der logistischen Regression für die Ergebnisinterpretation verwendet?
OR, am besten gleich gepolt um vergleichbar zu machen
Varianzerklärung mit pseudo R²
= indirektes Maß d. Varianzerklärung
geschätzt auf Basis des Vergleichs der log-likelihood eines Modells ohne Prädiktoren (baseline) mit einem Modell mit Prädiktoren (=maximum likelihood Methode)
mittels Devianz (-2LL) geschätzt
Wie funktioniert die Parameterschätzung der logistischen Regression?
Maximum Likelihood Methode
= bestimmt wahrscheinlichste Parameter angesichts modellierter Verteilung & beobachteter Daten
(wenn NVT -> OLS, in logistischer Regression Bernoulli Verteilung)
- meist log-likelihood verwendet
Wie wird das logistische Regressionsmodell auf Signifikanz getestet?
Omnibustest Analog zu multiple Regression aber Chi2 verteilt -> wenn signifikant erklärt Modell statistisch überzufällig das Outcome
hier: Likelihood ratio test (LR)
berechnet via Devianz = -2LL
Chi2=2LL(Modell)-2LL(Baseline)
es resultiert: z-verteilte Prüfstatistik
-> jeder einzelner Prädiktor mittels Wald-Test auf Signifikanz getestet
z = b : SE(b) (wie t Wert bei multiple lineare Regression)
Welche Schätzer für pseudo R2 gibt es für die logistische Regressionsanalyse?
zB Nagelkerke
Cox & Snell
Hosmer & Lemeshow
Wie kann für einen konkreten Wert x die Wahrscheinlichkeit für ein Outcome Y laut logistischer Regression berechnet werden?
t= bo+ ∑bjxj
P(Y=1|X=x)= 1 / 1-e⁻ᵗ
Welche Voraussetzung hat eine logistische Regression?
im wesentlichen die der multiplen linearen Regression aber ums Eck
- AV ist dichotom.
- Linearität zwischen Prädiktoren und logit des Outcomes
- Unabhängige Fehler
- keine Ausreißer
- keine Multikollinearität
* . Vollständige Information
* . keine Complete seperation
Wie kann die Linearität des Zusammenhangs der Prädiktoren mit dem Logit des Outcomes geprüft werden?
für dichotome Prädiktoren automatisch gegeben (Gruppenunterschied entspricht Slope)
für metrische Prädiktoren mittels Hinzunahme einer Wechselwirkung -> LR test -> wenn sig -> problem
Wechselwirkung nachher wieder entfernen!
grafische Prüfung:
Streudiagramme, weicht Linie deutlich von Gerade ab = Hinweis auf nicht-linearität
Wie können einflussreiche Fälle und Ausreißer in den Residuen in der logistischen Regression diagnostiziert werden?
zB Cook-Distanzen<1 unproblematisch
Hebel-Werte
Welche Konsequenzen haben abhängige Beobachtungen für die logistische Regression? Wie kann dafür kontrolliert werden?
-> Overdispersion
Standardfehler wird zu klein geschätzt
p-Werte zu groß
zu schnell signifikant
Typ-1-Fehler-Rate steigt
weniger Auswirkungen auf Parameterschätzer selbst
-> aus Untersuchungsdesign ableitbar, wenn Abhängigkeit gegeben -> Multilevel Modell oder Ergänzung um dispersion parameter (selten)
Was ist overdispersion? Wodurch wird es verursacht? Was ist die Konsequenz?
- die beobachtete Varianz ist größer als im Modell erwartet
kann eigentlich nur bei aggregierten/grouped Daten mit relativer statt absoluter Häufigkeit
1. abhängige Beobachtungen (zB Familie)
2. Erfolgswahrscheinlichkeit variieren zwischen Beobachtungen (zB Wahrscheinlichkeit Verbesserung)
3. Drittvariablen/Konstanten fehlen im Modell
-> schwer zu entscheiden was Ursache ist
Konsequenz: AV ist nicht wirklich binomial, Modellierung nicht mehr gültig
Lösung: Multilevel Modell verwenden, mehr Prädiktoren zB Dispersionsparameter
Wie kann Multiollinearität in der logistischen Regression überprüft werden?
zB VIF=1
beachte: VIF unabhängig vom Outcome, könnte also auch mit multipler linearer Regression berechnet werden
Was sind die Folgen von incomplete information im logistischen Regressionsmodell? Was kann man tun?
wenn nicht alle Merkmalskombinationen der Prädiktoren in den Daten vorhanden sind
-> standardfehler steigt
-> Power sinkt
-> KIs werden sehr groß für bestimmte Prädiktoren
->Beta Fehler steigt
Mehr Daten sammeln
ggf Prädiktor entfernen/zusammenlegen
Was sind die Folgen von complete separation im Regressionsmodell? Was kann man tun?
kategoriale Prädiktoren oder Kombination von Prädiktoren erklären das outcome perfekt
zB alle Männer linksfüßig, alle Frauen rechtsfüßig
–> Parameterschätzung unmöglich
je ungleicher verteilt je geringer testmacht
passiert vA bei seltenen Outcomes und kleinem Sample
Mehr Daten sammeln für mehr Variation
ggf Prädiktor entfernen
Wie können Prädiktoren in das logistische Regressionsmodell aufgenommen werden?
einschluss
blockweise
schrittweise
Zunahme erklärter Varianz wird mittels LR Test überprüft
Delta Chi = Chi2(mehr Präd) - Chi2(weniger Präd)
Was ist das Modell der multinomialen logistischen Regression?
kategoriale Outcomes mit >2 Ausprägungen generalisiert
getestet wird prädiktiver Wert der Prädiktoren in Vorhersage jeder einzelnen Ausprägung des Outcomes gegenüber einer gemeinsamen baseline Referenzgruppe (also wie eine Serie von log. Regressionsanalysen)
-> Omnibustest und Signifikanz der Prädiktoren in jeder Stufe
mehr Daten benötigt desto mehr Ausprägungen
Wie sind die Regressionskoeffizienten der logistischen Regression zu interpretieren?
so direkt nicht interpretierbar
e^(b1) = OR für Y=1 wenn X+1
-> wie verändert sich die Wahrscheinlichkeit für Y=1 wenn der Prädiktor um eine Einheit steigt
e^(bj)=1 kein Effekt
e^(bj)<1 negativer Effekt
e^(bj)>1 positiver Effekt
Kehrwert = 1/e^(bj) = Umpolung des Outcomes