12 Multiple Regression Flashcards
Ziel 1 von multipler Regression
(Ziel, wann Z sinnvoll, 2 Erweiterungen, welche Z ins Modell)
Ziel 1: adjustierte Assoziationen zu berechnen: Z von X abkoppeln
- nur sinnvoll, wenn Kontrollvariable für alle x gleich möglich (z.B. compliance nicht in Kontrollgruppe möglich!)
–> kausale Erweiterung: nach mehr Z adjustieren (backdoor!)
–> Mechanismus Erweiterung: nach Mediator (zeitl. zw. X und Y) adjustieren
!! immer alle Z ins Modell mit reinnehmen, nicht nur signifikante (keine Variablenselektion, sonst Effektüberschätzung)
Stichprobengröße
(Anzahl, Bsp, Ausweg)
mind. 20 Beobachtungen pro Parameter
Bsp: x, 5 Z-Variablen, intercept = 7 Parameter –> 140 Beob.
Ausweg: Regularisierungsverfahren (berechnen z.B. Effektgröße mit ein)
Ziel 2 von multipler Regression
(Ziel, 2, 3 simple Methoden, 3 Alternativverfahren)
Modellbildung, bestmögliche Y-Vorhersage
- welche Variablen sagen Y vorher, welche sind am wichtigsten?
- alle Kovariablen x gleichberechtigt
- simple Methoden:
Rückwärtsselektion (größtes p in jedem Schritt rauslassen, + bessere Modelle, - große Stichprobe nötig)
Vorwärtsselektion (ohne x beginnen, +1 x mit kleinem p-Wert)
kombinierte R-V-Selektion (wie R, aber bereits entfernte x dürfen wieder rein)
Alternativverfahren:
- LASSO/ridge regression/elastic net regression (nimmt an, dass Summe aller beta bestimmten Wert nicht überschreitet –> stabilisiert Schätzung; tuning parameter mit Kreuzvalidierung bestimmen)
- support vector machines (bei hochdimensionalem x & kategorialen Y)
- random forests/”ensemble method” (viele Modelle + diese averagen –> durchschnittliches Y berechnen)
–> big data Methoden nur zur Vorhersage; kausale Modelle noch in Arbeit
Overfitting
(Def., zuviele beta, Modellgüte-Kriterium)
- Modell überangepasst zu Datensatz, passt schlechter zu anderen Daten
- zuviele beta Parameter in Modell –> großer Zufallsfehler –> nicht replizierbar
- Kriterium für Modellgüte: wie groß ist mean squared error (MSE)?
Erklärungswert vs. Modellgüte
(R^2, Modellpassung überprüfen: 1(2) + 1(2-)
- R^2 quantifiziert Erklärungswert, NICHT Modellpassung/-güte
- Modellpassung überprüfen
a) Residuenplots
1. Streudiagramm: vorhergesagte Werte/Y gegen Residuen plotten: bei zufälliger Streuung passt Modell gut
2. Kerndichteschätzung der Residuen –> Verteilung von Gruppen per Auge vergleichen
b) statistische Tests - Nachteile: von Stichprobengröße abhängig - größere Abweichungen in kleinen Stichproben signifikant
- kleinere Abweichungen in größeren Stichproben signifikant
Schlechte Modellpassung heilen
(3, !! bei Interaktionsterm)
- x-Variablen anders spezifizieren, z.B. + Interaktionsterme, + quadrat./kubische Terme
- Y anders spezifizieren, z.B. multiplikativer statt additiver Unterschied –> GLM!
- Y transformieren, sodass eher normalverteilt
!! Interaktionsterm im Modell: Vorsicht bei Interpretation, dies sind KEINE Haupteffekte für alle Probanden, sondern jeweils nur wenn andere Gruppe/Kondition = 0
Erklärungswert bei logistischer Regression (2)
AUC verwenden, statt “pseudo R^2” –> führt oft zu Missverständnis weil kleine Zahl trotz großem Erklärungswert
(AUC - 0.5) * 2 –> liegt zwischen 0 & 1
Konflikt bei Modellbildung
- je mehr Voranalysen, umso besser Passung
- je mehr Voranalysen, umso mehr Variation und evtl. p-hacking MIssbrauch (Modell mit gewünschtem Ergebnis wählen)
–> Modelle wie geplant anwenden, dann EXPLORATIV weitere ausprobieren und evtl. für Zukunft vorschlagen
Fragestellung in Modell übersetzen