Multiple Lineare Regression Flashcards
mit k>1 Prädiktoren
Was modelliert die multiple lineare Regression? Was ist die Modellgleichung der multiplen linearen Regression? Wie ist die multiple Regression darstellbar?
Zusammenhang zwei oder mehr unabhängigen Prädiktoren mit einem Outcome
yᵢ=b₀+b₁X₁+b₂X₂+…+bₖXₖ+ɛᵢ
yᵢ=b₀+ΣbᵢXᵢᵢ +ɛᵢ
-> nach wie vor 1 Interzept, 1 Fehlerparameter
-> Neu: mehrere Parameter k, welche sich summieren
für k=2 eine Regressionsfläche, für k>2 schwer darstellbar
Slope ist Neigung der Ebene in Richtung des Prädikators
Was ist in der einfachen linearen Regression und in der multiplen Regression gleich?
- Bedingung der kleinsten Abweichungsquadrate als Schätzmethode
- Intercept und Fehlerterm
Wie werden die Parameter ermittelt?
mit der Methode der kleinsten Abweichungsquadrate
Parameter so ermittelt, dass
Σᵢɛᵢ²=min
aber jetzt nicht mehr im Sinne einer Geraden, sondern einer Ebene
Σᵢɛᵢ² trotzdem ein Skalar da nur 1 Prädiktor vorhergesagt wird
Wie sind die Slopes in der multiplen linearen Regression zu interpretieren? Wie ist die Interpretation anders im Vergleich zur einfachen linearen Regression?
- für kontinuierliche Variablen = Veränderung im Outcome wenn sich Prädiktor um eine Einheit ändert
- für dichotome Variablen =
durchschnittlichen Unterschied im Outcome zwischen den Gruppen - für Interaktionen = Durchschnittliche Änderungen in den Prädiktoren
- Regressionskoeffizienten sind für jeden Prädiktor um die anderen Prädiktoren adjustiert
- unique contribution wird pro Prädiktor herausgerechnet
-> nicht mehr ident mit Produkt-Moment-Korrelation
r(x,y) ≠ bk * ( s(x)/s(y) )
(außer in Ausnahmen, wo Prädiktoren zu r(X1,X2)=1 korrelieren)
standardisierte Slopes= partielle Korrelation von X&Y adjustiert um alle anderen Drittvariablen
Ist wichtig welche Prädiktoren miteinbezogen werden?
Ja, sehr! Wenn neuer prädiktor miteinbezogen wird, kann anderer (sonst signifikanter) Prädiktor plötzlich nicht mehr signifikant sein
Wie wird bei multipler linearer Regression auf Signifikanz getestet?
F-Test bei k>1 =
H0: b1 = b2 = b3 = … = bk = 0
–> echter Omnibustest
-> H0 verworfen wenn mind. 1 Parameter signifikant ≠ 0 ist
Welche Prädiktoren signifikant?
t-Test
Welche Bedeutung hat R in der multiplen Regression?
- beschreibt nun wirklich multiple Korrelationen mit dem Outcome
- ist nicht mehr gleich dem Slope Parameter
Wofür ist die multiple Regression gut geeignet?
Untersuchung und komplexer Modelle mit inhaltlich überlegten Prädiktoren
Ermittlung des Beitrages eines Prädiktors an der erklärten Varianz, unter Kontrolle aller anderen Prädiktoren (Drittvariablen)
gut für heterogene Stichproben, große Stichproben
-> interesse meistens: Wenn für drittvar kontrolliert, existiert Effekt noch?
(meist weniger an contribution der drittvar interessiert)
=> adjusting for confounding
Was ist das korrigierte R²?
R² steigt durch zufällige Korrelationen von Prädiktor und Outcome bei jedem hinzugefügtem Prädiktor
-> Regressionsgerade produziert Overfitting
ungenau für Populationsebene, überschätzt Varianzerklärung
R²>R²adj
ist R²adj viel kleiner -> zu viele unbedeutende Prädiktoren
Korrektur nach Wherry:
R²adj= R² - (1-R²) k / N-k-1
Korrektur nach Olkin-Pratt etwas genauer, aber unnötig für uns
Wie kann entschieden werden welche Prädiktoren hinzugenommen werden?
prinzipiell nur durch inhaltliche Überlegung
müssen eigentlich alle relevanten Prädiktoren enthalten sein, ist nicht prüfbar
Schätzer ändern sich durch Anwesenheit anderer Prädiktoren -> Reihenfolge auch wichtig
Welche Methoden der Parameterziehung in der Multiplen Regression kennen wir?
- Einschluss (Enter, forced entry) Regression
- Blockweise (hierarchische) Regression
- Schrittweise Regression
Welchen Einfluss hat die Reihenfolge der Parameterziehung?
Einfluss auf die Signifikanztests von ΔR²
im letzten Schritt ident mit Enter Methode
-> inkrementelle Validität
Ist Prädiktor noch singifikant wenn für schon bekannte Einflussfaktoren oder verwandte Konstrukte kontrolliert wird? Wie groß?
- ist Präd noch signifikant unter hinzunahme von Drittvar?
Direkte Bestimmung von ΔR² Zuwachs an erklärter Varianz
Welche Modellvoraussetzungen hat die multiple lineare Regression?
- UV ist metrisch oder dichotom. AV ist metrisch.
- Linearität des Zusammenhangs
- Homoskedastizität
- Normalverteilung der Residuen
- Unabhängigkeit der Beobachtungen
- Multikollinearität
- Additivität
- Modellspezifikation korrekt
*) weak exogenity
Was sind die Gauß-Markov Kriterien?
Modellvoraussetzungen gegenüber der Residuen = Residualanalye -> model diagnostics
ɛi=yi-ŷi
E[ɛ]=0
Unabhängigkeit: Residuen untereinander unkorreliert
Normalverteilt: Erwartungswert 0
Homoskedastisch: konstant und unabhängig dh hoher/niedriger Testscore enthält gleich viel Fehler
Welches Skalenniveau hat AV?
metrisch -> geht ja um Varianzanalyse
Was bedeutet Linearität des Zusammenhangs in Bezug auf die Regressionsanalyse? Wie linearität prüfbar?
Effekt des Prädiktors auf alle Outcomes gleich
nicht etwa qudratisch, kubisch, etc.
grafisch mittels Streudiagramm prüfbar
sollte kein Muster zeigen sondern 1 gerader Streifen, keine Ausreißer