Multiple Regression Flashcards
Was macht eine multiple Regression
Sie beachtet die Einflüsse mehrere Prädiktoren gleichzeitig
Was sind orthogonale Variablen?
Variablen, die nicht miteinander korreliert sind
Wie sieht die erweiterte Modellgleichung auf zwei Prädiktoren aus?
^Y = b1 * X1 + b2 * X2 + a
Weiteres Vorgehen: Gesucht werden b1, b2 und a mit denen die Summe der quadrierten Abweichungen der vorhergesagten von den empirischen Werten (also den Residuen) minimal wird
Visualisierung einer multiplen Regression
- als Ebene im dreidimensionalen Raum
3D-Scatterplot mit “optimaler” Ebene
s.F.6 - Im 3D Modell gibt es zwei Achsen für den Prädiktor, y-Achse ist das Kriterium, die Kugeln/ Punkte sind die empirischen Messwerte, ihre Abstände zur Ebene die Residuen
s. F. 7
Berechnung einer multiplen Regression mit R
- Berchnung: Wir fügen dem Modell einfach ein weiterer Prädiktor additiv hinzu
modell
Bestimmung der Koeffizienten bei orthogonalen Prädiktoren
- zwei einfache lineare Regression, weil jeder Prädiktor distinkte Teile der Gesamtvariabilität der Daten bindet
Da beide Prädiktoren nicht miteinander korrelieren - Den Achsenabschnitt a können wir in diesem Fall berechnen als: a = My - (b1 * Mx1 + b2 * Mx2)
Zentruid
Aus dem Mittelwert von X1, X2 und dem Mittelwert von Y kann man dem Mittelwert nehmen. Dieser Wert liegt immer auf der Regressionsgeraden/-ebenen und heißt Zentruid
aufgeklärte Varianz R²
- bei der einfachen linearen Regression R² = r²
- bei der multiplen Regression: Bildung eines “Summenscores” W, der eine Linearkombination der Prädiktoren mit den Regressionskoeffizienten darstellt:
W = b1 * X1 + b2 * X2 - dann nimmt man die quadrierte Korrelation zw. Y und W
- Daher ist R² bzw. genauer R selber eine Korrelation, nämlich zw. empirischen und vorhergesagten Werten, der multiplen Korrelationskoeffizient
- Bei orthogonalen Prädiktoren: R² ist die Summe der quadrierten Korrelationen zw. Y und den Prädiktoren:
R² = r²y, x1 + r²y,x2
Für Beispiel und Interpretation einer multiplen Regression s. F. 15-19
Allgemeiner Ansatz bei intervallskalierten Prädiktoren und Kriterium: q-viele Prädiktoren
- Generell kann die bisher verwendete Regressionsgleichung auf beliebig viele Prädiktoren erweitert werden:
^Y = a + b1* X1 + b2 * X2+ … + bq * Xq - Bestimmung der Koeffizienten nicht mehr durch einfache lineare Regression und Lösung von Hand möglich
- Darstellung:
1 Prädiktor: Gerade - Prädiktoren: Ebene
>2 Prädiktoren: graphische Illustration nicht mehr möglich
Allgemeiner Ansatz bei intervallskalierten Prädiktoren und Kriterium: Interpretation der Regressionsgewichte einer multiplen Regression
- Erste Interpretation:
als Regressionsgewicht bedingter einfacher linearer Regressionen aufgefasst werden, d.h. einfacher linearer Regressionen wenn der Wert des jeweils anderen Prädiktors konstant gehalten wird. - Zweite Interpretation: die als Regressionsgewichte von Regressionsresiduen. Die beiden Regressionsresiduen erhalten wir, indem sowohl das Kriterium als auch der fragliche Prädiktor vom linearen Einfluss aller anderen Prädiktoren “befreit” werden. Dies passiert, indem beide Größen als Kriterien einer Regression behandelt werden und dann deren Residuen weiter verwendet werden.
Einen ganz ähnlichen Gedankengang hatten wir bereits bei der Partialkorrelation, die wir als Korrelation
von Regressionsresiduen aufgefasst hatten.
Visualisierung der Wirkung eines Prädiktors bei Konstant halten des anderen Prädiktors
Prädiktor-Effekt-Plots
Paket: effects
Die Grundidee ist dabei, für jeden Prädiktor eine bedingte Regressionsgerade zu visualisieren, während alle anderen Prädiktoren auf einen festen Wert gesetzt werden; der Standwert ist hierbei der Mittelwert aller
Beobachtungen auf den jeweiligen Prädiktoren.
Unstandardisierte vs. standardisierte Regressionsgewichte
- bisher: unstandardisierte Regressionsgewichte: berechnet in der Metrik, in der die Variablen gemessen wurden
- standardisierte Regressionsgewichte:
a) drücken Veränderungen in der Einheit von Standardabweichungen aus
b) hier bezeichnet als ß - Gewichte (manchmal auch als b1z)
standardisierte Regressionsgewichte bei einfacher lineare Regression
- Berechnung: mit z-standardisierten Variablen und dann einfache lineare Regression: lm(scale(Krierium) ~ scale(Prädiktor), data = daten)
- a = 0: Der Achsenabschnitt a ist dann = 0 und man bekommt einen Wert für das standardisierte Regressionsgewicht ß (für Berechnung mit R s. F.37)
- b = rxy:
a) bei einfacher linearer Regression entspricht ß der Korrelation der beiden Originalvariablen
b) die Steigung entspricht also immer der Korrelation, d.h. je steiler die Steigung desto größer die Korrelation.
c) b kann also nur Werte zwischen -1 und 1 annehmen - Die Gerade verläuft immer durch den Punkt (0/0)
standardisierte Regressionsgewichte bei einfacher multipler Regression
- lm(scale(Kriterium) ~ scale(Prädiktor1) + scale(Prädiktor2), data = daten)
- auch hier Achsenabschnitt a = 0
- Regressionsgewichte: Veränderung des Kriteriums in SDs, wenn sich Prädiktoren um eine SD verändert und die anderen Prädiktoren konstant gehalten werden
- Achtung: die standardisierte Regressionsgewichte entsprechen i. d. R. nicht (Semi-) partiellen Korrelationen eines Prädiktors und des Kriteriums. Dies ist nur bei orthogonalen Prädiktoren der Fall
Alternative Berechnung von ß
ßp = bp * (Sxp / Sy)
Mit R:
1. Modell der Regression ganz einfach mit unstandardisierten Variablen berechnen: modell <- lm(Kriterium ~ Prädiktor1 + Prädiktor2, data = daten)
- dann die Koeffizienten extrahieren und man die sd der jeweiligen Prädiktoren nehmen: hier für Prädiktor 1:
coef(modell)[2] * (sd(daten$Prädiktor1) / sd(daten$Kriterium))
für Präditkor2 analog:
coef(modell)[3] * (sd[daten$Prädiktor2) / sd(daten$Kriterium))
die Ausgabe gibt einem direkt die Koeffizienten
Allgemeiner Ansatz bei intervallskalierten Prädiktoren und Kriterium: Güte des Regressionsmodells
i.d.R. R²
Problem: bei Hinzunahme eines weiteren Prädiktors muss der Anteil der aufgeklärten Varianz fast zwangsläufig größer werden -> daher Anpassung und andere Maße, die gleichzeitig die Anzahl der Prädiktoren mit verrechnen, um dies zu berücksichtigen
Güte des Regressionsmodells: adjustiertes R²
- einfachstes Maß (gleichzeitige Schätzung der aufgeklärten Varianz auf Populationsebene) ist das adjustierte R² (abgz. R²adj)
- Berechnung:
summary() angewendet auf ein lm()-Objekt gibt diese Maß bereits mit raus
R²adj = 1 (1-R²) * (n-1) / n-q-1)
hier: n = Anzahl der Beobachtungen und q = Anzahl der Prädiktoren
Interferenzstatistik: allgemeiner Modelltest
- Zusammenfassung der Ergebnisse eines Regressionsmodells liefert immer einen F-Test
- dieser testet, ob das komplette Modell einen signifikanten Beitrag zur Varianzaufklärung leistet, d.h. es wird die Nullhypothese H0: R² = 0 getestet
- der F-Wert stammt genau wie im Rahmen einer Varianzanalyse aus einer Quadratsummenzerlegung
Interferenzstatistik: allgemeiner Modelltest: totale Quadratsumme
Die totale Quadratsumme ergibt sich aus der Summe der quadrierten Abweichungen der Daten vom Mittelwert des Kriteriums:
n
SStotal = ∑ (y1 - My)²
i = 1
Interferenzstatistik: allgemeiner Modelltest: Fehler-Quadratsumme
ergibt sich aus der Summe der quadrierten Residuuen:
n
SSfehler= ∑ e²i
i = 1
Interferenzstatistik: allgemeiner Modelltest: Modell-Quadratsumme
ergibt sich aus der Summe der quadrierten Abweichungen der Regressionsgeraden (der vorhergesagten Werte) vom Mittelwert des Kriteriums:
n
SSmodell = ∑ (^yi - My) ²
i = 1
Interferenzstatistik: allgemeiner Modelltest: Mittlere Quadratsummen und F -Bruch
- analog zur Varianzanalyse werden die Mittleren Quadratsummen mit den Freiheitsgraden der Quadratsummen berechnet: aus der Anzahl q der Prädiktoren und Anzahl n der Beobachtungen erigt sich:
dfmodell = q
dffehler = n - q - 1 - aus diesen wird der F-Bruch berechnet:
F = (SSmodell/ dfmodell) / (ssfehler/dffehler) = Msmodell / Msfehler - Die entsprechende Zufallsvariable ist unter der Nullhypothese F-verteilt mit q Zählerfreiheitsgraden und n -q-1 Nennerfreiheitsgraden
- Alternativ kann der F-Bruch auch direkt aus R² berechnet werden: F = ((n -q-1) * R²) / (q*(1-R²))
Interferenzstatsitik: allgemeiner Modelltest: multiple Regression
völlig Identisch zur linearen Regression
Tests der Regressionskoeffizienten: einfache lineare Regression
- Test der H0: ß = 0 (vgl. Statistik 1 Teil 12)
- Test von b und F-Test liefern die gleiche Informationen (es gilt auch hier wieder die Beziehung F= t²)
Tests der Regressionskoeffizienten: multiple Regression
- der allgemeine Modelltest kann signifikant werden
- dennoch muss nicht für jeden Regressionskoeffizienten an sich die Alternativhypothese gelten
- Tests der einzelnen Nullhypothesen sind t -Tests (siehe Ausgabe der summary() oder s()-Funktion)
Inferenzstatistik: Modellvergleich
- ermöglichen zu testen, ob sich durch Hinzunahmen (oder Wegnahme) von Prädiktoren eine signifikante Veränderung von R² einstellt
- oft wird ein sog. reduziertes Modell mit einem sog. komplexen Modell verglichen:
a) reduzierte Modell “genested” im komplexen Modell (d.h. alle seine Prädiktoren sind auch im komplexen Modell enthalten)
b) der Fchange-Wert berechnet sich in diesem Fall als:
Fchange = ((n-q-1)(R²komplex - R²reduziert)) / (J (1-R²komplex))
c) n = Anzahl der Beobachtungen
q = Anzahl der Prädiktoren im komplexen Modell
J = Anzahl der Prädiktoren, die sich zw. komplexen und reduzierten Modell unterschieden
Polynomiale Regression
- kurvilinear Zusammenhänge
- solche Daten können mit Funktionen beschrieben werden, die auch das Quadrat des Prädiktors berücksichtigt und als multiple Regression aufgepasst
Polynomiale Regression: Polynome höherem Grades in allgemeiner Form
^Y = a + b1 * X + b2 * X² + … +bq * Xq
Polynomiale Regression: Umsetzung mit R
- Umsetzung in R genau wie bei multipler Regression
- neben X auch X² in das Modell aufnehmen: I(Xˆ2) macht deutlich, dass hier eine arithmetische Operation gemeint ist und das ˆ-Zeichen
nicht im Sinne der Modellsprache interpretiert werden soll:
m2
Welchen Wert erhalten Sie, wenn Sie die Zeile estimate durch die Zeile Std. Error
dividieren?
noch herausfinden
Allgemeiner Modelltest: Berechnen mit R
- einfache lineare Regression: anova(modell)
- multiple Regression: Summary(modell) unter f-statistics finde ich den F-Wert, die Freiheitsgrade und den P-Wert
Multiple Regression: Modellgleichung soll aufgestellt werden, wie setzte ich die Koeffizienten ein?
Ich setzte die Werte die mir gegeben werden ganz normal wie in der linearen Regression ein und rechne sie aus
Was zeigen Prädiktor-Effekt-Plots?
Sie zeigen die bedingten Regressionsgeraden für jeden Prädiktor, wenn die beiden anderen Prädiktoren auf einen konstanten Wert gesetzt werden (i.d.R. ist das deren Mittelwert)
Zähler & Nenner
Zähler = Oben
Nenner = Unten