Multiple Regression Flashcards
Was ist eine Partialkorrelation?
Der Zusammenhang zwischen 2 Variablen, nachdem der Einfluss einer dritten Variable kontrolliert (“auspartialisiert”) wurde: Korrelation zwischen Regressionsresiduen
Definition von Residuen bei der Regression
- Differenz zwischen beobachtetem & vorhergesagtem Wert
- Unterschiede, die nicht durch Prädiktor(en) erklärt werden können
- Residuen sind Variablen, da jeder Datenpunkt seinen eigenen Residualwert hat
Ablauf der Partialkorrelation
Es besteht eine Korrelation von X und Y, die durch Z beeinflusst wird
- Regression von X auf Z
- Regression von Y auf Z
- Korrelation der Residualvariablen von X & Y, ohne Einfluss von Z
Formel zur Partialkorrelation
Formel zum mit der Hand ausrechnen in der Formelsammlung

Was ist eine Semipartialkorrelation?
Der Zusammenhang von 2 Variablen, nachdem der EInfluss einer dritten auf eine der beiden auspartialisiert worden ist.
Von der anderen Variable können die Rohwerte verwendet werden.
Verwendung von Partial- oder Semipartialkorrelation?
Entscheidung aufgrund theoretischer Überlegungen/Hypothese
- Partial: Annahme, dass X und Y durch Z kausal beeinflusst werden
- Annahme, dass nur X oder nur Y durch Z kausal beeinflusst wird
Bedingungen für Kausalität
- Zusammenhang zweier Variablen
- zeitliche Ordnung
- Kontrolle von Störvariablen
Modellgleichung für tatsächliche/beobachtete Werte in der multiplen Regression

Modellgleichung für vorhergesagtre Werte in der multiplen Regression
b0: Achsenabschnitt, vorhergesagter Y-Wert für X1 = 0 und X2 = 0
b1: Steigungskoeffizient für X1; Veränderung in Y, wenn X1 um eine Einhiet erhöht und X2 konstant gehalten/kontrolliert wird
b2: Steigungskoeffizient für X2; Veränderung in Y, wenn X2 um eine Einhiet erhöht und X1 konstant gehalten/kontrolliert wird

Determinationkoeffizient
R2 ist kein erwartungstreuer Schätzer für den Populations-Determinantionskoeffizient 𝚸2, korrigiertes in Formelsammlung

Annahmen der Regression
- Unabhängigkeit der Resiuden: dürfen nicht korreliert sein
- Verletzung durch hierarchisch geschachtelte Daten oder Messwiederholungen
- Komoskedastizität: bedingte Residualvarianzen unterscheiden sich in der Population nicht
- Normalverteilung der Residuen um die Regressionsgrade
Hypothesen des Tests der multiplen Regression
H0: 𝚸2 = 0 bzw. β1 = … = βj = βk = 0
H1: 𝚸2 ≠ 0 bzw. mind. ein βj ≠ 0
Freiheitsgrade beim Test der multiplen Determination R2
dfRegression = k
dfResiduen = n - k - 1
k = Anzahl Prädiktoren
Hypothesen des Tests für einen einzelnen Regressionskoeffizienten
H0: βj = 0
H1: βj ≠ 0
Freiheitsgrade beim Test für einen einzelnen Regressionskoeffizienten
df = n - k - 1
Ablauf des Tests für mehrere Regressionskoeffizienten
Modellvergleich: Modell A ohne interessierende Variable, Modell B mit
➜ Vergleich der Determinationskoeffizienten R2 beider Modelle
- Bestimmte R2 für Modell A
- Bestimmte R2 für Modell B
- Berechne die Differenz der beiden R2
- Teste die Differenz auf Signifikanz
Voraussetzungen für den Modellvergleich
- beide Modelle sind mit der selben Stichprobe geschätzt
- Die Modelle sind geschachtelt: von einem Modell kann in das andere überführt werden, indem entweder Prädiktoren hinzugefügt oder entwernt werden (niemals beides!)
Wieso muss noch ein Signifikanztest durchgeführt werden, wenn ein Unterschied zwischen den R2 zweier Modelle besteht?
Aufnahme zusätzlicher Prädiktoren führt immer zu einer Verbesserung der Varianzaufklärung (höheres R2), Da wir zwar das bestmögliche aber auch das einfachste Modell suchen (Parsimonität), ist die Aufnahme zusätzlicher Prädiktoren nur dann sinnvoll, wenn die Zunahme von R2 statistisch signifikant ist
Hypothesen für Modellvergleiche
H0: 𝚸1 = 𝚸2
H1: 𝚸1 < 𝚸2
Effektgrößen beim Modellvergleich/der multiplen Regression
R2 ist ein standardisiertes Maß & eignet sich als Effektgröße
für a-priori-Poweranalysen wird aber meistens Cohens f2 verwendet:
f2 = .02: kleiner Effekt
f2 = .15: mittlerer Effekt
f2 = .35: großer Effekt

Interpretation einer Modellgleichung eines Modells mit Dummy-Variablen

Parsimonität
Ein Modell sollte den Zusammenhang zwar bestmöglich beschreiben, gleichzeitig aber auch so unkompliziert (sparsam) wie möglich sein