1 Multiple Regression Flashcards
Warum ist Regressionsdiagnostik wichtig?
Die Regressionsdiagnostik ist wichtig, um sicherzustellen, dass die Annahmen der multiplen Regressionsanalyse erfüllt sind. Sie hilft dabei, mögliche Probleme zu erkennen, die die Gültigkeit der Ergebnisse beeinträchtigen könnten.
Wie unterscheidet sich Multiple Regression von Bivariater Regression?
- Bivariate Regression hat eine UV und eine AV und es wird ermittelt, wie viel der UV zur AV beiträgt.
- Multiple Regression hat mehr Prädikatoren (UV) UND diese korrelieren höchstwahrscheinlich auch unterinander
- Weitere Prädiktoren werden nur in dem Anteil gerechnet, in d em sie die AV ZUSÄTZLICH ERKLÄREN (wenn sie überschneident sind mit anderen Prädikatoren, wird dieser nicht gerechnet)
Was ist der Vorteil einer multiplen Regression im vergleich zu einer einfachen linearen Regression?
Wir können den genauen, alleinigen Beitrag einer Variable ermitteln und dabei Redundanzen berücksichtigen sowie Störvariablen kontrollieren.
Warum kann man bei der multiplen Regression nicht einfach Kausalität annehmen?
Nur weil die eine Variable ans UV und die andere als AV definiert wird, bedeutet es nicht automatisch Kausalität. Dafür bedarf es noch anderen Bedingungen, z.B.:
- Ursache vor Wirkung
- Stabilität des Effekts bei Einschluss weiterer Prädiktoren
Wie lautet die Regressionsgleichung für die bivariate Regression?
Beispiel:
x = Gehalt
y = Mitarbeitendenzufriedenheit
a = Bereich, wo die Gerade anfängt
b = Bereich der Steigung
Wie lautet die Regressionsgleichung für die multiple Regression?
Beispiel:
x = Gehalt
y = Mitarbeitendenzufriedenheit
a = Bereich, wo die Gerade anfängt
b = Bereich der Steigung
Jeder Prädiktor hat einen eigenen Steigungsbereich, also z.b. x1 + b1, x2 + b2, x3 + b3, …)
Was ist Lineare Regression?
Lineare Regression ist ein Oberbegriff, der sowohl die bivariate (einfache) als auch die multiple (mit mehreren Prädiktoren) Regression umfasst.
Was sind die Voraussetzungen für die Multiple Regression?
- Die AV muss metrisch sein (Skalenniveau NICHT ordinal oder nominal)
- Residuen müssen Unabhängig sein (Autokorrelation) -> es darf keine logische Reihenfolge der erfassten Daten geben, z.B. keine Wochentage)
- Normalverteilung der Residuen (Stichprobe muss gross genug sein)
- Ausreisser und Einflussreiche Datenpunkte sollten erkennt werden -> und ausgeschlossen? (z.B. mit Residuals vs Leverage Diagramm)
- Keine Multikolinearität
- Keine Homoskedaszität
Was sind Residuen?
Residuen in der multiplen Regression sind die Differenzen zwischen den tatsächlich beobachteten Werten der abhängigen Variable und den vorhergesagten Wertendurch das Regressionsmodell.
Was ist Multikolinearität?
wenn zwei oder mehr unabhängige Variablen stark miteinander korrelieren. Das bedeutet, dass eine Variable fast vollständig durch eine andere (oder eine Kombination anderer) vorhergesagt werden kann.
Was ist Homoskedastizität?
Homoskedastizität ist eine wichtige Annahme in der linearen Regression, die besagt, dass die Varianz der Residuen konstant über alle Werte der unabhängigen Variablen bleibt. (Fehlerverteilung ist gleich verteilt) -> Levine Test oder Grafisch gemäss Bild
Woran erkenne ich Multikollinearität in einer Regressionstabelle?
- Hohe Standardfehler & instabile Koeffizienten
- Signifikantes Modell (hohes R²), aber unsignifikante Einzelvariablen
- Hohe Korrelation zwischen Prädiktoren (>0.8)
- Hoher VIF (>5 oder >10 kritisch)
Wie kann ich Multikollinearität in Jamovi prüfen?
Mit dem VIF-Wert (Colinearity Statistics)
Interpretation siehe Anhang
Wie kann ich Homoskedastizität in Jamovi prüfen?
Über die Residuenplots. Interpretation siehe Anhang.
Wie erkenne ich Autokorrelation der Residuen?
🔹 Durbin-Watson-Test → Schnellste Methode für einfache Regressionsmodelle. (2 ist gut, alles andere ist schlecht)
DW ≈ 2 → Keine Autokorrelation (✅ Gut).
DW < 1,5 → Positive Autokorrelation (🔴 Problem: Residuen hängen zusammen, oft in Zeitreihen).
DW > 2,5 → Negative Autokorrelation (🟠 Problem: Extreme Schwankungen zwischen Residuen).
Später:
🔹 Residuenplot → Hilft, visuelle Muster zu erkennen.
🔹 Ljung-Box-Test → Nützlich für langfristige Autokorrelation in Zeitreihen.
🔹 Korrelationsmatrix der Residuen → Für detaillierte Analyse von Verzögerungen.
Wie erkenne ich Normalverteilung der Residuen?
Shapiro-Wilk-Test:
p > 0.05 = Normalverteilung
p < 0.05 signifikant nicht Normalverteilt
Wie erkenne ich Ausreisser bei der multiplen Regression?
Was ist das Ziel der multiplen Regression?
Lineare Vorhersage einer intervallskalierten abhängigen Variable (Av, Kriterium) anhandm ehrerer unabhängiger Variablen (UVs, Prädiktoren) vorherzusagen.
Was muss gegeben sein, d amit die Kausalität (und nicht nur Prognose) erfüllt ist?
- Die Ursache muss zu einem früheren Zeitpunkt passiert sein.
- Der Effekt muss auch dann bleiben, wenn weitere Prädiktoren ins Modell dazu kommen
Welche zwei gleichungen gibt es jeweils?
- Eine auf Stichprobenebene
- Eine auf Populationsebene
Wie ist die Gleichung der Multiplen Regression für zwei unabhängige Variablen?
Wie ist die Gleihcung der Multiplen Regression für mehrere unabhängige Variablen?
Was ist das kleinste-quadrate-kriterium?
Das Kleinste-Quadrate-Kriterium der multiplen Regression minimiert die Summe der quadrierten Abweichungen zwischen den vorhergesagten und den tatsächlichen Werten auf der y-Achse, um die bestmögliche Anpassung der Regressionsgeraden an die Daten zu gewährleisten.
Welches ist der beste Schätzwert, wenn man nichts anderes weiss?
Der Mittelwert