Sitzung 13: Die lineare Regression II Flashcards
Bivariate Regression
Bei der bivariaten Regression geht man von einer einfachen Kausalstruktur mit nur einer erklärenden Variable aus: x = y
Multiple Regression
Bei der multiplen Regression geht man davon aus, dass mehrere UV gleichzeitig auf die AV einwirken (konvergente Kausalstruktur)
Gleichung der multiplen Regression
y = a+b1x1 +b2x2 +…+bnxn +e
e ist der Störterm, der die Residuen enthält.
- Block SPSS Output
Auf welche Art und Weise werden UV aufgenommen?
Alle UV werden hier gleichzeitig in das Modell genommen (Einschluss)
- Block SPSS Output
Modellzusammenfassung
R
- Block SPSS Output:
Varianzanalyse mit F-Tabelle
- Block SPSS-Output
Schätzgleichung kann aufgestellt werden
Auf Basis dieser Gleichung können Prognosen für den HDI abgegeben werden.
Was sind potentielle Spezifizierungsirrtümer?
- Die Beziehung zwischen x und y ist nicht linear (Streudiagramm bzw. Streudiagramm-Matrix betrachten!) = dann eignet sich diese Art der Analyse gar nicht
- Relevante UV wurden ausgeschlossen (omitted variable bias) = verzerrte Ergebnisse
- irrelevante UV wurden mit eingeschlossen = Effizienz der Schätzung nimmt ab, Standardfehler werden größer
= alles sehr schwer zu identifizieren
Was sind potentielle Messfehler?
- Objektivität, Reliabilität und Validität der Messung
Erwartungstreu
Schätzer trit im Mittel (bei vielen Wiederholungen) den wahren Parameter in der Grundgesamtheit.
Effizient
Geringe Ungenauigkeit (Varianz) in der Schätzung
BLUE-Schätzer
Best linear unbiased estimator
Gauß-Markov Annahmen müssen erfüllt sein
1. Erwartungswert für alle Residuen ist Null
2. Keine Korrelation der UV mit den Residuen
3. Homoskedastizität = Varianz der Residuen ist konstant
4. Keine Autokorrelation = keine Korrelation der Residuen
Messen von Autokorrelation
Über die Durbin Watson Statistik
Daumenregel:
Durbin-Watson-Wert nahe 2 → keine Autokorrelation
Durbin-Watson-Wert nahe 0 → positive Autokorrelation
Durbin-Watson-Wert nahe 4 → negative Autokorrelation
Multikollinearität
eine Korrelation zwischen zwei oder mehr der unabhängigen Variablen
erste Hinweise auf Multikollinearität
Hohe F-Werte, bei gleichzeitiger schlechter Signikanz der T-Werte der Steigungsparameter
Ab wann können Korrelationen problematisch sein?
Ab 0,7
Welche Optionen gibt es mit Multikollinearität umzugehen?
- Ausschluss einzelner multikollinearer Variablen (falls eine Variable unnötig ansonsten doppelt eingehen würde)
- Zusammenfassen inhaltlich sinnvoll kombinierbarer multikollinearer Variablen
Ausreißer
Als Ausreiÿer bezeichnet man Observationen, die deutlich vom Rest der Daten abweichen
Leverage
Punkte, die in Bezug auf die UV sich deutlich von den anderen Werten unterscheiden haben eine hohe leverage (Hebelwert)
Influential
Punkte, deren Entfernung aus dem Modell, die Regressionsergebnisse, d.h. die Koezienten, deutlich verändern würde, heiÿen inuential (einussreiche Fälle)
Punkte, die in y-Richtung weit von der Regressionslinie liegen, haben ein großes ………..
Residuum
Um sich abzusichern, dass Ausreißer kein Problem sind, sollte man sich das Residuum, den Leverage und den Influence und das ……………. anschauen.
Streudiagramm
Residuum + Leveredge
Influence
Heteroskedastizität
Verönderliche Streuung der Residuen