Sitzung 13: Die lineare Regression II Flashcards
Bivariate Regression
Bei der bivariaten Regression geht man von einer einfachen Kausalstruktur mit nur einer erklärenden Variable aus: x = y
Multiple Regression
Bei der multiplen Regression geht man davon aus, dass mehrere UV gleichzeitig auf die AV einwirken (konvergente Kausalstruktur)
Gleichung der multiplen Regression
y = a+b1x1 +b2x2 +…+bnxn +e
e ist der Störterm, der die Residuen enthält.
- Block SPSS Output
Auf welche Art und Weise werden UV aufgenommen?
Alle UV werden hier gleichzeitig in das Modell genommen (Einschluss)
- Block SPSS Output
Modellzusammenfassung
R
- Block SPSS Output:
Varianzanalyse mit F-Tabelle
- Block SPSS-Output
Schätzgleichung kann aufgestellt werden
Auf Basis dieser Gleichung können Prognosen für den HDI abgegeben werden.
Was sind potentielle Spezifizierungsirrtümer?
- Die Beziehung zwischen x und y ist nicht linear (Streudiagramm bzw. Streudiagramm-Matrix betrachten!) = dann eignet sich diese Art der Analyse gar nicht
- Relevante UV wurden ausgeschlossen (omitted variable bias) = verzerrte Ergebnisse
- irrelevante UV wurden mit eingeschlossen = Effizienz der Schätzung nimmt ab, Standardfehler werden größer
= alles sehr schwer zu identifizieren
Was sind potentielle Messfehler?
- Objektivität, Reliabilität und Validität der Messung
Erwartungstreu
Schätzer trit im Mittel (bei vielen Wiederholungen) den wahren Parameter in der Grundgesamtheit.
Effizient
Geringe Ungenauigkeit (Varianz) in der Schätzung
BLUE-Schätzer
Best linear unbiased estimator
Gauß-Markov Annahmen müssen erfüllt sein
1. Erwartungswert für alle Residuen ist Null
2. Keine Korrelation der UV mit den Residuen
3. Homoskedastizität = Varianz der Residuen ist konstant
4. Keine Autokorrelation = keine Korrelation der Residuen
Messen von Autokorrelation
Über die Durbin Watson Statistik
Daumenregel:
Durbin-Watson-Wert nahe 2 → keine Autokorrelation
Durbin-Watson-Wert nahe 0 → positive Autokorrelation
Durbin-Watson-Wert nahe 4 → negative Autokorrelation
Multikollinearität
eine Korrelation zwischen zwei oder mehr der unabhängigen Variablen
erste Hinweise auf Multikollinearität
Hohe F-Werte, bei gleichzeitiger schlechter Signikanz der T-Werte der Steigungsparameter
Ab wann können Korrelationen problematisch sein?
Ab 0,7
Welche Optionen gibt es mit Multikollinearität umzugehen?
- Ausschluss einzelner multikollinearer Variablen (falls eine Variable unnötig ansonsten doppelt eingehen würde)
- Zusammenfassen inhaltlich sinnvoll kombinierbarer multikollinearer Variablen
Ausreißer
Als Ausreiÿer bezeichnet man Observationen, die deutlich vom Rest der Daten abweichen
Leverage
Punkte, die in Bezug auf die UV sich deutlich von den anderen Werten unterscheiden haben eine hohe leverage (Hebelwert)
Influential
Punkte, deren Entfernung aus dem Modell, die Regressionsergebnisse, d.h. die Koezienten, deutlich verändern würde, heiÿen inuential (einussreiche Fälle)
Punkte, die in y-Richtung weit von der Regressionslinie liegen, haben ein großes ………..
Residuum
Um sich abzusichern, dass Ausreißer kein Problem sind, sollte man sich das Residuum, den Leverage und den Influence und das ……………. anschauen.
Streudiagramm
Residuum + Leveredge
Influence
Heteroskedastizität
Verönderliche Streuung der Residuen
Was ist, wenn Autokorrelation vorliegt?
UVs beeinflussen sich auch gegenseitig/sind nicht unabhängig
= tritt bei Zeitreihen auf, da hier die Werte in einer natürlichen Reihenfolge vorliegen und Werte der vorgegangenen Periode nachfolgende Beobachtungen beeinflussen können.
Wenn hohe Werte der Vorperiode hohe beobachtete Werte auslösen, gibt es eine positive Autokorrelation.
Folge ist, dass die Signifikanz der Koeffizienten überschätzt wird.
Bereinigung Autokorrelation: jeder Merkmalswert - Wert der Vorperiode
Einschluss
UVs werden gleichzeitig ins Modell aufgenommen
Forward stepwise
Schrittweise nacheinander eingebracht und nur diejenigen, die dann den model-fit wirklich verbessern, bleiben im Gesamtmodell enthalten.
Backward selection
Alls UVs werden eingebracht und schrittweise diejenigen herausgenommen, die nicht signifikant sind.
Auto Korrelation
Korrelation der Residuen
Was für ein Test?
Signifikanz des Modells
F-Test
Was für ein Test?
Heteroskedastizität
Goldfield-Quandt-Test
Was für ein Test?
Multikollinearität
VIF
Was für ein Test?
Einfluss der Teilkoeffizienten
Beta
Was für ein Test?
Ausreißer
Laverage
Was für ein test?
Signifikanz der Teilkoeffizienten
T-Test