Sitzung 13: Die lineare Regression II Flashcards
Bivariate Regression
Bei der bivariaten Regression geht man von einer einfachen Kausalstruktur mit nur einer erklärenden Variable aus: x = y
Multiple Regression
Bei der multiplen Regression geht man davon aus, dass mehrere UV gleichzeitig auf die AV einwirken (konvergente Kausalstruktur)
Gleichung der multiplen Regression
y = a+b1x1 +b2x2 +…+bnxn +e
e ist der Störterm, der die Residuen enthält.
- Block SPSS Output
Auf welche Art und Weise werden UV aufgenommen?
Alle UV werden hier gleichzeitig in das Modell genommen (Einschluss)
- Block SPSS Output
Modellzusammenfassung
R
- Block SPSS Output:
Varianzanalyse mit F-Tabelle
- Block SPSS-Output
Schätzgleichung kann aufgestellt werden
Auf Basis dieser Gleichung können Prognosen für den HDI abgegeben werden.
Was sind potentielle Spezifizierungsirrtümer?
- Die Beziehung zwischen x und y ist nicht linear (Streudiagramm bzw. Streudiagramm-Matrix betrachten!) = dann eignet sich diese Art der Analyse gar nicht
- Relevante UV wurden ausgeschlossen (omitted variable bias) = verzerrte Ergebnisse
- irrelevante UV wurden mit eingeschlossen = Effizienz der Schätzung nimmt ab, Standardfehler werden größer
= alles sehr schwer zu identifizieren
Was sind potentielle Messfehler?
- Objektivität, Reliabilität und Validität der Messung
Erwartungstreu
Schätzer trit im Mittel (bei vielen Wiederholungen) den wahren Parameter in der Grundgesamtheit.
Effizient
Geringe Ungenauigkeit (Varianz) in der Schätzung
BLUE-Schätzer
Best linear unbiased estimator
Gauß-Markov Annahmen müssen erfüllt sein
1. Erwartungswert für alle Residuen ist Null
2. Keine Korrelation der UV mit den Residuen
3. Homoskedastizität = Varianz der Residuen ist konstant
4. Keine Autokorrelation = keine Korrelation der Residuen
Messen von Autokorrelation
Über die Durbin Watson Statistik
Daumenregel:
Durbin-Watson-Wert nahe 2 → keine Autokorrelation
Durbin-Watson-Wert nahe 0 → positive Autokorrelation
Durbin-Watson-Wert nahe 4 → negative Autokorrelation
Multikollinearität
eine Korrelation zwischen zwei oder mehr der unabhängigen Variablen
erste Hinweise auf Multikollinearität
Hohe F-Werte, bei gleichzeitiger schlechter Signikanz der T-Werte der Steigungsparameter