2. Multiple Regression Flashcards
Je mehr Prädiktoren, desto…
besser die Prädiktion
Ziele:
- Möglichst viel Varianz am Kriterium erklären
2. Möglichst wenige Prädiktoren verwenden
Multiple Regression: Definition
Eine lineare Regression mit mehreren Prädiktoren
Multiple Regression: Methode
Methode der kleinsten Quadrate
Multiple Regression: Voraussetzungen
- intervallskaliertes Kriterium
- mehrere intervallskalierte oder dichotome Prädiktoren
Multiple Determinationskoeffizient: Definition
der Anteil der Kriteriumvarianz , der durch alle Prädiktoren vorhergesagt werden kann
Wie werden die ß-Koeffizienten bei mehreren Prädiktoren bestimmt?
- SPSS
Methode der kleinsten Quadrate
Für einen Datensatz (eine Punktewolke) werden und so gewählt, dass
der quadrierte Vorhersagefehler über alle Probanden minimal ist:
Methode der kleinsten Quadrate: warum wird der Vorhersagefehler quadriert?
damit:
(1) Die Abweichungswerte immer positiv sind.
(2) Große Abweichungen stärker berücksichtigt werden als kleine
Abweichungen.
Multikollinearität: resultierende Problem
“biased estimate” = Capitalization of Chance
Capitalization of Chance
R2 in der Stichprobe überschätzt den Populationszusammenhang
Faktoren die den “Bias” beeinflüssen (Capitalization of Chance)
1) Anzahl Prädiktoren
Je mehr Prädiktoren, desto größer die Verzerrung = Capitalization
of Chance
2) Höhe der Korrelationen zwischen den Prädiktoren
Je höher die Multikollinearität, desto größer Verzerrung
3) Stichprobengröße
Je größer N, desto kleiner die Verzerrung
Capitalization of Chance: Lösungen
- Kreuzvalidierung
- Korrigiertes R2 (SPSS)
- größeres N
- nur relevante und möglichst unkorrelierte Prädiktoren aufnehmen
Signifikanztest der multiplen
Regression
- F-Test
- beruht auf Zerlegung der Varianz des Kriteriums in einen erklärten ( SS𝒓𝒆𝒈) und einen nicht erklärten (SS𝒓𝒆𝒔) Teil.
- Wenn F𝒆𝒎𝒑 > F𝒌𝒓𝒊𝒕 ist das Testergebnis signifikant
- Die Prädiktoren weisen dann insgesamt einen bedeutsamen
Zusammenhang mit dem Kriterium auf.
Quadratsumme
( SS = „sum of squares“)
Multiplen Regression: Strategien
- a priori
- a posteriori
a priori
“Inhaltliche Auswahl”: Prädiktoren aus Theorie ableiten
a posteriori
- Alle möglichen Untermengen
– Vorwärtsselektion
– Rückwärtselimination
– Schrittweise Regression
a posteriori: “alle mögliche Untermengen”
- Bildung aller möglichen Kombinationen der verfügbaren Prädiktoren und Berechnung derer Regressionsgleichungen
– Auswahl der Regressionsgleichung mit dem höchsten erklärten Varianzanteil
a posteriori: “Vorwärtsselektion”
– Aufnahme der Prädiktoren nacheinander;
– Beginn mit Prädiktor mit höchsten inkrementellen Validität;
– Stopp, wenn kein Prädiktor mehr inkrementelle Validität besitzt
a posteriori: “Rückwärtselimination”
- Aufnahme aller Prädiktoren
- dann, Elimination von Prädiktoren ohne inkrementelle Validität
a posteriori: “Schrittweise Regression”
– Kombination aus Vorwärtsselektion und Rückwärtselimination:
– Aufnahme eines Prädiktors anschließend Überprüfen der inkrementellen Validität aller aufgenommen Prädiktoren
- Entfernen nicht relevanter Prädiktoren
Strategien: “Inhaltliche Auswahl” Vorteile
- Nur eine Regressionsanalyse
- keine Captilization of
Chance /Alphafehlerinflationierung
Strategien: “Inhaltliche Auswahl” Nachteile
- Einschluss von nicht relevanten Prädiktoren; - Multikollinerarität möglich; - Vergessen von relevanten Prädiktoren --> Sollte evidenzbasiert sein
Strategien: “Untermengen” Vorteile
Rechnerisch optimale Kombination
Strategien: “Untermengen” Nachteile
- viele Berechnungen –> Aufwand
- Capitalization of Chance –> Alphafelhlerinflationierung
Strategien: “Vorwärtsselektion” Vorteile
- Max. so viele Regressionsanalysen wie Prädiktoren; - Aufnahme von Prädiktoren, die der Vorhersage nützlich sind; - sehr ökonomisch
Strategien: “Rückwärtselimination” Vorteile
- Am Ende nur Prädiktoren mit inkrementeller Validität; - Effektiver als Vorwärtsselektion bei hoher Multikollineraität
Strategien: “Vorwärtsselektion” Nachteile
- Möglicherweise Verlust von inkrementeller Validität des ersten Prädiktors durch Zunahme weiterer (Multikollinearität)
Strategien: “Schrittweise Regression” Vorteile
- Ausschluss von anfänglich bedeutsamen Prädiktoren
möglich; - Stark korrelierende Prädiktoren werden bevorzugt
- Minimum an Prädiktoren (nur welche mit
inkrementeller Validität)
Strategien: “Schrittweise Regression” Nachteile
- Systematische Erhöhung durch Captilization of
Chance –> gefundene Prädiktoren können bei
Kreuzvalidierung oft nicht bestätigt werden; - Wenig theoriegeleitet
welche auswahlmethode führt zu einer einfachen regressionsgleichung?
schrittweise
wieso gibt es nur eine geringe gefahr der alpha-fehler-kumulierung bei schrittweise regression?
nur wenige doppelte iterationen
was für eine SP-Größe ist empfohlen?
N/k > 20
k = anzahl der prädiktoren
beschreibe rückwärtselimination
- alle Prädiktoren werden in die Regression eingeschlossen
- in jedem Schritt wird
jeweils der Prädiktor, der am wenigsten zur Vorhersage beiträgt, weggelassen - diese Schritte werden wiederholt, bis es zu einer signifikanten Verschlechterung der Vorhersage kommt
Erklären Sie warum R² von Modell 1 bis 7 abfällt, des korrigierte R² aber ansteigt!
fällt:
- weil Prädiktoren, die einen (nicht-signifikanten) Teil des Kriteriums vorhersagen, weggelassen werden
R2korr steigt:
- weil die Schrumpfungskorrektur wegen der geringeren Anzahl an
Prädiktoren kleiner ausfällt
Schrittweise Regression:
Vorteile
Minimum an Prädiktoren; Exploratives Vorgehen möglich