Vorlesung 4 Regresssion II Flashcards
Ist der Determinationskoeffizient (R^2) in der Stichprobe ein erwartungstreuer Schätzer des der Population ?
Nein
R^2 überschätzt P^2
Was prüft der F-Test zur Signifiknazprüfung von R^2 in der multiplen Regression?
Liefern die Prädiktoren (zusammen) einen signifikanten Beirat zur Vorhersage des Kriteriums
Was ist die H0 vom F-Test zur signifikanzprüfung von R^2 in MR?
- Determinationskoeffizient der Population (P^2=0)
Oder - Alle Regressiongewichte = 0
Ist das Regressionsgewicht in der Stichprobe ein erwartungstreuer Schätzer des Regressionsgewichtes in der Population? MR
Ja
Was wird beim signifkanztest für die einzelnen Regressionskoeffizienten bj geprüft
Ob / welches der Regressiongewichte sich von Null unterscheiden
Der F- Test zur Inkrementellen Validität eines Prädiktors ist mathematisch äquivalent zum ….
…t- Test auf Signifikanz des Regressionskoeffizienten dieses Prädiktors (MR)
Was ist das Inkrement/ Nützlichkeit des Prädiktors?
„Wie viel Varianz erklärt ein Prädiktor zusätzlich zu alle anderen Prädiktoren“
Wie verhält sich das Konfidenzintervall (CI) der Regressionsgerade
Ist schmaler in der Mitte und breiter an den Rändern
Warum kann R^2 als eine Effektgröße verwendet werden ?
Weil es ein standardisiertes Maß ist
Was ist die Teststärke/ Power?
- Wahrscheinlichkeit, einen Effekt aufzudecken, den es tatsächlich gibt
- Wahrscheinlichkeit für ein signifikantes Ergebnis wenn die H0 tatsächlich nicht gilt
Was beeinflusst die Teststärke / Power ?
- Effektgröße (vorgegeben)
- Signifkanzniveau (meist 5%)
- Stichprobengröße (kann von uns beeinflusst werden)
Was muss ich alles festlegen um in einer a priori Poweranalyse die optimale Stichprobengröße berechnen zu lassen
- Signifikanzniveau (alpha)
- Power/ Teststärke (1-ß)
- Erwarteter Determinationskoeffizient (R^2 bzw f^2, Effektgröße)
- Anzahl der Prädiktoren
Was ist die theoretische Auswahl an Prädiktoren ?
Alle Variablen werden in die Regressionsgleichung aufgenommen, von denen man aus theoretischen Überlegungen einen Beitrag erwartet
–>Reihenfolge hängt von Fragestellungen an
–> oft blockfreies aufgenommen (hierarchische Regression)
Was sind Ziele der datengesteuerten Variablenauswahl ?
- Maximierung der Varianzaufklärung
- Sparsamkeit
Was sind die drei Strategien der datengesteuerten Auswahl?
- Vorwärtsselektion
- Rückwertsselektion
- Schrittweise Regression ( Kombi Vorwärts und Rückwärts)
Gelangen die 3 Strategien der datengesteuerten Auswahl zur selben Variablenauswahl ?
Optimalerweise ja, aber in kleinen Stichproben können sich Ergebnisse unterscheiden
Was passiert bei Vorwärtsselektion
- alle potentielle Prädiktoren werden spezifiziert
- dann wird schrittweise immer diejenige Variable ins Modell aufgenommen , die größte Inkrement zeigt
- solange bis weiter Prädiktoren nicht mehr signifikant
Was passiert bei Rückwärtsselektion?
- alle Prädiktoren werden in Modell aufgenommen
- dann wird schrittweise immer diejenige Variable aus dem Modell entfernt die das geringste Dekrement zeigt.
- solange bis nur noch signifikante Prädiktoren verbleiben
Was passiert bei der schrittweisen Regresssion ?
- Während einer Vorwärtsselektion wird nach jedem Schritt überprüft ob ein Prädiktor nicht mehr signifikant ist
- Dieser wird dann entfernt
- Solange bis kein Prädiktor mehr aufgenommen werden kann, der noch einen zusätzlichen Beitrag leistet und kein nicht signifikanter Prädiktor im Modell ist
Was ist das Ziel der theoriegeleiteten Auswahl ?
Test von theoretischen Modellen
Welches Risiko besteht bei der theoriegeleiteten Auswahl
Overfitting (Aufnahme statistisch irrelevanter Prädiktoren)
Wie ist die Effizienz der theoriegeleiteten Auswahl?
Weniger effiziente Vorhersagen von Merkmalen
Welche Methode der Auswahl der Prädiktoren wird bei Überprüfung von Zusammenhangs- Hypothesen bevorzugt?
Theoriegeleitete Auswahl
Welches Risiken besteht bei der datengesteuerten Auswahl?
- Capitializing on Chance (Auswahl wird von Stichprobenfehlern) beeinflusst
- Unterfitting (Ausschluss theoretisch relevanter Prädiktoren)
Was ist Kreuzvalidierung eines Modelles ?
Ein Modell, das an einer Stichprobe entwickelt wurde, wird bei einer anderen Stichprobe eingesetzt
Was sind 3 Modellannahmen/ Vorraussetzungen des Signifikanztest der einfachen Regression
- Homoskedastizität
- Normalverteilte Residuen
- Unabhängigkeit der Fehler
Was sind die Vorraussetzungen der multiplen Regression ?
- Korrekte Spezifikation des Modells
- Messfehlerfreiheit der UVs ( perfekte Reliabilität)
- Normalverteilung der Residuen
- Homoskedastizität (Variangleichheit)
- Unabhängigkeit der Residuen
- Multikollinearität
7.Ausreißer und einflussreiche Datenpunkte
Wie prüft man die Vorraussetzungen der korrekten Spezifikation des Modells (MR) ?
- Bivariate Streudiagramm
- Residuendiagramme
- Lowess- Anpasssungslinie
Wozu kann underfitting (=Auslassen wichtiger Prädiktoren) führen ?
Kann insgesamt zur falschen Interpretation der Ergebnisse führen
Wozu führt overfitting ( Aufnahme irrelevanter Prädiktoren)?
- verzerrte Schätzung der Regressionsgewichte
*Prognosefehler und Kreuzvalidierungsfehler werden mit zunehmender Anzahl irrelevanter Prädiktoren größer
Wie vermeidet man overfitting ?
Durch signifikanzprüfung der Prädiktoren und Elimination irrelevanter Prädiktoren
Was sind Konsequenzen von inkorrekten Modellspezifikationen
- Verzerrte Schätzung der Regressionskoeffizienten
- Verzerrte Schätzung der Standardfehler –> möglicherweise verringerte Teststärke
Wie lässt sich die Größe des Messfehlers der UVs (Prädiktoren) bestimmen ?
Reliabilität
Was sind zwei Möglichkeiten die Messfehler der UVs zu gewährleisten ?
- möglichst reliable Skalen auswählen
- nicht zu wenig items verwenden (Reliabilität steigt mit Anzahl Items)
Was sind Konsequenzen von der Verletzung der Messfehlerfreiheit der UVs ?
- Verzerrte Schätzung der Koeffizienten
- verzerrte Schätzung der Standardfehler
Was sind Konsequenzen von der Verletzung der Voraussetzung der Normalverteilung der Residuen ?
*korrekte Schätzung Regressionsgleichung
* falsche Schätzung der Standardfehler bei kleinen Stichproben
Worauf kann die Verletzung der Voraussetzung der Normalverteilung der Residuen auch hinweisen ?
Fehlspezifikation des Modells
Wie prüft man die Vorraussetzung der Normalverteilung der Residuen?
*Histogramm
* pp-Plot
* QQ- Plot
Was bedeutet Homoskedastizität
= gleiche Varianz der Av für alle Ausprägungen der Prädiktoren
= gleiche Varianz der Resisduen für alle Ausprägungen der Prädiktoren
Was sind Konsequenzen von der Verletzung der Homoskedastizität ?
*Korrekte Schätzung der Regressionsgleichung
* aber falsche Schätzung der Standardfehler
Wie prüft man die Vorraussetzung der Homoskedastizität?
Resiudenplot
Wobei hilft das Anschauen des Residuenplots?
- hilft bei Entdeckung von Fehlspezifikationen des Modells
- hilft bei Entdeckung von Heteroskedastizität
Worauf weist ein Trichterförmiger Verlauf des Residuenplots hin?
Heteroskedastizität
Worauf weist bestimmte Gestalt der Residuenplots hin?
Fehlspezifikation des Modells
Was sind Konsequenzen von der Verletzung der unabhängigen Residuen
- korrekte Schätzung Regressionsgleichung
- aber Unterschätzung der Standardfehler
Wann ist die Voraussetzung der Unabhängigkeit der Residuen verletzt ?
Wenn sich bestimmte Werte der Av/ Residuen systematisch ähnlicher sind als andere
–> bei mehrstufiger Stichprobenauswahl (Klumpenstichprobe)
–> bei serieller Abhängigkeit ( Daten im Zeitverlauf)
Was sind Abhilfen bei anhängigem Residuen ?
Gründe für Abhängigkeit ins Modell aufnehmen (Zeitreihenanalysen, Mehrebenenmodelle)
Definition: Multikollinearität ?
Hohe multiple Korrelation zwischen einem Prädiktor und den anderen Prädiktoren
Wozu führt Multikollinearität?
- verzerrte Schätzung des Regressionsgewichtes
- (großer Standardfehler)
Wann tritt sehr hohe Multikollinearität auf ?
- wenn ein Prädiktor in die Berechnung eines anderen eingeht (Interaktionseffek Moderator ); nicht linearer Effekte
- wenn mehrere Idnikatoren eines Konstruktes oder zweier sehr ähnlicher Konstrukte als UVs verwendet werden
- wenn ein ähnliches oder das gleiche Maß zu mehreren Messzeitpunkten erhoben und alles als UVs verwendet werden
Wie wird Toleranzfaktor (TOL) berechnet?
1– R^2
Was bedeutet TOL =0 und TOL = 1?
- 0(R^2=1) –> exakte Multikollinearität
- 1 (R^2 =0 ) –> Prädiktor Xj mit anderen Prädiktoren unkorreliert
Was sind zwei Wege Multikollinearität zu bestimmen ?
1.Toleranzfaktor
2.Varianzinflations- Faktor (VIF)
Wie wird der Varianzinflations-Faktor (VIF) berechnet ?
1/ TOL
Ab welchem VIF besteht (sehr) hohe Multikollinearität
*VIF > 10 sehr hohe Multikollinearität
*VIF > 5 hohe Multikollinearität
Was sind 4 Möglichkeiten des Reduktion von Multikollinearität?
- Zentrierung
- Eliminierung vom Prädiktoren
- Aggregation
- Faktorenanalytische Reduktion