Multiple Lineare Regression Flashcards
mit k>1 Prädiktoren
Was modelliert die multiple lineare Regression? Was ist die Modellgleichung der multiplen linearen Regression? Wie ist die multiple Regression darstellbar?
Zusammenhang zwei oder mehr unabhängigen Prädiktoren mit einem Outcome
yᵢ=b₀+b₁X₁+b₂X₂+…+bₖXₖ+ɛᵢ
yᵢ=b₀+ΣbᵢXᵢᵢ +ɛᵢ
-> nach wie vor 1 Interzept, 1 Fehlerparameter
-> Neu: mehrere Parameter k, welche sich summieren
für k=2 eine Regressionsfläche, für k>2 schwer darstellbar
Slope ist Neigung der Ebene in Richtung des Prädikators
Was ist in der einfachen linearen Regression und in der multiplen Regression gleich?
- Bedingung der kleinsten Abweichungsquadrate als Schätzmethode
- Intercept und Fehlerterm
Wie werden die Parameter ermittelt?
mit der Methode der kleinsten Abweichungsquadrate
Parameter so ermittelt, dass
Σᵢɛᵢ²=min
aber jetzt nicht mehr im Sinne einer Geraden, sondern einer Ebene
Σᵢɛᵢ² trotzdem ein Skalar da nur 1 Prädiktor vorhergesagt wird
Wie sind die Slopes in der multiplen linearen Regression zu interpretieren? Wie ist die Interpretation anders im Vergleich zur einfachen linearen Regression?
- für kontinuierliche Variablen = Veränderung im Outcome wenn sich Prädiktor um eine Einheit ändert
- für dichotome Variablen =
durchschnittlichen Unterschied im Outcome zwischen den Gruppen - für Interaktionen = Durchschnittliche Änderungen in den Prädiktoren
- Regressionskoeffizienten sind für jeden Prädiktor um die anderen Prädiktoren adjustiert
- unique contribution wird pro Prädiktor herausgerechnet
-> nicht mehr ident mit Produkt-Moment-Korrelation
r(x,y) ≠ bk * ( s(x)/s(y) )
(außer in Ausnahmen, wo Prädiktoren zu r(X1,X2)=1 korrelieren)
standardisierte Slopes= partielle Korrelation von X&Y adjustiert um alle anderen Drittvariablen
Ist wichtig welche Prädiktoren miteinbezogen werden?
Ja, sehr! Wenn neuer prädiktor miteinbezogen wird, kann anderer (sonst signifikanter) Prädiktor plötzlich nicht mehr signifikant sein
Wie wird bei multipler linearer Regression auf Signifikanz getestet?
F-Test bei k>1 =
H0: b1 = b2 = b3 = … = bk = 0
–> echter Omnibustest
-> H0 verworfen wenn mind. 1 Parameter signifikant ≠ 0 ist
Welche Prädiktoren signifikant?
t-Test
Welche Bedeutung hat R in der multiplen Regression?
- beschreibt nun wirklich multiple Korrelationen mit dem Outcome
- ist nicht mehr gleich dem Slope Parameter
Wofür ist die multiple Regression gut geeignet?
Untersuchung und komplexer Modelle mit inhaltlich überlegten Prädiktoren
Ermittlung des Beitrages eines Prädiktors an der erklärten Varianz, unter Kontrolle aller anderen Prädiktoren (Drittvariablen)
gut für heterogene Stichproben, große Stichproben
-> interesse meistens: Wenn für drittvar kontrolliert, existiert Effekt noch?
(meist weniger an contribution der drittvar interessiert)
=> adjusting for confounding
Was ist das korrigierte R²?
R² steigt durch zufällige Korrelationen von Prädiktor und Outcome bei jedem hinzugefügtem Prädiktor
-> Regressionsgerade produziert Overfitting
ungenau für Populationsebene, überschätzt Varianzerklärung
R²>R²adj
ist R²adj viel kleiner -> zu viele unbedeutende Prädiktoren
Korrektur nach Wherry:
R²adj= R² - (1-R²) k / N-k-1
Korrektur nach Olkin-Pratt etwas genauer, aber unnötig für uns
Wie kann entschieden werden welche Prädiktoren hinzugenommen werden?
prinzipiell nur durch inhaltliche Überlegung
müssen eigentlich alle relevanten Prädiktoren enthalten sein, ist nicht prüfbar
Schätzer ändern sich durch Anwesenheit anderer Prädiktoren -> Reihenfolge auch wichtig
Welche Methoden der Parameterziehung in der Multiplen Regression kennen wir?
- Einschluss (Enter, forced entry) Regression
- Blockweise (hierarchische) Regression
- Schrittweise Regression
Welchen Einfluss hat die Reihenfolge der Parameterziehung?
Einfluss auf die Signifikanztests von ΔR²
im letzten Schritt ident mit Enter Methode
-> inkrementelle Validität
Ist Prädiktor noch singifikant wenn für schon bekannte Einflussfaktoren oder verwandte Konstrukte kontrolliert wird? Wie groß?
- ist Präd noch signifikant unter hinzunahme von Drittvar?
Direkte Bestimmung von ΔR² Zuwachs an erklärter Varianz
Welche Modellvoraussetzungen hat die multiple lineare Regression?
- UV ist metrisch oder dichotom. AV ist metrisch.
- Linearität des Zusammenhangs
- Homoskedastizität
- Normalverteilung der Residuen
- Unabhängigkeit der Beobachtungen
- Multikollinearität
- Additivität
- Modellspezifikation korrekt
*) weak exogenity
Was sind die Gauß-Markov Kriterien?
Modellvoraussetzungen gegenüber der Residuen = Residualanalye -> model diagnostics
ɛi=yi-ŷi
E[ɛ]=0
Unabhängigkeit: Residuen untereinander unkorreliert
Normalverteilt: Erwartungswert 0
Homoskedastisch: konstant und unabhängig dh hoher/niedriger Testscore enthält gleich viel Fehler
Welches Skalenniveau hat AV?
metrisch -> geht ja um Varianzanalyse
Was bedeutet Linearität des Zusammenhangs in Bezug auf die Regressionsanalyse? Wie linearität prüfbar?
Effekt des Prädiktors auf alle Outcomes gleich
nicht etwa qudratisch, kubisch, etc.
grafisch mittels Streudiagramm prüfbar
sollte kein Muster zeigen sondern 1 gerader Streifen, keine Ausreißer
Was bedeutet Homoskedastizität? Wie ist es prüfbar?
Fehlervarianz in allen Ausprägungen gleich
wenn nicht: Standardfehler wird unglaubwürdig, auch t-Wert -> Einfluss auf Typ-1 und Typ-2 Fehler
aber: Schätzer bleibt unbiased
grafisch mittels Streudiagramm
Punktewolke trichterförmig -> hinweiß auf heteroskedastizität
Was sind prediction intervalls? Was sind Konfidenzintervalle der Regressionsgeraden?
modellbasierte Vorhersage in welchem Bereich sich 95% der zukünftigen Beobachtungen fallen sollten
wird durch Ausreißer verzerrt aber auch geeignet für Ausreißerdiagnostik
KI für die Regressionsgerade ist der Bereich in dem sich die Regressionsgerade zu 95% Wahrscheinlichkeit befindet
Wie kann mit Verletzungen der Linearität umgegangen werden?
generell große Stichprobe oder große Abweichung um nachzuweisen, dass Zusammenhang nicht linear ist
1. Variablentransformation zB log
-> Nachteil: in echt schwierig zu deuten
- direkte Modellierung des nichtlinearen Zusammenhangs
-> Ergänzung eines quadratischen, kubischen Terms, etc. = polynomiale Funktion
Wie kann mit Verletzungen der Homoskedastizität umgegangen werden?
- bei heteroskedastizität: Standardfehler zu klein -> t wird zu schnell signifikant
–> ausweichen auf andere Parameterschätzung z.B. gewichtete kleinste Quadrate
Oder, besser: Bootstrap
Was bedeutet Bootstrapping?
durch wiederholtes Ziehen mit zurücklegen werden Stichproben erzeugt, die manche Werte mehrfach enthalten
-> Parameterverteilung
-> Verwendung für KIs und Signifikanztests
empirische Verteilungen aus den Daten selbst berechnen und daran modellieren
-> Münchhausen style, pulling yourself out by your own bootstraps
Was gibt es über Ausreißer zu sagen hinsichtlich Modelldiagnostik multiple lineare Regression?
Hinweis auf Modellverletzung
uU verzerrender Einfluss (muss nicht sein) abhängig:
-) Größe der Abweichung (direkt prop)
-) Stichprobengröße (indirekt prop)
-> wenn kleine Abweichung und Stichprobe groß, kein großer Effekt der Ausreißer
Wie kann die Normalverteilung der Residuen überprüft werden?
- Histogramm und Q-Q PLot (bzw P-P Plot)
sind Residuen normalverteilt liegen Punkte im Q-Q bzw. P-P auf einer Diagonale
Standardisierte Residuen sollten möglichst zwischen ±2.5 liegen, 98.8% der Werte (also bisschen drüber ist nicht so schlimm) - statistische Kennwerte:
a) Cook-Distanz: Werte ab 1 deuten auf Ausreißer hin
b) Mahalanobis Abstand: multivariates Abstandsmaß, desto größter Stichprobe, desto mehr vernachlässigbar
c) zentrierter Hebelwert: Einfluss der beobachteten auf die vorhergesagten Werte, Cutoffs für auffällige werte, meist 3x Erwartungswert
-> für jeden Datenpunkts berechnet, überprüft ob über cutoff
ggf Sensitivitätsanalyse: Ausschluss von Daten und Wiederholung -> gleiche Parameter?
Ausschluss nur präregistriert, nicht posteriori (p-Hacking!)
Wie kann die Unabhängigkeit von Beobachtungen im multiplen linearen Modell geprüft werden? Welche Probleme ergeben sich aus einer Verletzung? Was kann man dagegen tun?
-durch inhaltliche Überlegungen des Studiendesigns (zB Messwh, genestete Daten) geprüft
NICHT zu testen mit Durbin-Watson Tests : testet nur auf serielle Abhängigkeit, nicht sinnvoll bei querschnittlichen Daten; willkürliche Reihenfolge
Verletzung führt zu:
- zu kleine SE -> Auswirkungen auf Signifikanztest
- Typ-1-Fehler steigen (Tests zu schnell signifikant)
- weniger Auswirkung auf Parameterschätzung selbst
(=wie bei heteroskedastizität)
bei nicht unabhängigen Daten müssen andere Analysemethoden verwendet werden
Was ist Multikollinearität? Welche Probleme ergeben sich?
Prädiktoren dürfen korrelieren aber nicht zu stark
sind 2+ Prädiktoren hoch korreliert |r|->1:
- Beitrag Prädiktor 1 sehr ähnlich zu Prädiktor 2
-> SE der Parameter werden größer, signifikanz und relativer Beitrag sehr sensibel für Zufallsschwankungen
-> schwieriger unique contribution zu ermitteln
-> Größe R² limitiert
sind 2+ Prädiktoren perfekt korreliert |r|=1:
- kein Modell kann angepasst werden
- SPSS streikt
Wie kann Multikollinearität überprüft werden? Wie kann mit einer Verletzung umgegangen werden?
Variance Inflation Factor (VIF) -> ist Höhe der interkorrelation problematisch?
- VIF für jeden Prädiktor wie stark die Varianz seines Koeffizienten durch die anderen erhöht wird
- NUR abhängig von Korrelationen mit anderen Prädiktoren, unabhängig von Korrelationen mit Outcome
VIF(j) = 1 / (1-R²)
wenn Prädiktor unkorreliert VIF = 1
bei korreliertheit VIF>1
übliche Cutoffs: VIF>10
–> was dann? redundante Prädiktoren entfernen (basierend auf theoretischem Modell entscheiden, welcher Prädiktor redundant)
gibt noch weitere Verfahren:
zB communality analysis, dominance analysis
Was ist Additivität?
Einzeleffekte addieren sich (siehe Modellgleichung)
aus Sicht der ANOVA testet Regression nur Haupteffekte; wahres Modell kann aber auch multiplikativ sein (Wechselwirkungen, Moderatoren, …)
Regressionsmodell ohne Wechselwirkungen nur gültig, wenn additives Modell auch tatsächlich in der Population gilt (Modellspezifikation)
Was ist mit korrekter Modellspezifikation gemeint?
- unser Modell ist nur richtig wenn es korrekt spezifiziert wurde:
1. Alle wesentlichen Prädiktoren enthalten
2. Prädiktoren sind wirklich Prädiktoren
3. Modellierung der Zusammenhänge ist korrekt
(Interaktionen, Drittvariablen, nicht-lineare Zusammenhänge ausreichend berücksichtigt)
4. Messfehler der Prädiktoren nicht zu groß
wurde Prädiktor vergessen -> unique contributions und Koeffizienten biased und daher nur schlechte Schätzer der Populationsmittelwerte
Wie kann korrekte Modellspezifikation überprüft werden?
inhaltlich kausale Überlegungen
DAG (= directed acyclic graphs) = Strukturmodelle, grafische Darstellung von Kausalbeziehungen
können idR keine Kausalität belegen dh. Kausalitätsüberlegungen dokumentieren und offenlegen
für Regression: nur confounder Variablen
-> eine gemeinsame Ursache für Variation
a priori Überlegung über Drittvariablen
konkurrierende Modelle in Resultaten gegenüberstellen und diskutieren
a posteriori Drittvariable inkludieren verboten:
- erhöht Typ 1 Fehlerrate
- kann eine Form von p-Hacking sein
- kann generell zu Konfusion führen, schwer interpretierbar
Was ist die Voraussetzung der weak exogenity?
Modell geht davon aus, dass Prädiktoren fehlerfrei gemessen wurden -> unwahrscheinlich
kann zu Unterschätzung der Zusammenhänge und unique contributions führen
Alternativen:
Errors-in-variables models/measurement error models
Strukturgleichungsmodelle (SEM)
Wie kann die benötigte Stichprobengröße für multiple lineare regression geschätzt werden?
komplex! abhängig von:
- R²
- Anzahl der Prädiktoren
- Multikollinearität
- Korrelationen der Prädiktoren mit Outcome
benötigte Stichprobe steigt wenn:
- Multikollinearität hoch ist
- viele Prädiktoren erfasst werden
- Prädiktoren mit dem Outcome nur schwach korrelieren
- nur kleine Effekte
rule of thumb: pro neuen Prädiktor zumindest +10N
Programme wie G-Power schätzen benötigte Stichprobe anhand Effektstärke f² (achtung, nicht mit eta² sondern f²)
Poweranalyse bei Regressionsanalyse stark an R² gebunden
Welche Besonderheiten haben binäre Prädiktoren?
Sie müssen Dummykodiert werden (0,1)
Regressionsgerade geht durch die Mittelwerte der Gruppen
Signifikanztest im prinzip einfach ein t-Test weil Mittelwertsvergleiche auf signifikanz
Sind ein weg qualitative Daten in ein quantitatives Modell einzuführen
Welche Konventionen gibt es bei Dummyvariablen?
0 = Kontroll- bzw. Referenzgruppe
1 = Experimentelle Gruppe
yi=b0+b1*Di
Di… Dummy
y(Control)=b0
y(Exp)=b0+b1
Gruppenunterschied = Mittelwertsunterschied
Welche Unterschiede zu k=1 gibt es?
Slope Parameter steht nun nicht mehr in direktem Zusammenhang mit der zero-moment correlation
Parameter umeinander adjustiert
t² ist nicht mehr gleich F, F test der Prädiktoren nun nicht mehr Global
r2(X,Y)=/=R2 da mehrere Partialkorrelationen berechnet werden
F Test testet nun
H0: b1 = b2 = … = bk = 0
—> Omnibustest
Wie wird mit dichotomen Prädiktorvariablen umgegangen?
Ausprägungen dummykodiert
0=control -> y(control)=b0
1=experiment -> y(exp)=b0+b1
Signifikanztest: Mittelwertsvgl, im Prinzip t-Test
Wie wird mit polytomen Prädiktorvariablen umgegangen?
Dummycodiert (0, 1)
unterschiedliche Fragestellungen indem immer 1 Mittelwertsvergleich 2 Gruppen -> t-Test
zB Effektcodierung mit -1 als Referenz
-> Interzept: Gesamtmittelwert
-> Slope: Mittelwertsunterschiede der übrigen Gruppen, ohne Referenz
für vollständiges Set orthogonaler Kontraste gilt F Wert des Gesamtmodells = t² der Prädiktorvariable
Wie funktioniert die forced entry Regression?
Prädiktoren werden ausgewählt und simultan aufgenommen
Wie funktioniert die blockweise Regression?
(hierarchisch [nicht verwechseln mit multilevelmodellen]):
selbst gewählte Reihenfolge, einzeln oder in Blocks
nach jedem Schritt: ΔF berechnet ->
- erhöht Hinzunahme des Prädiktors die Varianzerklärung signifikant? Um wie viel?
- Ändern sich die Regressionskoeff?
–> Prädiktor mitaufnehmen
WIe funktioniert schrittweise Regression?
- maximal für explorative designs geeignet
- stur nach Algorithmus, kann Theorie nicht berücksichtigen
- Abschlussmodell enthält Prädiktoren mit der größten Erklärungskraft
- mit blockweise Regression kombinierbar
2 Richtungen: - vorwärts: steigt R signifikant durch Aufnahme eines Prädiktors -> mitaufgenommen; weitere Pädiktoren adjustiert
-rückwärts: erst alle inkludiert, dann jene Prädiktoren mit geringstem nicht signifikanten t Wert exkludiert
Probleme:
Generalisierbarkeit, Replizierbarkeit
abhängig von verfügbaren Prädiktoren und Zufallsfehler
- höchstens in Kombi mit Validierungsmethode empfohlen, rückwärts theoretisch besser da weniger Typ 2 Fehler