MV Aufgaben Flashcards
1) Lineare Regression
Erkläraufgaben
Aufgabe 1
Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der
multiplen Regressionsanalyse verfolgt.
Lösung: Die multiple Regressionsanalyse dient der Kontrolle von
Störvariablen, sowie der Prognose und Erklärung des Verhaltens anhand
mehrerer unabhängiger Variablen.
Aufgabe 2
Das Konzept der erklärten Varianz erklärt sich nicht von selbst – tun Sie es hier am Beispiel der linearen Regression!
Lösung: Anteil an Varianz an der Gesamtvarianz, der durch alle
Prädiktoren erklärt wird .
Der Determinationskoeffizient/das Bestimmtheitsmaß beschreibt den Anteil
der durch die Regression erklärten Variation an der Gesamtvariation.
Je näher also die tatsächlichen Y-Werte an den durch die
Regressionsgleichung vorhergesagten Werten liegen, desto geringer ist
das Residuum und desto größer die aufgeklärte Varianz.
Aufgabe 3
Sie wollen überprüfen, ob die Variable „Glaube an den freien Willen“
(metrisch skaliert) einen zusätzlichen Vorhersagebeitrag für Hilfeverhalten
(ebenfalls metrisch skaliert gemessen) leistet, nachdem (a)
soziodemografische Variablen (Alter, Einkommen, Geschlecht) und (b)
Rahmenbedingungen (Anzahl der Freunde, emotionale Reaktivität) bereits
berücksichtigt wurden.
a) Welches Verfahren würden Sie wählen, um diese Fragestellung zu
untersuchen?
Lösung:
Hierarchische Regression: Zuerst die soziodemografischen und
Rahmenvariablen in die Analyse aufnehmen (entweder in einem gemeinsamen Block, oder aber schon in 2 Blöcken), zuletzt Glaube an
freien Willen rein (s. S. 65-66 FLB).
b) Woran würden Sie erkennen, ob Glaube an Willensfreiheit unter diesen
Bedingungen tatsächlich einen zusätzlichen Vorhersagebeitrag leistet?
Lösung: Zunahme in R2
(Delta R2) per F-Test testen (S. 66, FLB I)
Aufgabe 4
Was versteht man unter Multikollinearität, und wie kann man sie
aufdecken?
Lösung: Unter Multikollinearität versteht man eine hohe multiple Korrelation eines Prädiktors mit anderen Prädiktoren. Eine hohe Multikollinearität wirkt sich dahingehend aus, dass der Standardfehler des Regressionsgewichts derjenigen Variablen, die mit den anderen hoch korreliert ist, groß ist und das Regressionsgewicht somit unpräzise geschätzt wird.
Zur Bestimmung des Ausmaßes der Multikollinearität können zwei
Koeffizienten bestimmt werden, die voneinander abhängen: der Toleranz-
und der Varianzinflations-Faktor. Den Toleranzfaktor erhält man, indem
man die quadrierte multiple Korrelation einer unabhängigen Variablen mit
allen anderen unabhängigen Variablen von 1 abzieht. In der Literatur findet
man häufig den Hinweis, dass ein Wert des Toleranzfaktors kleiner als 0.10
Mulitkollinearität anzeigt, wobei auch bei größeren Werten Probleme
auftreten können. Der Varianzinflations-Faktor ist der Kehrwert der
Toleranz. Ein Wert des Varianzinflations-Faktors, der größer als 10 ist, wird
in der Literatur häufig als auffallend bewertet.
Aufgabe 5
Sie vermuten, dass die Variable „Beweglichkeit“ den positiven
Zusammenhang zwischen Alter und Depression moderiert. Was bedeutet
das? Erklären Sie zunächst, was eine Moderatorvariable ist und
veranschaulichen Sie die Zusammenhänge im Anschluss grafisch.
Lösung:
Moderator: von ihr hängt die Stärke des Zusammenhangs zwischen zwei
Variablen ab. Z.B. könnte der Zusammenhang zwischen Alter und
Depression bei niedrigerer Beweglichkeit stärker ausgeprägt sein als bei
höherer Beweglichkeit. Moderationseffekte entsprechen im Wesentlichen
dem Konzept der Interaktion in der Varianzanalyse, bloß dass dort sowohl der/die Prädiktor/en als auch die Moderatorvariable nominalskaliert sind (s.
Varianzanalyse).
Erklären Sie außerdem, warum man im Fall stetiger bzw. metrischer
Moderatorvariablen eine Zentrierung der Variablen vornimmt und was
Zentrierung ist.
Zentrierung: Die Zentrierung bedeutet, dass man von jedem Messwert den Eindruck Mittelwert der Variablen abzieht. Dies führt dazu, dass jede zentrierte Variable einen Mittelwert von 0 hat. Man nimmt die Zentrierung von
Variablen u.a. in der moderierten Regressionsanalyse vor, um die Multikollinearität zu verringern und die Interpretation zu erleichtern.
Aufgabe 6
Sie vermuten, dass die Variable „Geschlecht“ den positiven
Zusammenhang zwischen Schuhgröße und Einkommen mediiert. Was
bedeutet das? Erklären Sie anhand eines selbstgewählten Beispiels
zunächst was eine Mediatorvariable ist und veranschaulichen Sie die
Zusammenhänge grafisch.
Lösung:
Mediator: vermittelt den Zusammenhang zwischen zwei Variablen
– zwischen Schuhgröße und Einkommen besteht kein Zusammenhang,
erst unter Berücksichtigung des Geschlechts – Männer haben in der Regel
„höhere“ Positionen und verdienen mehr Geld als Frauen; da Männer i.d.R.
auch größere Füße als Frauen haben, vermittelt das Geschlecht den
Zusammenhang zwischen Schuhgröße und Einkommen.
Schuhgröße - Geschlecht - Einkommen
Aufgabe 7
a) Was versteht man unter einer Suppressorvariablen?
Lösung:
Eine Suppressorvariable ist eine unabhängige Variable, deren
Aufnahme in das multiple Regressionsmodell dazu führt, dass der
Beitrag einer anderen unabhängigen Variablen zur Erklärung der
Variation der abhängigen Variablen erhöht wird. In der Regel ist die
Suppressorvariable nur niedrig korreliert mit dem Kriterium, aber relativ
hoch mit einem anderen.
Aufgabe 8
Was ist ein Residuenplot (auch Residualplot genannt), und wofür setzt man ihn ein?
Lösung:
In einem Residuenplot werden Residuen, üblicherweise
studentisierte Residuen, auf der Y-Achse gegen die aufgrund der
Regression vorhergesagten y-Werte auf der X-Achse abgebildet. Mit den
Residuenplots können Verletzungen der Annahme der Regressionsanalyse
wie bspw. Verletzungen der Homoskedastizität und Fehlspezifikationen
aufgedeckt werden.
Aufgabe 9 Grenzen Sie folgende Begriffe voneinander ab: Standardabweichung, Standardfehler des Koeffizienten, Standardschätzfehler.
Lösung:
Standardabweichung bezeichnet die Wurzel der Varianz und ist ein Maß für die Streuung einzelner Werte um einen Mittelwert. Bei normalverteilten
Variablen schätzt sie den Parameter steuert.
Standardfehler des Koeffizienten ist eine theoretisch hergeleitete Größe,
die die Standardabweichung der Stichprobenverteilung eines Schätzers
(hier: Regressionskoeffizienten) bezeichnet. Sie wird verwendet um z.B.
Konfidenzintervalle zu bestimmen und statistische Tests der einzelnen
Regressionskoeffizienten durchzuführen.
Standardschätzfehler bezeichnet die Streuung von beobachteten Werten
um eine Regressionsvorhersage (z.B. Vorhersagelinie).
Problemlöseaufgaben
Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.
a) Charakterisieren Sie dazu zunächst Ihre Variablen hinsichtlich
Prädiktor/Kriterium und Skalenniveau.
Lösung: Alter – UV, intervallskaliert, Geschlecht – UV, nominalskaliert, Augenfarbe – UV, kategorial, Intelligenz – AV, intervallskaliert
b) Wie sähe eine Funktionsgleichung aus?
Lösung:
multiple lineare Regressionsgleichung:
Intelligenz =ß0 + ß1Alter * Alter + ß2Geschlecht* Geschlecht + ß3Augenfarbe
* Augenfarbe + ε
c) Angenommen, jeder der Koeffizienten wurde signifikant:
Beschreiben Sie, wie Sie die im Rahmen der linearen Regression ermittelten (nicht-standardisierten) Koeffizienten interpretieren würden
(b0, balter, bgeschlecht, baugenfarbe).
Verdeutlichen Sie dies gegebenenfalls mithilfe konkreter
Zahlenwerte für die Koeffizienten.
Lösung:
b0: Wert des Kriteriums (Intelligenz), wenn alle Prädiktoren den Wert 0
annehmen
bi (i=Alter, Geschlecht, Augenfarbe): Wenn der Wert in Xi
(z.B. Alter) um eine Einheit zunimmt, nimmt der Wert von Y (Intelligenz) um b
Einheiten zu/ab (abhängig vom Vorzeichen), vorausgesetzt alle
anderen Prädiktoren sind konstant.
Aufgabe 2
Es wurde eine Regressionsanalyse mit
der abhängigen Variable „Einkommen“ und
der unabhängigen „Alter“ durchgeführt.
Um herauszufinden, ob ein nicht-linearer Zusammenhang besteht, wurde die
Variable „Alter“ quadriert und zusätzlich in das Modell aufgenommen.
a) Welche Hypothesen wurden hier getestet?
H0 (Gesamtmodell): 0 (Bestimmtheitsmaß R2 in der Population ist 0/ alle Steigungskoeffizienten sind 0), H1 (Gesamtmodell):
0
H0-(Alter):
Alter 0; H0-(Alter2):
Alter2 0 (die Steigungskoeffizienten für alter und
alter2 unterscheiden sich jeweils nicht von 0 / weder alter noch alter2 liefert
einen signifikanten Vorhersagebeitrag). Die dazugehörigen