Multivariate Verfahren Flashcards
Win
Aufgabe 1
Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der
multiplen Regressionsanalyse verfolgt.
Lösung: Die multiple Regressionsanalyse dient der Kontrolle von
Störvariablen, sowie der Prognose und Erklärung des Verhaltens anhand
mehrerer unabhängiger Variablen.
Aufgabe 2
Das Konzept der erklärten Varianz erklärt sich nicht von selbst – tun Sie es
hier am Beispiel der linearen Regression!
Lösung: Anteil an Varianz an der Gesamtvarianz, der durch alle
Prädiktoren erklärt wird .
Die Regression beruht auf der Quadratsummenzerlegung
Der Determinationskoeffizient/das Bestimmtheitsmaß beschreibt den Anteil
der durch die Regression erklärten Variation an der Gesamtvariation: R2
Je näher also die tatsächlichen Y-Werte an den durch die
Regressionsgleichung vorhergesagten Werten liegen, desto geringer ist
das Residuum und desto größer die aufgeklärte Varianz.
Aufgabe 3
Sie wollen überprüfen, ob die Variable „Glaube an den freien Willen“
(metrisch skaliert) einen zusätzlichen Vorhersagebeitrag für Hilfeverhalten
(ebenfalls metrisch skaliert gemessen) leistet, nachdem (a)
soziodemografische Variablen (Alter, Einkommen, Geschlecht) und (b)
Rahmenbedingungen (Anzahl der Freunde, emotionale Reaktivität) bereits
berücksichtigt wurden.
a) Welches Verfahren würden Sie wählen, um diese Fragestellung zu
untersuchen?
Lösung:
Hierarchische Regression: Zuerst die soziodemografischen und
Rahmenvariablen in die Analyse aufnehmen (entweder in einem gemeinsamen Block, oder aber schon in 2 Blöcken), zuletzt Glaube an
freien Willen rein (s. S. 65-66 FLB).
b) Woran würden Sie erkennen, ob Glaube an Willensfreiheit unter diesen
Bedingungen tatsächlich einen zusätzlichen Vorhersagebeitrag leistet?
Lösung: Zunahme in R2(Delta R2) per F-Test testen (S. 66, FLB I)
Aufgabe 4
Was versteht man unter Multikollinearität, und wie kann man sie
aufdecken?
Lösung: Unter Multikollinearität versteht man eine hohe multiple Korrelation
eines Prädiktors mit anderen Prädiktoren. Eine hohe Multikollinearität wirkt
sich dahingehend aus, dass der Standardfehler des Regressionsgewichts
derjenigen Variablen, die mit den anderen hoch korreliert ist, groß ist und
das Regressionsgewicht somit unpräzise geschätzt wird.
Zur Bestimmung des Ausmaßes der Multikollinearität können zwei
Koeffizienten bestimmt werden, die voneinander abhängen: der Toleranz-
und der Varianzinflations-Faktor. Den Toleranzfaktor erhält man, indem
man die quadrierte multiple Korrelation einer unabhängigen Variablen mit
allen anderen unabhängigen Variablen von 1 abzieht. In der Literatur findet
man häufig den Hinweis, dass ein Wert des Toleranzfaktors kleiner als 0.10
Mulitkollinearität anzeigt, wobei auch bei größeren Werten Probleme
auftreten können. Der Varianzinflations-Faktor ist der Kehrwert der
Toleranz. Ein Wert des Varianzinflations-Faktors, der größer als 10 ist, wird
in der Literatur häufig als auffallend bewertet.
Aufgabe 5
Sie vermuten, dass die Variable „Beweglichkeit“ den positiven
Zusammenhang zwischen Alter und Depression moderiert. Was bedeutet
das? Erklären Sie zunächst, was eine Moderatorvariable ist und
veranschaulichen Sie die Zusammenhänge im Anschluss grafisch. Erklären
Sie außerdem, warum man im Fall stetiger bzw. metrischer
Moderatorvariablen eine Zentrierung der Variablen vornimmt und was
Zentrierung ist.
Lösung:
Moderator: von ihr hängt die Stärke des Zusammenhangs zwischen zwei
Variablen ab. Z.B. könnte der Zusammenhang zwischen Alter und
Depression bei niedrigerer Beweglichkeit stärker ausgeprägt sein als bei
höherer Beweglichkeit. Moderationseffekte entsprechen im Wesentlichen
dem Konzept der Interaktion in der Varianzanalyse, bloß dass dort sowohl der/die Prädiktor/en als auch die Moderatorvariable nominalskaliert sind (s.
Varianzanalyse).
Alter —> Depression
Aufgabe 6
Sie vermuten, dass die Variable „Geschlecht“ den positiven
Zusammenhang zwischen Schuhgröße und Einkommen mediiert. Was
bedeutet das? Erklären Sie anhand eines selbstgewählten Beispiels
zunächst was eine Mediatorvariable ist und veranschaulichen Sie die
Zusammenhänge grafisch.
Lösung: Mediator: vermittelt den Zusammenhang zwischen zwei Variablen
– zwischen Schuhgröße und Einkommen besteht kein Zusammenhang,
erst unter Berücksichtigung des Geschlechts – Männer haben in der Regel
„höhere“ Positionen und verdienen mehr Geld als Frauen; da Männer i.d.R.
auch größere Füße als Frauen haben, vermittelt das Geschlecht den
Zusammenhang zwischen Schuhgröße und Einkommen.
Schuhgröße —>Geschlecht —>Einkommen
Aufgabe 7
a) Was versteht man unter einer Suppressorvariablen?
Lösung: Eine Suppressorvariable ist eine unabhängige Variable, deren
Aufnahme in das multiple Regressionsmodell dazu führt, dass der
Beitrag einer anderen unabhängigen Variablen zur Erklärung der
Variation der abhängigen Variablen erhöht wird. In der Regel ist die
Suppressorvariable nur niedrig korreliert mit dem Kriterium, aber relativ
hoch mit einem anderen.
Aufgabe 8
Was ist ein Residuenplot (auch Residualplot genannt), und wofür setzt man ihn ein?
Lösung: In einem Residuenplot werden Residuen, üblicherweise
studentisierte Residuen, auf der Y-Achse gegen die aufgrund der
Regression vorhergesagten y-Werte auf der X-Achse abgebildet. Mit den
Residuenplots können Verletzungen der Annahme der Regressionsanalyse
wie bspw. Verletzungen der Homoskedastizität und Fehlspezifikationen
aufgedeckt werden.
Aufgabe 9
Grenzen Sie folgende Begriffe voneinander ab: Standardabweichung,
Standardfehler des Koeffizienten, Standardschätzfehler.
Lösung:
Standardabweichung bezeichnet die Wurzel der Varianz und ist ein Maß für die Streuung einzelner Werte um einen Mittelwert. Bei normalverteilten
Variablen schätzt sie den Parameter steuert.
Standardfehler des Koeffizienten ist eine theoretisch hergeleitete Größe,
die die Standardabweichung der Stichprobenverteilung eines Schätzers
(hier: Regressionskoeffizienten) bezeichnet. Sie wird verwendet um z.B.
Konfidenzintervalle zu bestimmen und statistische Tests der einzelnen
Regressionskoeffizienten durchzuführen.
Standardschätzfehler bezeichnet die Streuung von beobachteten Werten
um eine Regressionsvorhersage (z.B. Vorhersagelinie).
Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.
a) Charakterisieren Sie dazu zunächst Ihre Variablen hinsichtlich
Prädiktor/Kriterium und Skalenniveau.
Lösung: Alter – UV, intervallskaliert, Geschlecht – UV, nominalskaliert,
Augenfarbe – UV, kategorial, Intelligenz – AV, intervallskaliert
Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.
b) Wie sähe eine Funktionsgleichung aus?
Lösung:
multiple lineare Regressionsgleichung:
Intelligenz =ß 0 c + ß0 + ß1Alter * Alter + ß2Geschlecht* Geschlecht + ß 3Augenfarbe * Augenfarbe + ε
c) Angenommen, jeder der Koeffizienten wurde signifikant: Beschreiben
Sie, wie Sie die im Rahmen der linearen Regression ermittelten (nicht-
standardisierten) Koeffizienten interpretieren würden (b0, b alter, b geschlecht, b augenfarbe). Verdeutlichen Sie dies gegebenenfalls mithilfe konkreter
Zahlenwerte für die Koeffizienten.
Lösung:
b0: Wert des Kriteriums (Intelligenz), wenn alle Prädiktoren den Wert 0
annehmen
bi (i=Alter, Geschlecht, Augenfarbe): Wenn der Wert in X
eine Einheit zunimmt, nimmt der Wert von Y (Intelligenz) um b
Einheiten zu/ab (abhängig vom Vorzeichen), vorausgesetzt alle
anderen Prädiktoren sind konstant.
Aufgabe 2
Es wurde eine Regressionsanalyse mit der abhängigen Variable
„Einkommen“ und der unabhängigen „Alter“ durchgeführt. Um
herauszufinden, ob ein nicht-linearer Zusammenhang besteht, wurde die
Variable „Alter“ quadriert und zusätzlich in das Modell aufgenommen.
a) Welche Hypothesen wurden hier getestet?
H 0 (Gesamtmodell) \: 0 (Bestimmtheitsmaß R Steigungskoeffizienten sind 0), H 1 (Gesamtmodell) H 0-(Alter) \: Alter 0; H 0-(Alter2) \: Alter2 0 (die Steigungskoeffizienten für alter und alter2 unterscheiden sich jeweils nicht von 0 / weder alter noch alter2 liefert einen signifikanten Vorhersagebeitrag). Die dazugehörigen Alternativhypothesen lauten ܪଵ:ߚ ≠ Ͳ
b) Stellen Sie die Regressionsgleichung auf
Einkommen = 36381.35 -2114.63alter + 71.36alter2
b0 b1 b2
c) Interpretieren Sie die Ergebnisse:
Modell klärt 95% Varianz auf, erheblich mehr als Zufall (p < .01). Trotzdem unterscheidet sich der Vorhersagebeitrag keines Prädiktors signifikant von 0. (mögliche Gründe: Kleine Stichprobe n=10, ggf.Multikollinearität)
Aufgabe 3
Es wurde eine multiple lineare Regression mit dem Kriterium
“Leistungsfähigkeit“ und den Prädiktoren „Entscheidungs- und
Handlungsspielraum“, „Vielfalt und Dynamik“, „Lernen und Rückmeldung“
und „Durchschaubarkeit“ berechnet.
Lediglich die Prädiktoren Handlungs-/ Entscheidungsspielraum (p = .05) und Lernen/Rückmeldung (p = .014) tragen signifikant zur Vorhersage bei.
Woran könnte es liegen, dass die beiden anderen Prädiktoren keinen
signifikanten Beitrag zur Varianzaufklärung leisten? Welche Statistiken
könnten Ihnen Auskunft geben?
Lösung: Hohe Korrelationen zwischen den Variablen/Redundanz der
Prädiktoren; Multikollinearität – Bestimmung der Toleranz bzw. des
Varianzinflationsfaktor VIF (Kehrwert der Toleranz) von Variablen: Niedrige
Toleranz/hoher VIF deutet darauf hin, dass Variable in Multikollinearität
verwickelt ist. Kleine Stichproben führen ebenfalls zu ungenauen
Schätzungen.
Aufgabe 4
Willermann et al. (1991) untersuchten den Zusammenhang von
Gehirngröße und Intelligenz. Hierzu erhoben sie unter anderem die
Handlungsintelligenz (PIQ) mit dem HAWIE-Intelligenztest, die
Gehirngröße in Pixeln mittels Magnet-Resonanz Tomographie
(MRICOUNT, Maßeinheit 10000 Pixel), sowie das Geschlecht von 20
männlichen und 20 weiblichen Probanden. Sie untersuchten die Frage:
Gibt es einen Zusammenhang zwischen Gehirngröße und Intelligenz?
Folgende Tabelle gibt die Regressionskoeffizienten und die Standardfehler
der Regression von Gehirngröße auf Handlungsintelligenz wieder.
a) Bestimmen Sie, ob die Regressionskoeffizienten signifikant sind
Die Testgröße läßt sich aus der Tabelle leicht ermitteln, indem
Parameterschätzer durch Standardfehler geteilt wird (siehe vervollständigte Tabelle). Bei Durchführung mit dem Computer wird der in der letzten Spalte befindliche p - Wert geprüft, ob er kleiner als 5% ist. Falls ja wir die Nullhypothese verworfen.
c) Formulieren Sie die statistischen Hypothesen des Tests des
Regressionskoeffizienten (Null- und Alternativhypothese).
H0: bj= 0 vs. H1: bj≠ 0
Y Motivation = 9,94 + 0,435* Leistungss (zentr)+ 10,8*Gesch - 0,44 Leistungsseben (zentr.) * Geschlecht
mit b0=9.94, b1=0.435, b2=10.8, b3= -.44
(alle Steigungskoeffizienten waren signifikant)
Interpretieren Sie die in der Abbildung dargestellten Ergebnisse in
Kombination mit/unter Bezugnahme auf die oben dargestellten Ergebnisse:
a) Was bedeutet b1:
Lösung: Einfluss von Leistungsstreben auf Motivation in der Gruppe,
die mit 0 kodiert ist (Frauen).