Multivariate Verfahren Flashcards

Win

1
Q

Aufgabe 1
Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der
multiplen Regressionsanalyse verfolgt.

A

Lösung: Die multiple Regressionsanalyse dient der Kontrolle von
Störvariablen, sowie der Prognose und Erklärung des Verhaltens anhand
mehrerer unabhängiger Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aufgabe 2
Das Konzept der erklärten Varianz erklärt sich nicht von selbst – tun Sie es
hier am Beispiel der linearen Regression!

A

Lösung: Anteil an Varianz an der Gesamtvarianz, der durch alle
Prädiktoren erklärt wird .
Die Regression beruht auf der Quadratsummenzerlegung
Der Determinationskoeffizient/das Bestimmtheitsmaß beschreibt den Anteil
der durch die Regression erklärten Variation an der Gesamtvariation: R2
Je näher also die tatsächlichen Y-Werte an den durch die
Regressionsgleichung vorhergesagten Werten liegen, desto geringer ist
das Residuum und desto größer die aufgeklärte Varianz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Aufgabe 3
Sie wollen überprüfen, ob die Variable „Glaube an den freien Willen“
(metrisch skaliert) einen zusätzlichen Vorhersagebeitrag für Hilfeverhalten
(ebenfalls metrisch skaliert gemessen) leistet, nachdem (a)
soziodemografische Variablen (Alter, Einkommen, Geschlecht) und (b)
Rahmenbedingungen (Anzahl der Freunde, emotionale Reaktivität) bereits
berücksichtigt wurden.

a) Welches Verfahren würden Sie wählen, um diese Fragestellung zu
untersuchen?

A

Lösung:
Hierarchische Regression: Zuerst die soziodemografischen und
Rahmenvariablen in die Analyse aufnehmen (entweder in einem gemeinsamen Block, oder aber schon in 2 Blöcken), zuletzt Glaube an
freien Willen rein (s. S. 65-66 FLB).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

b) Woran würden Sie erkennen, ob Glaube an Willensfreiheit unter diesen
Bedingungen tatsächlich einen zusätzlichen Vorhersagebeitrag leistet?

A

Lösung: Zunahme in R2(Delta R2) per F-Test testen (S. 66, FLB I)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Aufgabe 4
Was versteht man unter Multikollinearität, und wie kann man sie
aufdecken?

A

Lösung: Unter Multikollinearität versteht man eine hohe multiple Korrelation
eines Prädiktors mit anderen Prädiktoren. Eine hohe Multikollinearität wirkt
sich dahingehend aus, dass der Standardfehler des Regressionsgewichts
derjenigen Variablen, die mit den anderen hoch korreliert ist, groß ist und
das Regressionsgewicht somit unpräzise geschätzt wird.
Zur Bestimmung des Ausmaßes der Multikollinearität können zwei
Koeffizienten bestimmt werden, die voneinander abhängen: der Toleranz-
und der Varianzinflations-Faktor. Den Toleranzfaktor erhält man, indem
man die quadrierte multiple Korrelation einer unabhängigen Variablen mit
allen anderen unabhängigen Variablen von 1 abzieht. In der Literatur findet
man häufig den Hinweis, dass ein Wert des Toleranzfaktors kleiner als 0.10
Mulitkollinearität anzeigt, wobei auch bei größeren Werten Probleme
auftreten können. Der Varianzinflations-Faktor ist der Kehrwert der
Toleranz. Ein Wert des Varianzinflations-Faktors, der größer als 10 ist, wird
in der Literatur häufig als auffallend bewertet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Aufgabe 5
Sie vermuten, dass die Variable „Beweglichkeit“ den positiven
Zusammenhang zwischen Alter und Depression moderiert. Was bedeutet
das? Erklären Sie zunächst, was eine Moderatorvariable ist und
veranschaulichen Sie die Zusammenhänge im Anschluss grafisch. Erklären
Sie außerdem, warum man im Fall stetiger bzw. metrischer
Moderatorvariablen eine Zentrierung der Variablen vornimmt und was
Zentrierung ist.

A

Lösung:
Moderator: von ihr hängt die Stärke des Zusammenhangs zwischen zwei
Variablen ab. Z.B. könnte der Zusammenhang zwischen Alter und
Depression bei niedrigerer Beweglichkeit stärker ausgeprägt sein als bei
höherer Beweglichkeit. Moderationseffekte entsprechen im Wesentlichen
dem Konzept der Interaktion in der Varianzanalyse, bloß dass dort sowohl der/die Prädiktor/en als auch die Moderatorvariable nominalskaliert sind (s.
Varianzanalyse).
Alter —> Depression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Aufgabe 6
Sie vermuten, dass die Variable „Geschlecht“ den positiven
Zusammenhang zwischen Schuhgröße und Einkommen mediiert. Was
bedeutet das? Erklären Sie anhand eines selbstgewählten Beispiels
zunächst was eine Mediatorvariable ist und veranschaulichen Sie die
Zusammenhänge grafisch.

A

Lösung: Mediator: vermittelt den Zusammenhang zwischen zwei Variablen
– zwischen Schuhgröße und Einkommen besteht kein Zusammenhang,
erst unter Berücksichtigung des Geschlechts – Männer haben in der Regel
„höhere“ Positionen und verdienen mehr Geld als Frauen; da Männer i.d.R.
auch größere Füße als Frauen haben, vermittelt das Geschlecht den
Zusammenhang zwischen Schuhgröße und Einkommen.
Schuhgröße —>Geschlecht —>Einkommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Aufgabe 7

a) Was versteht man unter einer Suppressorvariablen?

A

Lösung: Eine Suppressorvariable ist eine unabhängige Variable, deren
Aufnahme in das multiple Regressionsmodell dazu führt, dass der
Beitrag einer anderen unabhängigen Variablen zur Erklärung der
Variation der abhängigen Variablen erhöht wird. In der Regel ist die
Suppressorvariable nur niedrig korreliert mit dem Kriterium, aber relativ
hoch mit einem anderen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Aufgabe 8

Was ist ein Residuenplot (auch Residualplot genannt), und wofür setzt man ihn ein?

A

Lösung: In einem Residuenplot werden Residuen, üblicherweise
studentisierte Residuen, auf der Y-Achse gegen die aufgrund der
Regression vorhergesagten y-Werte auf der X-Achse abgebildet. Mit den
Residuenplots können Verletzungen der Annahme der Regressionsanalyse
wie bspw. Verletzungen der Homoskedastizität und Fehlspezifikationen
aufgedeckt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Aufgabe 9
Grenzen Sie folgende Begriffe voneinander ab: Standardabweichung,
Standardfehler des Koeffizienten, Standardschätzfehler.

A

Lösung:
Standardabweichung bezeichnet die Wurzel der Varianz und ist ein Maß für die Streuung einzelner Werte um einen Mittelwert. Bei normalverteilten
Variablen schätzt sie den Parameter steuert.

Standardfehler des Koeffizienten ist eine theoretisch hergeleitete Größe,
die die Standardabweichung der Stichprobenverteilung eines Schätzers
(hier: Regressionskoeffizienten) bezeichnet. Sie wird verwendet um z.B.
Konfidenzintervalle zu bestimmen und statistische Tests der einzelnen
Regressionskoeffizienten durchzuführen.

Standardschätzfehler bezeichnet die Streuung von beobachteten Werten
um eine Regressionsvorhersage (z.B. Vorhersagelinie).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.
a) Charakterisieren Sie dazu zunächst Ihre Variablen hinsichtlich
Prädiktor/Kriterium und Skalenniveau.

A

Lösung: Alter – UV, intervallskaliert, Geschlecht – UV, nominalskaliert,
Augenfarbe – UV, kategorial, Intelligenz – AV, intervallskaliert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.

b) Wie sähe eine Funktionsgleichung aus?

A

Lösung:
multiple lineare Regressionsgleichung:
Intelligenz =ß 0 c + ß0 + ß1Alter * Alter + ß2Geschlecht* Geschlecht + ß 3Augenfarbe * Augenfarbe + ε

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

c) Angenommen, jeder der Koeffizienten wurde signifikant: Beschreiben
Sie, wie Sie die im Rahmen der linearen Regression ermittelten (nicht-
standardisierten) Koeffizienten interpretieren würden (b0, b alter, b geschlecht, b augenfarbe). Verdeutlichen Sie dies gegebenenfalls mithilfe konkreter
Zahlenwerte für die Koeffizienten.

A

Lösung:
b0: Wert des Kriteriums (Intelligenz), wenn alle Prädiktoren den Wert 0
annehmen
bi (i=Alter, Geschlecht, Augenfarbe): Wenn der Wert in X
eine Einheit zunimmt, nimmt der Wert von Y (Intelligenz) um b
Einheiten zu/ab (abhängig vom Vorzeichen), vorausgesetzt alle
anderen Prädiktoren sind konstant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Aufgabe 2
Es wurde eine Regressionsanalyse mit der abhängigen Variable
„Einkommen“ und der unabhängigen „Alter“ durchgeführt. Um
herauszufinden, ob ein nicht-linearer Zusammenhang besteht, wurde die
Variable „Alter“ quadriert und zusätzlich in das Modell aufgenommen.
a) Welche Hypothesen wurden hier getestet?

A
H
0 (Gesamtmodell)
\: 
 
 0  (Bestimmtheitsmaß R
Steigungskoeffizienten sind 0), H
1 (Gesamtmodell)
H
0-(Alter)
\: 
Alter 
 0;  H
0-(Alter2)
\: 
Alter2 
 0 (die Steigungskoeffizienten für alter und 
alter2 unterscheiden sich jeweils nicht von 0 / weder alter noch alter2 liefert 
einen signifikanten Vorhersagebeitrag). Die dazugehörigen 
Alternativhypothesen lauten 
ܪଵ:ߚ௝ ≠ Ͳ
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

b) Stellen Sie die Regressionsgleichung auf

A

Einkommen = 36381.35 -2114.63alter + 71.36alter2

b0 b1 b2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

c) Interpretieren Sie die Ergebnisse:

A

Modell klärt 95% Varianz auf, erheblich mehr als Zufall (p < .01). Trotzdem unterscheidet sich der Vorhersagebeitrag keines Prädiktors signifikant von 0. (mögliche Gründe: Kleine Stichprobe n=10, ggf.Multikollinearität)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Aufgabe 3
Es wurde eine multiple lineare Regression mit dem Kriterium
“Leistungsfähigkeit“ und den Prädiktoren „Entscheidungs- und
Handlungsspielraum“, „Vielfalt und Dynamik“, „Lernen und Rückmeldung“
und „Durchschaubarkeit“ berechnet.
Lediglich die Prädiktoren Handlungs-/ Entscheidungsspielraum (p = .05) und Lernen/Rückmeldung (p = .014) tragen signifikant zur Vorhersage bei.
Woran könnte es liegen, dass die beiden anderen Prädiktoren keinen
signifikanten Beitrag zur Varianzaufklärung leisten? Welche Statistiken
könnten Ihnen Auskunft geben?

A

Lösung: Hohe Korrelationen zwischen den Variablen/Redundanz der
Prädiktoren; Multikollinearität – Bestimmung der Toleranz bzw. des
Varianzinflationsfaktor VIF (Kehrwert der Toleranz) von Variablen: Niedrige
Toleranz/hoher VIF deutet darauf hin, dass Variable in Multikollinearität
verwickelt ist. Kleine Stichproben führen ebenfalls zu ungenauen
Schätzungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Aufgabe 4
Willermann et al. (1991) untersuchten den Zusammenhang von
Gehirngröße und Intelligenz. Hierzu erhoben sie unter anderem die
Handlungsintelligenz (PIQ) mit dem HAWIE-Intelligenztest, die
Gehirngröße in Pixeln mittels Magnet-Resonanz Tomographie
(MRICOUNT, Maßeinheit 10000 Pixel), sowie das Geschlecht von 20
männlichen und 20 weiblichen Probanden. Sie untersuchten die Frage:
Gibt es einen Zusammenhang zwischen Gehirngröße und Intelligenz?
Folgende Tabelle gibt die Regressionskoeffizienten und die Standardfehler
der Regression von Gehirngröße auf Handlungsintelligenz wieder.

a) Bestimmen Sie, ob die Regressionskoeffizienten signifikant sind

A

Die Testgröße läßt sich aus der Tabelle leicht ermitteln, indem
Parameterschätzer durch Standardfehler geteilt wird (siehe vervollständigte Tabelle). Bei Durchführung mit dem Computer wird der in der letzten Spalte befindliche p - Wert geprüft, ob er kleiner als 5% ist. Falls ja wir die Nullhypothese verworfen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

c) Formulieren Sie die statistischen Hypothesen des Tests des
Regressionskoeffizienten (Null- und Alternativhypothese).

A

H0: bj= 0 vs. H1: bj≠ 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Y Motivation = 9,94 + 0,435* Leistungss (zentr)+ 10,8*Gesch - 0,44 Leistungsseben (zentr.) * Geschlecht
mit b0=9.94, b1=0.435, b2=10.8, b3= -.44
(alle Steigungskoeffizienten waren signifikant)
Interpretieren Sie die in der Abbildung dargestellten Ergebnisse in
Kombination mit/unter Bezugnahme auf die oben dargestellten Ergebnisse:
a) Was bedeutet b1:

A

Lösung: Einfluss von Leistungsstreben auf Motivation in der Gruppe,
die mit 0 kodiert ist (Frauen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

b) Was Bedeutet b3:

A

Lösung: b3 entspricht dem Unterschied der bedingten Anstiege
(Unterschied des Einflusses von Leistungsstreben auf Motivation bei
Männern im Vergleich zu Frauen; Frauen Referenzkategorie der
Dummykodierung).

22
Q

Aufgabe 6
In einer Untersuchung zur Lebenszufriedenheit (Y) wollen Sie die
Hypothese überprüfen, dass sich die Arbeitszufriedenheit (Xi) umso stärker auf das Lebenszufriedenheitsurteil auswirkt, umso größer die Wichtigkeit (X2), die man der Arbeit zuschreibt ist. Hierzu erheben Sie die
Lebenszufriedenheit, die Arbeitszufriedenheit und die Wichtigkeit mit
intervallskalierten Skalen. Beschreiben Sie, wie Sie zur Überprüfung dieser
Hypothese vorgehen. Formulieren Sie hierbei (mathematisch) das
Regressionsmodell, das Sie Ihrer Hypothesenprüfung zugrunde legen, und
formulieren Sie die statistische Nullhypothese, die Sie testen wollen.
Beschreiben Sie auch, wie Sie zu einer statistischen Hypothese gelangen.

A

Lösung: Es handelt sich um die Frage, ob es sich bei der Wichtigkeit (X 2) um eine Moderatorvariable für den Zusammenhang zwischen
Lebenszufriedenheit (Y) und Arbeitszufriedenheit (X1) handelt. Daher
formuliert man folgendes Regressionsmodell (optimalerweise, nachdem
man alle Variablen zentriert hat):
Y = b0 + b1* X1 +b2 * X2 + b3 * X1X2 +e

Die Nullhypothese lautet: ß3≤0, da bei der postulierten Moderator
Beziehung das Regressionsgewicht ß3 einen positiven Wert aufweisen
muss. Nur dann gehen höhere Werte auf der Variable X2 mit einem höheren Regressionsgewicht für die Variable X1
einher. Um diese gerichtete Nullhypothese zu überprüfen, testet man mit einem einseitigen t-Test, ob sich das Regressionsgewicht b3, das man anhand der Anwendung einer multiplen Regressionsanalyse erhält, bedeutsam von 0 in positiver Richtung unterscheidet. Ist der empirisch gefundene t-Wert größer als der kritische t-Wert, verwirft man die Nullhypothese. Hierzu muss das Alpha Niveau vorher festgelegt werden. Der üblichen Konvention folgend kann
dies auf 0.05 festgelegt werden. Um genug Teststärke zu haben,
sollte vor der Studie eine A-priori-Poweranalyse zu Bestimmung der
optimalen Stichprobengröße durchgeführt werden. Hierzu ist es notwendig,
die Effektgröße und die Teststärke vorher festzulegen.

23
Q

Aufgabe 7
Nachdem Sie eine einfache lineare Regression gerechnet haben, finden
Sie folgenden Residuenpolt. Die Achse „Fitted:x“ kennzeichnet die
vorhergesagten Werte. Welche Schlussfolgerungen ziehen Sie in Bezug
auf die Gültigkeit der Annahmen der Regressionsanalyse in diesem
Anwendungsfall? Welche Annahmen werden verletzt sein? Warum?

A

Lösung: Erstens weist der Residuenplot darauf hin, dass die Annahme der Homoskedastizität verletzt ist. Die bedingte Varianz der Residuen ist im Bereich negativer gefitteter Werte größer als im Bereich positiver gefitteter
Werte. Zweitens ist die Linearitätsannahme verletzt, da die Residuen nicht
unsystematisch um den Wert 0 schwanken, sondern ein kurvenlineares
Muster aufweisen.

24
Q

Problemlöseaufgaben
Aufgabe 1
Welches varianzanalytische Verfahren würden Sie zur Auswertung der
entsprechenden Daten anwenden und warum? Geben Sie bitte jeweils
auch die unabhängige(n) und abhängige(n) Variablen an!
1) Kinder mit und ohne
Aufmerksamkeitsauffälligkeiten werden
einem Stroop-Test unterzogen (sollen die
Farben von Farbwörtern benennen). Reize
der zwei interessierenden Bedingungen
(kongruent: Wort rot in rot geschrieben, Wort
blau in blau geschrieben) und inkongruent
(Wort rot in blau geschrieben, Wort blau in
rot geschrieben) werden in zufälliger
Reihenfolge dargeboten. Man möchte
wissen, ob auffällige Kinder einen größeren
Stroop-Effekt zeigen (Verlangsamung bei
inkongruent gegenüber kongruent).

A
Zweifaktorielle Varianzanalyse,  gemischtes 
Design: 
- UV: Gruppe (mit vs. ohne 
Aufmerksamkeitsauffälligkeiten): 
Gruppierungsfaktor 
- UV: Stroop-Kongruenz (kongruent, 
inkongruent): 
Messwiederholungsfaktor 
- AV: Reaktionszeit 

2x2 mit Messwiederholungen (wenn mehr als ein Messwert bei einer Testperson)

25
Q

2) Es soll überprüft werden, ob die Form der
Verpackung einer Seife einen Einfluss auf
die wahrgenommene Attraktivität der Seife
hat. Dazu werden 3 Verpackungsformen von
je einer Gruppe bzgl. Attraktivität und
Kaufbereitschaft auf Ratingskalen zu
beurteilen.

A
2 einfaktorielle Varianzanalysen (ohne 
Messwiederholung):  
UV: Verpackungsform (3 
Faktorstufen/Gruppen) 
AV
1
\: Attraktivitätsratings 
AV
2
\: Ratings der Kaufbereitschaft 
Alternativ (und sogar m.E. besser): 
Multivariate Varianzanalyse rechnen, in der 
beide AV.s gleichzeitig berücksichtigt 
werden. 
MONAVA  Heißt es gibt 2 AV
26
Q
3) Ein Konfitürenhersteller möchte wissen, 
welchen Einfluss die Wahl des 
Markennamens und die Wahl des 
Absatzweges alleine und gemeinsam auf 
den Absatz haben. Deshalb testet er 3 
verschiedene Markennamen in zwei 
verschiedenen Absatzwegen.
A
2-faktoriell ohne MWH (2 
Gruppierungsfaktoren) 
UV1: Markenname (3 Stück) 
UV2: Absatzweg (2 Stück) 
AV: Absatz
27
Q

4) In einer medizinischen
Querschnittsuntersuchung (=1 Zeitpunkt) wird der Einfluss
dreier verschiedener Diätformen auf das
Körpergewicht festgestellt.

A

1-faktoriell (ohne Messwiederholung)
UV: Diätform
AV: Körpergewicht

28
Q

Aufgabe 2
Eine Forschergruppe testet ein neues Medikament gegen Migräne. Dafür
werden Patienten über 5 Wochen beobachtet. Man will erforschen, wie sich
das Schmerzempfinden unter Medikamentengabe über die Zeit verändert. Unabhängige Variable: Woche (week.f, 5 Faktorstufen, 5-1=4
Freiheitsgrade), abhängige Variable: Wöchentliche Summenscores
täglicher Schmerzratings auf einer Skala von 1-5; je höher das Rating,
desto größer der Schmerz).
Die Ergebnisse der Studie (Auswertung in R) sehen wie folgt aus. Das
Niveau sei auf 5% festgesetzt.

a) Was für eine Art von Varianzanalyse wurde hier gerechnet?

A

Lösung:
Einfaktorielle Varianzanalyse mit Messwiederholung (UV: Woche)
ANOVA

29
Q

b) Was tut „Mauchly’s Test for Sphericity“? Wie ist das Ergebnis dieses
Tests zu bewerten und was folgt daraus?

A

Lösung:
Überprüft eine zentrale Voraussetzung für die Durchführung einer
Messwiederholungs-Varianzanalyse, nämlich die Sphärizitäts-
/Zirkularitätsannahme, die besagt, dass die Korrelationen zwischen
Faktorstufen homogen sind (Zirkularitätsannahme), bzw. dass die
Varianzen der Differenzen zwischen den einzelnen Faktorstufen
homogen sind (Sphärizitätsannahme). Die beiden Annahmen gehen
miteinander einher, wobei die Sphärizitätsannahme stärker ist.
Hier ist Mauchly’s Test signifikant. Dies heißt, dass die
Sphärizitätsannahme nicht erfüllt ist. Deshalb sollte man hier die
korrigierten Überschreitungswahrscheinlichkeiten/Signifikanzen
zugrunde legen, bei denen eine Freiheitsgradkorrektur vorgenommen
wurde, um falschen Entscheidungen aufgrund des aufgrund der
Verteilungsverletzung verzerrten ursprünglichen Signifikanztests
entgegenzuwirken. Hierbei stehen zwei Korrekturmöglichkeiten zur
Verfügung (1) nach Greenhouse-Geisser (GGe), (2) nach Huyn-Feldt
(HFe)). (1) ist die konservativere und allgemein anerkanntere. Auch
nach GG-Korrektur ist der Effekt von Woche noch signifikant.

30
Q

c) Wie ist das Ergebnis zu interpretieren?

A

Lösung:
Der Effekt von Woche ist sogar nach G(reenhouse)-G(eisser)-Korrektur
signifikant, d.h. mindestens 2 Zeitpunkte unterscheiden sich
signifikant voneinander; jetzt weiß man aber noch nicht, welche
Zeitpunkte sich voneinander unterscheiden (Ähnliches gilt im
Übrigen auch für Varianzanalysen ohne Messwiederholung, wenn
Faktoren mit >2 Faktorstufen im Spiel sind – ein signifikanter (Haupt-)
Effekt in der Varianzanalyse sagt auch da nur, dass sich mindestens 2
der Gruppen überzufällig unterscheiden, aber nicht welche.

31
Q

d) Wie kann man bestimmen welche Faktorstufen genau sich

unterscheiden?

A

Lösung:
t-Tests für abhängige Stichproben (Vorsicht: Alpha-Fehler-Inflation, s.o.;
Bonferroni-Korrektur ist angebracht), s.a. Fisher Least Square
Differences; Vorsicht: Bei post-hoc Analysen von Varianzanalysen mit
unabhängigen Stichproben (ohne Messwiederholung) sollten für Paarvergleiche gängige Verfahren angewendet werden, die inhärent für
Alpha-Fehler-Inflation korrigieren, z.B. Tukey HSD, s. FLB II, S. 53 ff.,
Zusatzmaterialien Outputblock IX FLB II ).

32
Q

Aufgabe 3
Je drei Personen werden zufällig einer der Faktorstufenkombinationen
zugeordnet, die sich aus Alkoholkonsum (a1 =15 ml; a2=30 ml)
Koffeinkonsum (b1= kein Konsum, b2 =Koffein)Anschließend wird ein Aufmerksamkeitstest durchgeführt. Es ergeben sich
folgende Testergebnisse: (Aufgabe adaptiert und erweitert von Bortz &
Schuster, 2010, Aufgaben 14.5 und 14.7)

a) Welche Art von Varianzanalyse ist hier indiziert?

A

Lösung: Zweifaktorielle VA ohne Messwiederholung/ mit 2

Gruppierungsfaktoren

33
Q

b) Bestimmen Sie die Zellenmittelwerte und den Gesamtmittelwert sowie
die Zeilen- und Spaltenmittelwerte. Fertigen Sie ein
Interaktionsdiagramm an, bei denen sich jeweils einmal Alkoholkonsum
und einmal Koffeinkonsum auf der x-Achse befindet

A

Wenn Linien nicht parallel Laufen dann ist ein Interaktionseffekt wahrscheinlich.

34
Q

e) Interpretieren Sie die Ergebnisse im Hinblick auf den Einfluss von
Alkohol und Koffein auf Aufmerksamkeit.

A

Lösung:
- Die inhaltliche Interpretation der Ergebnisse hängt davon ab, ob hohe
Werte eine niedrige Aufmerksamkeitsleistung signalisieren oder eine
hohe. Einmal angenommen, hohe Werte signalisieren hohe
Aufmerksamkeitsleistungen: Weil es hier jeweils nur 2 Faktorstufen pro
Faktor (A, B) gibt, lassen sich die Ergebnisse eindeutig interpretieren:
- Haupteffekt B: die Aufmerksamkeitsleistungen sind besser in der
Koffeinbedingung als in der Bedingung ohne Koffein.
- Interaktion A*B: Der Koffeineffekt wird durch Alkohol moderiert, und
zwar dahingehend, dass der Unterschied zwischen Koffein und nicht
Koffein unter (leichtem) Alkoholeinfluss stärker ist.
- Hätten die Faktoren mehr als 2 Faktorstufen/Ausprägungen gehabt,
hätte man auch hier Kontraste oder post-hoc Vergleiche aufsetzen
müssen, um herauszukriegen, welche Faktorstufen(kombinationen) sich
eigentlich unterscheiden.

35
Q

Aufgabe 2
Unterscheiden Sie zwischen bedingten Wahrscheinlichkeiten, Odds
(Chancen bzw. Risiken) und Odds Ratios (Chancenverhältnis)! Was
besagen diese Kennwerte? Verdeutlichen Sie die drei Konzepte anhand
der folgenden 2 x 2 Häufigkeits-Tabelle, die (fiktional) den Zusammenhang
zwischen Krankheitsmodell (psychosozial/organisch) und Disziplin
(Psychologie, Medizin) illustriert

A

Lösung:
- Bedingte Wahrscheinlichkeiten: Wahrscheinlichkeiten, einem
bestimmten Krankheitsmodell zuzuneigen, gegeben die Zugehörigkeit
zu einer bestimmten Disziplin (z.B. Wahrscheinlichkeit für
Psychosoziales Modell gegeben Psychologe: P(Y=0/X=0) = 9/11=.82;
geht theoretisch auch andersrum (bedingte Wahrscheinlichkeit, ein
bestimmtes Krankheitsmodell zu wählen, gegeben eine Disziplin —>von
inhaltlichen Fragen abhängig machen, welche Richtung der Berechnung
sinnvoll ist)
- Odds (Chancen): Verhältnis zweier komplementärer bedingter
Wahrscheinlichkeiten; z.B. die Chance als Psychologe das
psychosoziale Krankheitsmodell zu wählen ist 4.5 Mal höher als das
organische Krankheitsmodell zu wählen:
Chance =n11/n21 = 9/2 = 4,5

Das Odds Ratios (OR) beschreiben Chancenverhältnisse, die zwei
Chancen miteinander vergleichen. Beispiel: Das OR für die Chance,
das psychosoziale gegenüber dem organischen Krankheitsmodell zu
wählen im Verhältnis zu der gleichen Chance bei Medizinern —> Um
welchen Faktor erhöht sich das „Risiko“, das psychosoziale
Krankheitsmodell anzulegen wenn man Psychologe ist – im Beispiel ist
die Chance/ das Risiko fast 16x so hoch wie bei Medizinern:

OR = n11/n21 //n12/n22 = 9/2 // 2/7 = 15,75

36
Q

Aufgabe 3
Im Anwendungsbeispiel aus FLB II soll Alkoholmissbrauch (0=nein, 1=ja)
auf der Grundlage von erblicher Vorbelastung (Erbe: 0=nein, 1=ja),
Bedeutung von Alkoholkonsum im sozialen Umfeld (Umfeldmittel: gering=0,
mittel=1; Umfeldgroß: gering=0, groß=1), Alter der Jugendlichen und ihrem
Reizhunger vorhergesagt werden. Zu diesem Zweck wurde in R eine
multiple logistische Regression gerechnet. Die Ergebnisse der Berechnung
finden Sie auf der nächsten Seite. Bitte beantworten Sie folgende Fragen
zum Ausdruck:

a) Bitte spezifizieren Sie die Regressionsgleichung!

A

Lösung:
Logit (Alkohol=1) = -13.987 + 1.633Erbevorbelastet + 0.144Umfeldmittel + 2.096Umfeldgroß + 0.417 Alter + 0.231Reizhunger

37
Q

b) Welche Prädiktoren sind auf einem α = .05 Signifikanzniveau signifikant und woran erkennen Sie das (bitte im Ausdruck markieren)

A

Lösung:
Erbe, Umfeld (groß vs. gering), Reizhunger (unter coefficients: z= b/s
b; p < .05)

38
Q

c) Bitte interpretieren Sie bErbevorbelastet= 1.633 und das dazugehörige Odds Ratio (OR)!

A

Lösung:
Wenn Erbe um 1 Einheit steigt (von nicht vorbelastet zu vorbelastet),
erhöht sich das erwartete Logit für Alkoholmissbrauch um 1.633 Einheiten – bei Konstanthaltung aller anderen Prädiktoren; Das
dazugehörige OR eb-erbe ist 5.122 —>bei erblich Vorbelasteten ist das
Risiko für Alkoholmissbrauch um das ca. 5fache erhöht im Vergleich zu
nicht vorbelasteten.

39
Q

d) Um wieviel größer ist das Risiko für Alkoholmissbrauch bei 17-jährigen
im Vergleich zu 14-jährigen?

A

Lösung:

(eb-alter)3 = OR(Alter)hoch3=1.52hoch3= 3.51-fach erhöht

40
Q

e) Woran erkennt man allein durch die Betrachtung der
Konfidenzintervalle der OR, dass der Prädiktor Umfeldmittel keinen
signifikanten Vorhersagebeitrag leistet?

A

Lösung:
Das Konfidenzintervall schließt den Wert 1 ein (und ein OR von 1
besagt, dass die Chance/das Risiko für geringe und mittlere Bedeutung
im Umfeld gleich ist).

41
Q

f) Nagelkerke’s R2 ist in diesem Output mit 0.5617979 angegeben. Bitte
interpretieren Sie diesen Wert.

A

Lösung:
Dies ist ein Pseudo-R2 und kann analog zum Bestimmtheitsmaß der
multiplen Regression interpretiert werden: Durch alle Prädiktoren
zusammen werden 56,2 % der Varianz im Kriterium aufgeklärt.

42
Q

g) Was besagen die Werte zu „Null deviance“ und „Residual deviance“?

A

Lösung:
Null Deviance: LogLikelihood-Wert des Nullmodells (-2LL0), Residual
Deviance: Loglikelihood-Wert des vollständig spezifizierten Modells
(-2LLv) . Je kleiner der Wert, desto besser die Anpassung. Für das
vollständig spezifizierte Modell ist der Wert 83.18-50.35=30.83 kleiner.
(In SPSS wird diese Differenz per LR-Test getestet).

43
Q

Aufgabe 4
Bestimmen Sie das OR (Wahrscheinlichkeit Brustkrebs mit erblicher
Vorbelastung/Wahrscheinlichkeit Brustkrebs ohne erbliche Vorbelastung)
mithilfe der vorgegebenen Werte und interpretieren Sie diesen Wert!

A

Lösung:
OR = 9: Wahrscheinlichkeit für Brustkrebs mit „erblicher Vorbelastung“
9fach erhöht gegenüber „keine erbliche Vorbelastung“.

44
Q

Aufgabe 1
Erläutern Sie das Ziel der Clusteranalyse. Visualisieren Sie das Verfahren
anhand eines Beispiels.

A

Lösung:
Ziel der Clusteranalyse ist Personen oder Objekte nach bestimmten
Merkmalen (z.B. verschiedene Indizes der Internetnutzung) zu
kategorisieren. Dazu wird betrachtet, wie weit Personen/Objekte aufgrund
Ihrer Merkmale voneinander entfernt sind. Liegen diese Personen nahe bei
einander, könnten Sie in eine Gruppe zusammengefasst werden. Liegen
sie weit weg voneinander, ist die Gruppierung weniger sinnvoll.
Beispielsweise könnte man so verschiedene Charaktertypen (bzw. Internet-
Nutzertypen) identifizieren, indem im Vorfeld Fragen erhoben werden.

45
Q

Aufgabe 2
Erklären Sie wie ein Dendrogramm gelesen wird. Welche Bedeutung haben
x-Achse und y-Achse für die Interpretation des Dendrogramms?

A

Lösung:
Ein Dendrogramm visualisiert die Clusteranalyse. Auf der x-Achse sind alle
Personen abgetragen, die in die Analyse einbezogen wurden. Auf der y-
Achse ist die „Distanz“ der Personen oder Cluster zueinander abgetragen.
Werden zwei Personen zusammengefügt, so bilden diese fortan ein
Cluster. Diese Cluster können dann wiederum mit anderen Personen oder
anderen Clustern zusammengefügt werden. Wie weit die Cluster
voneinander entfernt liegen, lässt sich an der Länge der Geraden
erkennen, die vor der Zusammenführung zu den bisherigen Clustern führt.
Auch die Reihenfolge der Zusammenführungen lässt sich erkennen,
sodass auf einen Blick erkannt werden kann, welche Cluster sich bei einer
2- oder einer 3-Clusterlösung ergeben.

46
Q

Aufgabe 1
Folgende Begriffe spielen in der Hauptkomponentenanalyse eine zentrale
Rolle:
- Eigenwert der Komponente
- Kommunalität eines Items
- Faktorladung
- Einfachstruktur
Definieren Sie die Begriffe und stellen Sie die Zusammenhänge der Werte
in einem geeigneten Schaubild für 4 Items und 2 Faktoren dar.

A

Lösung:
Eigenwert:
- Höhe der durch jeweils einen Faktor erklärten Varianz aller
beobachteten Variablen
- Summe der quadrierten Faktorladungen des Faktors über alle
Variablen hinweg
- Sollte größer als 1 sein, da der Faktor erst dann mehr Varianz als
eine einzelne Variable aufklärt

Kommunalität eines Items:
- Höhe der Varianz eines einzelnen Items, die über alle Faktoren
hinweg erklärt wird
- Summe der quadrierten Ladungen über alle Faktoren hinweg bei
einem Item

Einfachstruktur:
Bei einer Einfachstruktur laden nur bestimmte Variablen hoch auf einem
Faktor und sehr niedrig auf alle anderen Faktoren.

Faktorladung:
Die Faktorladung aij D(Faktorladung des j-ten Faktors auf die i-te Variable (j =
1,…,m; i=1,…,p)) aus Formel (1) entspricht der Korrelation zwischen der i-
ten Variablen und dem j-ten Faktor. Hohe Faktorladungen drücken gemäß
dem Modell der Hauptkomponentenanalyse (Formel (1)) aus, dass der
jeweilige Faktor, der eine nicht messbare Eigenschaft einer Person
repräsentiert, einen hohen Einfluss auf die Ausprägungen der Variablen

47
Q

Aufgabe 3
Ein wichtiger Schritt bei der Hauptkomponentenanalyse ist die Rotation der Komponenten. Was versteht man unter einer Rotation und wo liegt der
Unterschied zwischen orthogonaler und obliquen Rotation.
Lösung:

A

Problem:
- anfängliche Faktorenlösung ist inhaltlich oft nicht interpretierbar
Lösung:
- Drehung des Faktorraums/Transformation der Faktorladungen, um
eine Einfachstruktur zu erreichen
Orthogonale Rotation:
- Unkorreliertheit der Faktoren wird beibehalten
- Faktoren können auch nach der Rotation unabhängig voneinander
interpretiert werden
- z.B. Varimax
Oblique Rotation:
- Unkorreliertheit der Faktoren wird aufgegeben
- z.B. Promax

48
Q

Aufgabe 4
Nach welchen Kriterien lässt sich die Anzahl der relevanten
Hauptkomponenten bestimmen, und was besagen diese?

A

Lösung:
Kaiser-Kriterium:
- Alle Faktoren mit Eigenwert größer 1 werden als bedeutsam
angesehen
- Problem: überschätzt oft die tatsächliche Anzahl von Faktoren

Scree-Test:
- Grafische Darstellung des Eigenwertverlaufs
- Extraktion aller Faktoren vor dem Knick
- Problem: oft uneindeutig
Parallelanalyse:
- Generierung von mindestens 100 (oder 1000) Datensätzen mit
Zufallszahlen, die einer Faktorenanalyse unterzogen werden
- Extrahiert werden alle Faktoren, deren ursprünglich beobachtete
Eigenwerte größer sind als die jeweiligen gemittelten Eigenwerte
aus den Zufallsdatensätzen der Parallelanalyse

49
Q

Aufgabe 1
Eine Hauptanwendung der PCA ist die Revision von Fragebögen (z.B.
Verkürzung eines Fragebogens bei gleichbleibender Varianzaufklärung). In
einem Fragebogen zur Erfassung des States Mindfulness (Achtsamkeit) mit
den Subskalen Awareness und Bewertungsfreiheit ergab sich folgender
Screeplot:

A

Ergänzen Sie mit Hilfe der Abbildung folgende Tabelle:
Kriterium Anzahl der Faktoren
Theorie 2
Kaiser-Guttman 5
Scree-Plot 2 oder 4
Parallelanalyse 3

50
Q

Aufgabe 2
In der folgenden Analyse wurde eine 3-Komponentenlösung berechnet.
Kennzeichnen Sie im dargestellten R-Output folgende Werte:
- Eigenwert einer Komponente
- Kommunalität eines Items
- Beliebige Faktorladung
- Aufgeklärte Varianz des Modells

A
PC1
h2
u2
SS loadings
Cumm var
51
Q

Aufgabe 3
Im vorliegenden Modell wurde eine Promax-Rotation verwendet.
Begründen Sie kurz, wieso dies hier sinnvoll ist.

A

Lösung:
Unrotierte Komponentenlösungen sind zumeist schwer zu interpretieren, da zumeist keine Einfachstruktur gegeben ist. Die Promax-Rotation ist
sinnvoll, da anzunehmen ist, dass die einzelnen Faktoren nicht unabhängig
voneinander sind (Subskalen eines psychologischen Konstrukts).