Probeklausur A Flashcards
Schwierigkeit bei großem Stichprobenumfang
Schwierigkeit:
- Bei zu großen Stichproben kann es passieren, dass für die Praxis unbedeutende Effekte statistisch
bedeutsam/ signifikant werden.
- Daher Berücksichtigung der praktischen Relevanz trotz statistischer Signifikanz: da mit sehr großen
Stichproben prinzipiell jeder Effekt statistisch bedeutsam wird
Wird umgangen durch
- optimalen Stichprobenumfang a priori so festlegen, dass er gerade so groß ist um statistischen Effekt absichern zu können
- Festlegung des α-Niveau zuvor, bei einem großen Datenvolumen bietet es sich an, ein Signifikanzniveau
von 1 % festzulegen (α = 0.01)
Nachträglicher Umgang
- Angabe der Teststärke und Effektgröße, damit das Ergebnis der
statistischen Signifikanz eingeordnet werden kann.
Was bedeutet Varinzhomogenität in der einfaktoriellen Varianzanalyse und wie kann diese geprüft werden?
• Varianzhomogenität bedeutet, dass die Varianzen (Streuung) in beiden Gruppen gleich sind
• Diese muss für die Durchführung einer einfaktoriellen Varianzanalyse erfüllt sein
_________________________________________________
Prüfung der Varianzhomogenität durch:
• Bartlett-Test: Gegenüber Verletzungen der Normalverteilungsannahme sehr empfindlich (sollte eher selten eingesetzt werden), Bartlett-Test nicht signifikant = Varianzhomogenität, basiert auf y-Verteilung
• Levene-test: Durchführung einer einfaktoriellen Varianzanalyse über den Betrag der Abweichungen der individuellen Werte vom Gruppenmittelwert, sehr stabil gegenüber Verletzung der Normalverteilung, progressives Prüfverfahren
• Fmax-Statistik: Durchführung nur bei gleichgroßen Stichproben, hierbei werden die Größte und kleinste Varianz der Faktorstufen ins Verhältnis gesetzt, relativ einfacher Test
Regressionseffekt mir Beispiel aus psychologischem Kontext.
Definition: Regressionseffekt beschreibt eine Tendenz von Extremwerten zur Mitte (wenn Personen in der ersten Messung extrem hohe/niedrige Merkmalsausprägungen hatten, ist es wahrscheinlicher, dass extreme Merkmalsausprägungen bei wiederholter Messung in Richtung Mittelwert tendieren)
• Anwendung bei Messwiederholungen/Arbeit mit Extremgruppen
_______________________________________________________________________________________________________________________
Beispiel Psychotherapie: da hauptsächlich akut stark belastete Personen (Extremgruppen) die Hilfe eines Therapeuten suchen, ist die Wahrscheinlichkeit hoch, dass es ihnen nach der Therapie besser geht (Tendenz zum Mittelwert nach wiederholter Messung)
Wirkt sich die Erwartung von Trainern auf die Leistung der Schüler aus? In einem Experiment wird den Trainern vor Beginn eines Kurses glaubhaft gemacht, dass bestimmte Schüler besonders begabt (B) seien, während die anderen normal begabt (N) seien. Tatsächlich wurden die Schüler allerdings zufällig den Bedingungen zugeordnet. Am Ende erhalten die Schüler eine
Note auf die finale Prüfungsleistung. Wir gehen hier davon aus, dass diese Noten ordinalskaliert sind.
a) Die Forscher erwarten, dass die angeblich begabten Schüler tatsächlich bessere Prüfungsleistungen erzielen. Mit welchem Verfahren könnte man prüfen, ob diese Erwartung richtig ist? Geben Sie außerdem die zu diesem Verfahren gehörende Nullhypothese an.
R
AV = Note (ordinalskaliert) ↔ UV = besonders begabt bzw. normal unbegabt, 2 Unabhängige Stichproben (B und A)
- Man-Whitney U-Test, da wahrscheinliche geringe Stichprobengröße, zwei unabhängige Stichprobe mit der Voraussetzung, dass das untersuchte Merkmal aus zwei unabhängige Zufallsstichproben stammt und auf Ordinalskalenniveau vorliegt. ODER Mediantest, da es Ausreißer geben könnte
- Die Nullhypothese müsste hier in gerichteter Form verfasst werden, da die Forscher erwarten, dass die Gruppe der begabten besser abschneidet: H0: u1/2 p1 größergleich u1/ p2 ODER H0: u1/2 p1 kleinergleich u1/2 p2
b) In einer zweiten Studie wollen die Forscher zusätzlich erkunden, ob sich auch eine negative Erwartung auswirkt. Neben den angeblich besonders begabten (B) und den normal begabten (N) wird eine dritte Gruppe als angeblich völlig unbegabt (U) bezeichnet. Wiederum werden die Noten der Schüler erfasst. Wie würden Sie vorgehen, um zu prüfen, ob sich die unterschiedlichen Erwartungen tatsächlich auf die Prüfungsleistung auswirken?
AV = Note (ordinalskaliert) ↔ UV = normal begabt bzw. besonders begabt bzw. völlig unbegabt = 3 Stichproben
- H-Test von Kruskal & Wallis, da drei unabhängige Stichproben vorliegen und die Voraussetzung des H-Test, dass es sich um mehr als zwei unabhängige Zufallsstichproben und eine ordinalskalierte Variable handelt, erfüllt ist.
c) Die Forscher überlegen, ob statt der Noten ein standardisierter Leistungstest zum Einsatz kommen soll, dessen Daten intervallskaliert sind. Welches der beiden Maße wäre aus statistischer Sicht zu bevorzugen und warum?
AV = standardisierter Leistungstest (Intervallskaliert), drei unabhängige Stichproben
- Varianzanalyse ohne Messwiederholungen, da mehr als zwei Stichproben und intervallskaliert
ANOVA Angsttherapie und Geschlecht
Die ANOVA-Analyse untersucht die Effekte von Geschlecht, Therapie und deren Interaktion auf die Angstwerte. Die Ergebnisse sind wie folgt:
- In dieser ANOVA kann man zunächst erkennen, dass es einen Haupteffekt A für das Geschlecht gibt, einen Haupteffekt B für die Therapie und einen Interaktionseffekt für Geschlecht x Therapie.
1. Haupteffekt: Geschlecht
- F(1,36) = 6.62, p = .014, n2 = 0.16
- Es gibt einen signifikanten Unterschied (F=6,62) in den Angstwerten zwischen den Geschlechtern. Der Effekt ist mit p= 0.014 als mittelgroß zu bewerten. Frauen scheinen im Durchschnitt höhere Angstwerte zu haben. Ein 𝜂𝑔2 von .16 bedeutet, dass 16% der Varianz in den abhängigen Daten (Hier. Symptomstärke) durch die unabhängigen Variablen (Therapie) erklärt werden.
2. Haupteffekt: Therapie
- F(1,36) = 31.35, p = .000, n2 = .47
- Die Art der Therapie hat einen signifikanten Einfluss auf die Angstwerte (p = .000). Der hohe F-Wert von 31.35 unterstützt die Signifikanz und zeigt den starken Zusammehang zwischen Therapie und Symptomstärke. Therapie B zeigt im Vergleich zu Therapie A höhere Angstwerte. Ein 𝜂𝑔2 von .47 bedeutet, dass 47% der Varianz in der Symptomstärke durch die Wahl der Therapie erklärt werden kann.
3. Interaktionseffekt: Geschlecht × Therapie
- F(1,36) = 6.99, p = .012, n2 = .16
Der Interaktionseffekt ist statistisch signifikant (F= 6,99, p= .012). Das bedeutet, dass der Effekt der Therapie unterschiedlich für Männer und Frauen ausfällt.
Interpretation der Grafik:
• Männer zeigen relativ ähnliche Angstwerte bei beiden Therapien. • Frauen haben bei Therapie B deutlich höhere Angstwerte als bei Therapie A. • Dies bestätigt die signifikante Interaktion. • Frauen reagieren stärker auf die Unterschiede zwischen den Therapien als Männer (siehe Grafik).
In einer Publikation könnte ein Teil des Ergebnisses der Analyse wie folgt berichtet werden:
F (1,36) = 6.62, MSE = 12.92, p = .014, 𝜼𝒈𝟐 = .155
Was bedeuten die drei Parameter F, p und 𝜼𝒈𝟐 sowie die beiden Werte in Klammern?
1. F-Wert: Der F-Wert (hier: 6.62) ist das Verhältnis der erklärten Varianz zur Fehlervarianz. Er gibt an, ob die Mittelwerte der Gruppen sich signifikant unterscheiden.
2. p-Wert: Der p-Wert (hier: .014) gibt die Wahrscheinlichkeit an, dass das beobachtete Ergebnis (oder ein extremeres) unter der Annahme der Nullhypothese auftritt. Ein p-Wert unter .05 deutet auf Signifikanz hin.
3. n2: Dies ist der Effektstärkenmaßstab (partielles eta-Quadrat), der angibt, wie viel Prozent der Gesamtvarianz durch den Effekt erklärt wird. bedeutet, dass 15,5 % der Varianz durch den Effekt erklärt werden.
4. MSE (Mean Square Error): MSE (hier: 12.92) ist die mittlere Quadratsumme der Fehlervarianz. Sie wird zur Berechnung des F-Wertes verwendet und gibt an, wie stark die Werte um die vorhergesagten Gruppenmittel schwanken.