Grenzen des Signifikanztests Flashcards
Fisher
Was ist die Standardversion des Signifikanztest-Rituals?
- Stelle eine Nullhypothese auf wie z. B. “kein(e)
Mittelwertsunterschied(e)” oder “Null-Korrelation”, aber
spezifiziere keine Alternativhypothese - Benutze 5% oder 1% als Konvention, um die
Nullhypothese zu verwerfen - Wenn das Testergebnis signifikant ist, nehme Deine
Forschungshypothese an
Hybrid
Was ist die elaborierte Version des Signifikanztest-Rituals?
- Stelle eine Nullhypothese und eine Alternativhypothese (meist
unspezifisch, z. B. “größer” oder“ungleich”) auf - Benutze 5% oder 1% als Konvention, um die Nullhypothese zu
verwerfen - (Optional: Stelle Überlegungen zur Teststärke [Power] an)
- Wenn das Testergebnis signifikant ist, nehme Deine
Forschungshypothese an - (Optional: Wenn das Testergebnis nicht signifikant ist, führe das
„Post-Hoc-Poweranalyse-Ritual“ durch)
Was ist das Post-hoc-Poweranalyse Ritual?
- Wenn das Testergebnis nicht signifikant ist, führe eine Post-hoc Poweranalyse durch
- Benutze dazu den empirisch gefundenen Effekt als Schätzung des Populationseffekts
- Finde heraus, dass die Power zu niedrig war, um diesen Effekt (= geschätzter
Populationseffekt) zu entdecken (bei symmetrischen Prüfverteilungen: Power < 50%)
Das Problem: Der empirisch gefundene Effekte kann stark vom Populationseffekt
abweichen.
–> sinnvoller: Post-Hoc-Poweranalyse mit theoretisch hergeleitetem Effekt
–> Noch sinnvoller: A priori Poweranalyse
Was sagt ein Signifikanztest-Ergebnis aus?
Wahrscheinlichkeit des Ergebnisses unter der Bedingung, dass die H0 gilt –> p-Wert
Auf welche Frage gibt das Signifikanztest-Ritual eine Antwort?
- Kann das noch Zufall sein?
- p-Wert sehr klein –> kein Zufall mehr (Sternchenstrategie: mind 1 Sternchen sonst Misserfolg)
Was sind verbreitete Fehlannahmen bei der Interpretation von p-Werten?
- p-Werte sind Indikatoren für die Größe eines Effekts
- p-Werte erlauben eine Abschätzung der Wahrscheinlichkeit,
daß die Nullhypothese/Alternativhypothese zutrifft - p-Wert: Wahrscheinlichkeit, mit der man sich hinsichtlich
seiner Schlussfolgerung (H0 ist falsch) geirrt hat
(„Irrtumswahrscheinlichkeit“) - p-Werte erlauben eine Abschätzung der Wahrscheinlichkeit,
dass ein Ergebnis replizierbar ist
Warum ist der p-Wert kein Indikator für die Größe eines Effekts?
Keine Aussage über praktische Bedeutsamkeit
Bei einem bestimmten p-Wert (X):
* X und große SP –> kleinerer Effekt
* X und kleine SP –> größerer Effekt
P-Wert allein sagt nichts über Effektgröße aus, dazu muss man auch n kennen!
Warum erlaubt der p-Wert keine Abschätzung der WS, dass die H0/H1 zutrifft?
p betrifft das Ergebnis, nicht die Wahrscheinlichkeit. Die Annahme mit der man in den Test geht, ist dass die WS für die H0 100% ist.
p(Ergebnis I H0) ist nicht p(H0 I Ergebnis)
Warum ist der p-Wert keine Irrtumswahrscheinlichkeit?
Mit p kann H0 trotz des signifikanten Ergebnisses richtig sein
Die Irrtums-WS ist alpha, wird vor dem Test festgelegt hat nur dann Bedeutung, wenn die H0 zutrifft (wenn die H1 wahr ist, kann man nur den beta-Fehler begehen)
p = Produkt der Daten
p erlaubt nur WS-Aussagen über die Daten, nicht die Hs
Warum erlauben p-Werte keine Aussagen darüber, ob das Ergebnis replizierbar ist?
Das ist abhängig von der Power. Die ist abhängig vom tatsächlichen Populationseffekt, der zwar geschätzt werden kann, aber eigentlich theoretisch hergeleitet werden muss.
Publication Bias –> Überschätzung des Populationseffekts –> Überschätzung der Power in Replikationen
Was ist die begrenzte Aussagekraft von richtig interpretierten Signifikanztestergebnissen?
- Bietet nur eingeschränkt Fragemöglichkeiten (nur solche, die zu einem Signifikanztest passen, wie z.B. Ja/Nein Antworten, oder Fragen, die eine mxn Struktur der Welt voraussetzen)
- Liefert nur stark eingeschränkte Antworten/Passung zwischen p-Werten und Theorien/Hs
- keine Aussage über praktische Bedeutsamkeit
Was sind Ergänzungen und Alternativen zum Signifikanztest?
- KIs
- Grafische Analyse
- Resampling Verfahren
- Bayesianischer Ansatz
- Experimentelle Einzelfallanalyse
- Effektgrößen und Metaanalyse
- ALM
- Qualitative Methoden
- Präzisere Theorien/Modelle
Was sind die Vorteile von Konfidenzintervallen?
- beinhalten dieselben Infos wie Signifikanztests
- bieten eine Schätzung des entsprechenden Populationsparameters (MW des Intervalls)
- Machen darüber noch Aussagen über die Genauigkeit der Schätzung (Länge des Intervalls)
- Aussage immer über das Intervall, nicht über den Wert (Wert liegt darin –> falsch)
Was sind die MAGIC Kriterien?
Rolle von Statistik:
M - Größe von Effekten
A - Detailgenauigkeit
G - Breite der Schlussfolgerungen
I - Potenzial für Meinungsänderung
C - Sauberkeit der Methodik, theoretische Kohärenz
Signifikanztests in erster Linie ein Hilfsmittel, das die Glaubwürdigkeit unterstützen kann; oft nicht mehr konsistent mit dem Modus Tollens
Welche Faktoren beeinflussen das Ergebnis eines Signifikanztests?
Da SPVs die Grundlage sind, haben alle Faktoren, die die Form und Abstände der Verteilungen beeinflussen, auch Einfluss auf die Power
* Populations-Effektgröße
* n
* alpha und beta Fehler abwägen
* Minimierung des experimentellen Fehlers
* Homogenität der Population