VL2 Statistische Entscheidungen und Teststärke Flashcards
Was ist die Teststärke (Power) eines statistischen Tests?
Wahrscheinlichkeit, ein signifikantes Ergebnis zu finden, wenn die Alternativhypothese wahr ist.
Drückt aus, wie wahrscheinlich es ist, einen Effekt zu entdecken, wenn dieser tatsächlich existiert.
Welche vier Faktoren beeinflussen die Teststärke?
Signifikanzniveau (α): Höheres α erhöht die Teststärke.
Stichprobengröße (N): Größere Stichproben erhöhen die Teststärke.
Effektstärke (ES): Größere Effekte erhöhen die Teststärke.
Reliabilität der Messung: Zuverlässige Messungen verbessern die Teststärke indirekt.
Was ist ein β-Fehler, und wie hängt er mit der Teststärke zusammen?
β-Fehler: Wahrscheinlichkeit, einen existierenden Effekt zu übersehen (Fehler 2. Art).
Zusammenhang: Teststärke = 1−𝛽.
Was ist eine a-priori Poweranalyse?
Wird vor einer Studie durchgeführt, um die erforderliche Stichprobengröße zu bestimmen.
Notwendige Eingaben: Effektstärke, Signifikanzniveau und gewünschte Teststärke (z. B. 80 %).
Was ist eine post-hoc Poweranalyse?
Wird nach einer Studie durchgeführt, um die tatsächliche Teststärke zu berechnen.
Berücksichtigt die beobachtete Effektstärke, Stichprobengröße und Signifikanzniveau.
Was ist eine Sensitivitätsanalyse?
Bestimmt, wie groß ein Effekt sein muss, um bei einer gegebenen Teststärke und Stichprobengröße entdeckt zu werden.
Nützlich bei festem Studiendesign, um die Nachweisfähigkeit eines Tests zu evaluieren.
Was sind die Folgen geringer Teststärke?
Erhöhtes Risiko, wahre Effekte zu übersehen.
Verschwendung von Ressourcen (z. B. Zeit, Geld, Probanden).
Erhöhte Wahrscheinlichkeit von falschen Ergebnissen in der Forschung.
Wie kann die Teststärke in der Praxis erhöht werden?
Größere Stichproben verwenden.
Effektstärke durch präzises Studiendesign maximieren.
Signifikanzniveau leicht erhöhen (mit Vorsicht, da dies den α-Fehler steigert).
Was ist der Positive Vorhersagewert (PPV), und warum ist er wichtig?
Definition: Wahrscheinlichkeit, dass ein signifikantes Ergebnis tatsächlich korrekt ist.
Höhere Teststärke und strengeres Signifikanzniveau (kleineres α) erhöhen den PPV.
Was ist das Nullritual, und warum wird es kritisiert?
Nullritual: Standardverfahren des Nullhypothesensignifikanztestens (H0 formulieren, α festlegen, Ergebnis prüfen).
Kritik:
Fokus auf Signifikanz statt praktischer Relevanz.
Unrealistische Nil-Nullhypothese (kein Effekt existiert).
Fehlinterpretationen des p-Werts.
Was bedeutet der p-Wert?
Wahrscheinlichkeit, einen mindestens so großen Effekt zu beobachten, wenn die Nullhypothese wahr ist.
Wichtig: Er sagt nichts über die Wahrscheinlichkeit aus, dass die H0 wahr oder falsch ist.
Welche Fehlinterpretationen des p-Werts sind häufig?
Der p-Wert gibt die Wahrscheinlichkeit an, dass die Nullhypothese falsch ist (falsch!).
Ein signifikanter p-Wert beweist, dass die Alternativhypothese wahr ist (falsch!).
Ein nicht-signifikanter p-Wert zeigt, dass kein Effekt existiert (falsch!).
Was sind Lösungsvorschläge für die Kritik am Signifikanztesten?
Berichterstattung von Effektstärken und Konfidenzintervallen.
Durchführung von Replikationsstudien.
Teststärkeanalysen vor der Studie durchführen.
Bayesianische Ansätze nutzen
Warum sind Effektstärken wichtig?
Geben die praktische Bedeutung eines Ergebnisses an.
Ergänzen p-Werte, um die Relevanz eines Effekts zu bewerten.
Beispiele: Cohen’s d, Korrelationskoeffizient r, R² bei der Regression.
Was sind die Unterschiede zwischen Teststärke und Effektstärke?
Teststärke: Wahrscheinlichkeit, einen existierenden Effekt zu entdecken (abhängig von α, N, ES).
Effektstärke: Größe des tatsächlichen Effekts, unabhängig von der Stichprobengröße.
Was ist eine Fehlerrate 2. Art (β), und warum ist sie relevant?
Definition: Wahrscheinlichkeit, einen existierenden Effekt nicht zu entdecken.
Relevanz: Ein hoher β-Wert (geringe Teststärke) kann wichtige Effekte übersehen und zu falschen Schlussfolgerungen führen.
Wie hängt die Stichprobengröße mit der Teststärke zusammen?
Größere Stichproben reduzieren den Standardfehler und erhöhen die Präzision von Schätzungen.
Dies führt zu einer höheren Wahrscheinlichkeit, signifikante Effekte zu erkennen.
Was sind die typischen Schwellenwerte für die Teststärke in Studien?
Üblicher Standard: 80 % (1-β = 0.8).
Bedeutet, dass ein Effekt mit 80 % Wahrscheinlichkeit erkannt wird, wenn er existiert.
Warum ist eine niedrige Teststärke problematisch in der Forschung?
Erhöht die Wahrscheinlichkeit, wahre Effekte zu übersehen.
Führt zu einer Verzerrung der veröffentlichten Ergebnisse (z. B. Publikationsbias).
Kann falsche Evidenz für die Nullhypothese liefern.
Was ist der Unterschied zwischen einer hohen und niedrigen Effektstärke?
Hohe Effektstärke: Deutlicher Unterschied oder starker Zusammenhang zwischen Variablen.
Niedrige Effektstärke: Schwacher oder subtiler Zusammenhang, oft schwer nachweisbar.
Was ist eine exploratory vs. confirmatory Poweranalyse?
Exploratory: Zur Untersuchung neuer Hypothesen; oft geringere Teststärke akzeptiert.
Confirmatory: Zur Prüfung spezifischer Hypothesen; erfordert hohe Teststärke (mindestens 80 %).
Was ist der Unterschied zwischen Sensitivität und Spezifität in statistischen Tests?
Sensitivität: Fähigkeit, tatsächlich vorhandene Effekte zu erkennen (verwandt mit Teststärke).
Spezifität: Fähigkeit, keine falschen positiven Ergebnisse zu liefern (niedriger α-Fehler).
Was ist ein Signifikanzniveau (α), und wie beeinflusst es die Teststärke?
Definition: Wahrscheinlichkeit, einen α-Fehler (falsches Ablehnen der Nullhypothese) zu begehen.
Einfluss: Ein höheres α (z. B. 0.1 statt 0.05) erhöht die Teststärke, aber auch die Gefahr von Fehlalarmen.
Was sind die Vor- und Nachteile einer hohen Teststärke?
Vorteile:
Reduziert die Wahrscheinlichkeit, Effekte zu übersehen (niedriger β-Fehler).
Erhöht die Zuverlässigkeit von Ergebnissen.
Nachteile:
Erfordert oft größere Stichproben, was kostspielig sein kann.