9 Statistisches Testen & Konfidenzintervalle Flashcards
inhaltliche (3+,3-) und statistische (3 + Bsp) Hypothesen
inhaltliche Hypothesen:
1. einfach formulieren
2. solten statistisch einfach testbar sein
3. Vorhersagen sollten leicht als falsch erweisbar sein (“severe testing”)
”-“ Kausalsprache ohne entsprechendes Design/Modell
“-“ zusammengesetzte Hypothese (2 in 1)
“-“ Signifikanzwort falsch benutzt, überprüft Hypothese nur
statistische Hypothesen:
1.inhaltlich aussagekräftig
2. severe test-able
3. wenn korrekt, sollen sie Wissensstand stark voranbringen
Bsp. kappa Diagnoseübereinstimmung von 2 Ratern: Mindestmaß nennen statt “größer als 0” -> trivial
Unterschieds- und Zusammenhangshypothese (3)
- Unterschiedshypothese postuliert Unterschied zwischen 2 binären Gruppen (X) in Y
- Unterschied bedeutet gleichzeitig Zusammenhang zwischen X & Y
-> alle Unterschiedshypothesen sind auch Zusammenhangshypothesen
statistische Tests (4)
- versuchen Aussage statistisch abzusichern
- gibt es Evidenz, dass Alternativhypothese H1 korrekt ist?
- falls nicht: keine Evidenz für H1, & dass Nullhypothese H0 verletzt ist
!!! H0 ist dann nicht(!) richtig, denn: absence of evidence is not evidence of absence
Was ist der p-Wert? (4)
- p = P(T >= | t | H0)
- Wahrscheinlichkeit unter H0, dass T mindestens so großen Wert wie beobachtetes t annimmt
- p < vorgegebenes alpha -> H0 ablehnen
- p >= vorgegebenes alpha -> H0 beibehalten “keine Evidenz, dass H0 verletzt wurde”
falsche p-Wert Interpretation (4)
- 1 - p =/ Wahrscheinlichkeit, dass H1 gegeben die Daten zutrifft
- p =/ Wahrscheinlichkeit für H0
- 1 - p =/ Maß für Replizierbarkeit
- p sollte nicht kategorisiert werden, 0.05 willkürlich
Praxis verschiedener p-Werte (2)
- irreführend
- keine theoretische Grundlage
besserer Umgang mit p-Werten (3)
- nicht als Erkenntnis- (Unterschied wirklich da), sondern als Entscheidungsregel auffassen: Auffälligkeit untersuchen
- kleines p ist oft Hinweis, dass was anderes als H0 in statistischem Modell nicht zutrifft, z.B Normalverteilung, unterschiedliche Varianz, unabhängige Beobachtungen
- Skalierungsansatz: p transformieren zu b-value (-log2(p)), Bits of Information, Bsp: p = 0.05 entspricht 4 Bits (4x Münzwurf Zahl), p = 0.001 entspricht 10x
häufige Fehlinterpretation von statistischen Tests (3)
- kleine Stichprobe, p >= 0.05 -> Behauptung H0, aber nur großer Mittelwertsunterschied führt zu H1
- große Stichprobe, p < 0.05 -> Behauptung H1, aber bereits kleiner Unterschied führt zu H0 Ablehnung
- Grundproblem: Ergebnisse werden auf binäre Entscheidung reduziert (Dichotomia)
Ausweg 1: Konfidenzintervall (2+4)
- festlegen, was man statistisch schätzen will: z.B. Mittelwertsdifferenz MD= Y1 - Y0
- Konfidenzintervall berechnen zum Konfidenzniveau 1 - alpha (z.B. 0.95) falls Normalverteilung, gleiche SD von Y
- Interpretation:
1. KI enthält Mittelwertsunterschied mit 95% Sicherheit
2. Werte im KI mit 95% Sicherheit mit Daten im Einklang
3. KI besser reproduzierbar als p-Werte
4. wenn KI zum Niveau 1 - alpha Nullwert (meist 0, aber bei OR 1) enthält, H0 beibehalten bei 2-seitigem Test
Ausweg 2: Bayesianische Statistik
:)
Multiples Testen (Ziel, Problem, Lösung, 2x ABER, 3 Alternativen)
- Ziel: allgemeine Aussage über mehrere Dinge absichern & globale Nullhypothese mit 2+ Einzeltests untersuchen, Bsp. k Angststörungen sagen inzidente Depr. vorher
- Problem: jedes Mal mit alpha testen -> k x alpha, daher Ablehnwahrscheinlichkeit > alpha -> alpha-Inflation
- Lösung: Bonferroni-Korrektur: bei jedem Einzeltest Testniveau alpha/k verwenden, sodass gesamtes alpha nicht größer als intendiert
- ABER
1. wenn Einzelergebnisse stark korrelieren -> Test ist sehr konservativ und lehnt zu spät ab
2. kann globale Hypothese in globalem Test und mit exaktem alpha testen, z.B. Regression mit Wald-Test - Alternativen
1. Bonferroni-Holm-Korrektur
2. false positive rate / false discovery rate (z.B. bei fMRI)
3. Datenreduktion bei hochdimensionalem Y
Globale Hypothese überhaupt sinnvoll? (3)
- wenn Einzeltests spezifische Hypothese repräsentieren, Bsp. einzelne Angststörungen und inzidente Depr.
- falls Antwort für unterschiedliche Störungen unterschiedlich ausfällt -> differentiell handeln
- zusammengesetzte Hypothesen oft nicht sinnvoll - Ausnahme Genom
Conclusion zum multiplem Testproblem (3)
- abhängig davon, welche Aussagen/Ergebnisinterpretation statistisch abgesichert werden soll - vor Analyse festlegen!
- spezifische Hypothesen oft aussagekräftiger und relevanter für die Praxis
- bei globalen Schlussfolgerungen alpha-Inflation beachten