Signifikanztests Flashcards
1
Q
Logik des Signifikanztests
A
- Erster Schritt: Annahme eines Populationskennwertes
- Nullhypothese H0: nimmt an, dass kein Unterschied besteht (bzw nimmt das bereits etablierte Wissen an
- Alternativhypothese: nimmt an, dass es irgendeinen Unterschied gibt (ungerichtet) oder dass es einen Unterschied in eine bestimmte Richtung gibt (gerichtet)
- Konstruktion der Stichprobenverteilung um den Populationskennwert der H0
- Überprüfen, ob der gefundene Stichprobenwert bei gegebener Annahme der Nullhypothese plausibel ist
- Plausibel = Kann das noch Zufall sein? Ist die Abweichung des gefundenen Stichprobenkennwertes von dem angenommenen Populationskennwert durch den Stichprobenfehler erklärbar?
- Die Plausibilität wird über die bedingte Wahrscheinlichkeit des Stichprobenergebnisses gegeben die Nullhypothese bestimmt –> wie wahrscheinlich ist es, angenommen die H0 stimmt, eine solche oder noch extremere Stichprobe aus dem theoretischen unendlich großen Pool aller Stichproben zu ziehen?
2
Q
Parameter des Signifikanztests
A
-
p-Wert: Die bedingte Wahrscheinlichkeit dafür, mein Stichprobenergebnis oder ein noch extremeres zu erhalten, angenommen die Nullhypothese stimmt –> sagt absolut nichts über die Wahrscheinlichkeit einer Hypothese aus
- Mittels Tabelle lässt sich die Prüfgröße ermitteln, also der standardisierte Stichprobenkennwert, der dieser Wahrscheinlichkeit entspricht. Also eigentlich ermittle ich zuerst die Prüfgröße und lese dann in der Verteilung ab, welcher der zugehörige p-Wert ist.
-
alpha: Der alpha-Fehler / das “Kriterium” / die Irrtumswahrscheinlichkeit: Beliebig bestimmter threshold, meist 5%. Falls p < alpha , dann ist der Test “signifikant” und ich verwerfe ich die Nullhypothese.
- Mittels Tabelle lässt sich der kritische Wert ermitteln, also der z-Wert, der der Irrtumswahrscheinlichkeit entspricht
- Fehler 1. Art: Ich verwerfe fälschlicherweise die Nullhypothese, obwohl sie eigentlich stimmt. Passiert mit Wahrscheinlichkeit alpha.
- Fehler 2. Art: Ich verwerfe fälschlicherweise die Alternativhypothese, obwohl sie eigentlich stimmt. Passiert mit Wahrscheinlichkeit beta.
- Power / Teststärke: Die Wahrscheinlichkeit, dass ich, angenommen die Nullhypothese ist falsch, diese auch tatsächlich verwerfe. Anders gesagt: die Wahrscheinlichkeit, keinen Fehler 2. Art zu machen ( = 1 - beta). Anders gesagt: Die Wahrscheinlichkeit dafür, angenommen die Alternativhypothese stimmt und ein Effekt existiert, diesen auch aufzudecken.
3
Q
Wie kann ich die Power erhöhen?
A
Die Teststärke nimmt zu mit…
- größerem α. Problem: wenn ich α höher ansetzte, erhöht sich auch die Wahrscheinlichkeit einen Fehler 1. Art zu machen. Also die Wahrscheinlichkeit, eine eigentlich richtige Nullhypothese fälschlicherweise zu verwerfen
- größerem Populationseffekt =
- größerer Differenz zwischen den Populationsmittelwerten.
- kleinerer Standardabweichung (Varianz) in der Population.
- zunehmender Stichprobengröße n. Denn dadurch werden die Stichprobenverteilungen der Nullhypothese und der Alternativhypothese beide schmaler. Ergo gibt es weniger Overlap.
4
Q
Power Analyse
A
Eine Poweranalyse oder Teststärkeanalyse wird durchgeführt, um Aussagen darüber zu machen, wie hoch die Wahrscheinlichkeit ist (oder war), einen vermuteten Effekt in der Population mit Hilfe des Signifikanztests aufzudecken (ein signifikantes Testergebnis zu erhalten). Es gibt folgende Arten von Poweranalysen:
- A priori-Analyse: dient dazu, vor der Durchführung der Studie die Stichprobengröße n zu bestimmen, die mindestens nötig ist um einen vermuteten Effekt in der Population mit einer vorgegebenen Wahrscheinlichkeit (der Power) bei vorgegebenen Fehlern der ersten und zweiten Art aufzudecken. Sollte vor jeder Untersuchung durchgeführt werden.
- Kompromiss-Analyse: dient dazu, vor der Durchführung einer Studie für einen bestimmten angenommenen Populationseffekt und eine vorgegebene Stichprobengröße das Verhältnis der Fehler der ersten und zweiten Art so zu bestimmen, dass sie dem Ergebnis der Kosten-Nutzen Analyse (wie schwerwiegend sind die Fehler der ersten und zweiten Art im Vergleich) entsprechen. Eine solche Analyse sollte vor allem dann durchgeführt werden, wenn man nur kleinere Stichproben zur Verfügung hat und diese auch nicht vergrößern kann.
- Post hoc Analyse: dient dazu, nach der Durchführung einer Studie herauszufinden, wie groß denn die Wahrscheinlichkeit (Power) war, den Effekt den man in der Stichprobe gefunden hat (oder einen anderen kleinen Effekt) mit Hilfe des Signifikanztests in der gegenwärtigen Spezifikation aufzudecken. Wird vor allem bei nichtsignifikanten Ergebnissen, die inhaltlich als „kein Effekt“ interpretiert werden sollen empfohlen. Wenn in so einem Fall die Power klein war, kann das nichtsignifkante Ergebnis natürlich nicht als „kein Effekt“ interpretiert werden.
5
Q
Fisher, Neyman+Pearson und Hybrid
A
Fisher:
- nur Nullhypothese
- Wenn p-Wert ≤ α, dann ist das Ergebnis signifikant –> Ablehnung der Nullhypothese. Aber es gibt keine Alternativhypothese, die man nun stattdessen annehmen könnte
- Wenn Ergebnis nicht signifikant, auch keinerlei Aussage möglich. Man kann die H0 also nicht “bestätigen”, sondern nur potenziell ablehnen.
Neyman und Pearson:
- Formuliere eine Nullhypothese
- Formuliere eine Alternativhypothese (welchen Effekt erwarte ich bzw welcher Mindesteffekt ist von Interesse?)
- Entscheide dich für die Größe von α und β, wäge die relative Wichtigkeit von αund β ab und konstruiere aufgrund der daraus ermittelten Stichprobengröße n die entsprechenden Stichprobenverteilungen
- Prüfe, ob der p-Wert, also die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner/gleich α ist
- Wenn p-Wert ≤ α, dann ist das Ergebnis des Tests signifikant, ansonsten ist es nicht signifikant
- Wenn das Ergebnis signifikant ist, verhalte dich so, als ob die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so, als wenn die Nullhypothese zuträfe
- Vorteile:
- man kann nicht-signifikante Ergebnisse interpretieren, denn man nimmt dann an, dass die H0 stimmt
- man kann mittels Poweranalyse berechnen, wie wahrscheinlich das Ergebnis signifikant wird, angenommen es gibt einen Effekt
Hybrid:
- Keine Verhaltensinterpretation von α und β; α ist meist auf 5% oder 1% festgelegt (Fisher)
- Alternativhypothesen werden aber meist beschrieben (Neyman-Pearson)
- Bei nicht-signifikanten Ergebnissen können keine Aussagen getroffen werden (Fisher)
- Teststärkenberechnung aber meist Thema (Neyman-Pearson)
- Sternchenstrategie: * p < .05 signifikant; ** p < .01 sehr signifikant; *** p < .001 hochsignifikant