Forschungstext 3: Inflation von falsch-postiven Befunden in der psychologischen Forschung Flashcards
Wo vom ist der Text?
Ulrich & Erdfelder et. al.
Die Replikationskriese
- Zahlreiche Befunde in der Psychologie und den kognitiven Neurowissenschaften lassen sich nicht replizieren und sind daher vermutlich falsch-positive Ergebnisse (FP) -> dieses Phänomen lässt sich auch in vielen anderen Bereichen, besonders in der Medizin beobachten (ca. 50% der Ergebnisse FPs)
- Die Ursache der Replikationsproblematik scheint fächerübergreifend zu sein und besonders jene Fächer zu betreffen, die bei der Evaluation von Hypothesen in der Regel statistische Inferenzverfahren verwenden
Folgen von FP-Ergebnissen
- problematisch für die Weiterentwicklung des Fachs
2. problematisch für die Reputation innerhalb und außerhalb der Wissenschaft
Arten von Replikation
- direkte Replikation
2 konzeptuelle Replikation
Direkte Replikation: Definition
Ziel ist es, die Studie möglichst genau zu replizieren und die Originalstudie möglichst exakt zu wiederholen -> kommen in der psychologischen Literatur selten vor
Gründe für fehlende Publikation von direkter Replikation
- Die Forschungszeitschriften lehnen diese explizit und offen ab da sie als:
a) Nutzlos: da positive Ergebnisse schon als gesichert angesehen werden
b) Unkreativ
c) Befördern nicht die Reputation von Fachzeitschriften, da diese gerne neue und sensationelle Ergebnisse präsentieren
- > Autoren fordern hier ein Umdenken bei Gutachtern und Herausgebern
Herausforderungen direkter Replikation in der Psychologie
- Der historische und kulturelle Kontext der Originalstudie ist zu beachten -> er kann eine erfolgreiche direkte Replikation erschweren oder sogar unmöglich machen, eine Nichtreplizierbarkeit kann allein auf die Änderung dieser Umstände zurückzuführen sein
Achtung: Kontexte dürfen nicht als Immunisierungsstrategie gegenüber empirischer Kritik missbraucht werden, es müssen zusätzliche Studien belegen, dass der Kontext die Replikation behindert und alternative Replikationsansätze erarbeitet werden, die im gegenwärtigen Kontext adäquater sind
Konzeptuelle Replikation: Definition
es steht nicht die exakte Replikation im Vordergrund, sondern die Generalisierbarkeit eines Effekts, der als theoretisch besonders aufschlussreich gilt oder einen großen praktischen Nutzen hat
Konzeptuelle Replikation: Aussagekraft
eine missglückte konzeptuelle Replikation wird i.d.R. nicht den Glauben an den ursprünglichen Effekt erschüttern sondern lediglich den Eindruck befördern, der ursprünglich berichtete Effekt besitze eben einen eingeschränkten Gültigkeitsbereich
Konzeptuelle Replikation: Wissenschaftlicher Stellenwert
genießen im Gegensatz zu direkten Replikationen einen hohen wissenschaftlichen Stellenwert, aber es herrscht eine Widerstand Null-Effekte zu publizieren –> führt zu einem verzerrtem Bild der Wirklichkeit
Publikationsbias
- Anteil der positiven Befunde an Publikationen in der Psychologie ist extrem hoch (91,5%)
- Der Publikationbias bezieht sich dabei nicht nur auf die Publikation positiver Befunde sondern auch daran, dann z.B.: in der Klinischen Forschung nur 50% der Studien vollständig publiziert werden
Publikationsbias -Gründe für die Verzerrung zugunsten der forschungsleitenden Hypothese(n)
(1) Zunehmender Druck, möglichst viele „publizierbare“ Ergebnisse zu produzieren –> leichter publizieren lassen sie sich, wenn sie durchweg Hypothesenkonform sind
(2) In der Psychologie wieder häufig Hypothesen mit geringem empirischem Gehalt getestet (z.B.: über die Rangordnung von zwei Mittelwerten) –> die Apriori-Wahrscheinlichkeit solcher Hypothesen falsifiziert zu werden ist daher eher gering
Prozentualer Anteil von falsch-positiven Ergebnissen bei signifikanten Ergebnissen
- Oft wird fälschlicher Weisen davon ausgegangen, dass die Wahrscheinlichkeit für FP dem α-Niveau entspricht (also z.b.: 5%)
- um die Rate von FP richtig zu bestimmen muss die Grundquote des wahren Effekts (g) und die Power (statistische Teststärke 1-β) berücksichtigt werden
Prozentualer Anteil von richtig-positiven Ergebnissen bei signifikanten Ergebnissen - Rechnung
N = Anzahl der durchgeführten Studien (im Beispiel 1000)
g = Basisrate (in Beispiel: 10%)
α = Signifikanzniveau (Im Beispiel: 5%)
Power (1-β) = Teststärke (im Beispiel: 35%)
- Wahrscheinlichkeit von FP:
P(FP) = (N-g) * α = (1000 – 100) * 0.05 = 45
–> Wenn man bei dieser Basisrate und dem α 1000 Studien durchführt kann man mit 45 falsch-positiven Ergebnissen rechnen - Wahrscheinlichkeit von TP:
P(TP)= (g_N ) * (1- β)=100*0.35=35
–> Wenn man bei dieser Basisrate und Power 1000 Studien durchführt kann man mit 35 richtig-positiven Ergebnissen rechnen - 35 + 45 = 80 von 1000 Studien würden statistisch signifikant
Positiv predictive value (PPV): Formel
Der Prozentualen Anteil von richtig-positiven Ergebnissen
PPV= ((1- β)*g) / ((1-β) * g + α * (1-g) )
Haupteinflüsse auf PPV
(1) Aplha: Der Anteil richtig-positiver Ergebnisse steigt an, wenn ein kleines Signifikanzniveau verwendet wird. Selbst bei verhältnismäßig kleiner Teststärke können in diesen Fällen FP deutlich reduziert werden
(2) Power: PPV wächst mit der Teststärke, dieser Einfluss wird wiederum von Signifikanzniveau moduliert. Wird ein kleines Signifikanzniveau verwendet hängt der PPV kaum von der Teststärke ab
(3) Basisrate: Der relative Anteil von TP nimmt mit der Basisrate zu: Wiederum ist der Einfluss der Basisrate auf PPV jedoch gering, wenn der statistische Test mit einem kleinen Signifikanzniveau durchgeführt wird
Reziproke Beziehung von Alpha und Beta & ihre Wichtigkeit im Kontext von Grundlagen- oder angewandert Forschung
(1) Die α – und β-Fehlerwahrscheinlichkeiten haben eine wechselseitige Beziehung: verringert man α, um die Anzahl der falsch-positiven Entscheidungen zu minimieren, so nimmt die Power ab und der β-Fehler (FN) nimmt zu
(2) Welche Fehlerwahrscheinlichkeit wichtiger ist hängt von der Fragestellung ab:
a) Grundlagenforschung: Es scheint es für die Theoriebildung schwerwiegender zu sein, wenn man einen Fehler 1. Art macht (FP), also etwas behauptet oder erklärt, was es in Wirklichkeit gar nicht gibt.
b) angewandten Forschung: scheint ein Fehler 2. Art (FN) relevanter zu sein, also wenn man einen wahren Effekt übersieht
- Tradeoff-Funktion: die Kosten und Nutzen beider Fehler sollten also in einer Tradeoff-Funktion je nach dem ausgewählt werden
–> Wichtig ist, dass sich diese Überlegungen auf Zufallsexperimente beziehen, bei denen VORHER genau festgelegt wurde, welche AV gemessen wurde und wie groß die Stichprobe sein sollte
Bayesianische Verfahren als Alternative? Warum wird sie vorgeschlagen?
Selbst wenn man die oben genannten Regeln bei der Wahl des α beachtet, führt selbst ein geringes α durch das häufig sehr schwache Signal-Rausch-Verhältnis von Daten in den Verhaltens- und Neurowissenschaften und die damit verbundenen geringen Effektstärken doch zu einem relativ hohen Anteil von FP –> daher wird die bayesianische Statistik vorgeschlagen
Bayesianische Verfahren als Alternativ? Grobes Vorgehen
Bei Bayesianischen Verfahren wird die H0 verworfen, wenn der sog. Bayes-Faktor des Nullhypothesenmodells relativ zum Alternativhypothesenmodell einen bestimmten kritischen Wert unterschreitet
Bayesianische Verfahren als Alternativ? Argumente dagegegen
- Erhöhung von FN: Der Bayes-Faktor würde zwar den Anteil an falsch-positiven Befunden senken, jedoch eben auch die statistische teststärke erheblich verringern und so den Fehler 2. Art deutlich erhöhen (FN)
- PPV schwerer einschätzbar: Erschwerend kommt hinzu, dass Bayessche Interferenz Verteilungsannahmen über die Parameter erfordert, wie z.B.: Populationsmittelwerte –> Lassen sich oft nur über Zusatzannahmen bestimmen, was die Einflussfaktoren auf den PPV zusätzlich flexibilisiert und damit schwerer einschätzbar machen
- Inferenzstatistik notwendig: Der vollständige Verzicht auf Inferenzstatistik ist fatal, da es letztlich der Verzicht auf fundierte, a priori definierte Entscheidungskriterien der Ergebnisbewertung bedeutet und eine notwendige, wenn auch nicht hinreichende Voraussetzung für die Lösung der Replizierbarkeitskrise darstellt
Wie lässt sich das Ausmaß mit dem eine Nullhypothese fälschlicher Weise verworfen wird festlegen?
- FP entstehen zwangsläufig beim Hypothesentesten.
- Wird ein Signifikanzniveau von 5% verwendet, so wird die Nullhypothese fälschlicherweise in 5% aller Fälle verworfen, wenn lediglich Null-Effekte untersucht werden
- Durch das Signifikanzniveau lässt sich als das Ausmaß mit dem eine Nullhypothese fälschlicher Weise verworfen wird durch die Höhe von α festlegen
Welchen fragwürdigen wissenschaftlichen Praktiken gibt es?
- P-hacking
a) data peeking
b) multiples Testen
c) data trimming
d) Vibration of effects - HARKing
- Das Schubladenproblem
p-hacking: Data peeking - Definition, Konsequenz und richtiges Vorgehen
- Definition: Während der Datenerhebung werden die Daten mehr oder weniger häufig ausgewertet und die Erhebung abgebrochen, nachdem ein gewünschter signifikanter Effekt erzieht wurde
- Konsequenz: die Anzahl von FP wird von den nominelle 5% auf bis zu 20% erhöht
- Richtiges Vorgehen: Vor der Datenerhebung mittels einer Poweranalyse die notwendige Stichprobe abzuschätzen und die Daten erst dann auswerten, nachdem die gesamten Ergebnisse erhoben sind
p-hacking: multiples Testen - Definition, Konsequenz und richtiges Vorgehen
- Definition: Das Erheben mehrere abhängiger Variablen und nur die berichten, die signifikant wurden -> besonders verbreitet
- Konsequenz: führt zu einer α-Fehler-Inflation und erhöht so die Zahl der FP deutlich
- Richtiges Vorgehen: Immer alle erfassten abhängigen Variablen berichten und erklären, was sie unternommen haben, um einer α-Fehler-Inflation entgegen zu wirken -> sollte breits bei Forschungsantrag geklärt und beschreiben werden