Forschungstext 3: Inflation von falsch-postiven Befunden in der psychologischen Forschung Flashcards
Wo vom ist der Text?
Ulrich & Erdfelder et. al.
Die Replikationskriese
- Zahlreiche Befunde in der Psychologie und den kognitiven Neurowissenschaften lassen sich nicht replizieren und sind daher vermutlich falsch-positive Ergebnisse (FP) -> dieses Phänomen lässt sich auch in vielen anderen Bereichen, besonders in der Medizin beobachten (ca. 50% der Ergebnisse FPs)
- Die Ursache der Replikationsproblematik scheint fächerübergreifend zu sein und besonders jene Fächer zu betreffen, die bei der Evaluation von Hypothesen in der Regel statistische Inferenzverfahren verwenden
Folgen von FP-Ergebnissen
- problematisch für die Weiterentwicklung des Fachs
2. problematisch für die Reputation innerhalb und außerhalb der Wissenschaft
Arten von Replikation
- direkte Replikation
2 konzeptuelle Replikation
Direkte Replikation: Definition
Ziel ist es, die Studie möglichst genau zu replizieren und die Originalstudie möglichst exakt zu wiederholen -> kommen in der psychologischen Literatur selten vor
Gründe für fehlende Publikation von direkter Replikation
- Die Forschungszeitschriften lehnen diese explizit und offen ab da sie als:
a) Nutzlos: da positive Ergebnisse schon als gesichert angesehen werden
b) Unkreativ
c) Befördern nicht die Reputation von Fachzeitschriften, da diese gerne neue und sensationelle Ergebnisse präsentieren
- > Autoren fordern hier ein Umdenken bei Gutachtern und Herausgebern
Herausforderungen direkter Replikation in der Psychologie
- Der historische und kulturelle Kontext der Originalstudie ist zu beachten -> er kann eine erfolgreiche direkte Replikation erschweren oder sogar unmöglich machen, eine Nichtreplizierbarkeit kann allein auf die Änderung dieser Umstände zurückzuführen sein
Achtung: Kontexte dürfen nicht als Immunisierungsstrategie gegenüber empirischer Kritik missbraucht werden, es müssen zusätzliche Studien belegen, dass der Kontext die Replikation behindert und alternative Replikationsansätze erarbeitet werden, die im gegenwärtigen Kontext adäquater sind
Konzeptuelle Replikation: Definition
es steht nicht die exakte Replikation im Vordergrund, sondern die Generalisierbarkeit eines Effekts, der als theoretisch besonders aufschlussreich gilt oder einen großen praktischen Nutzen hat
Konzeptuelle Replikation: Aussagekraft
eine missglückte konzeptuelle Replikation wird i.d.R. nicht den Glauben an den ursprünglichen Effekt erschüttern sondern lediglich den Eindruck befördern, der ursprünglich berichtete Effekt besitze eben einen eingeschränkten Gültigkeitsbereich
Konzeptuelle Replikation: Wissenschaftlicher Stellenwert
genießen im Gegensatz zu direkten Replikationen einen hohen wissenschaftlichen Stellenwert, aber es herrscht eine Widerstand Null-Effekte zu publizieren –> führt zu einem verzerrtem Bild der Wirklichkeit
Publikationsbias
- Anteil der positiven Befunde an Publikationen in der Psychologie ist extrem hoch (91,5%)
- Der Publikationbias bezieht sich dabei nicht nur auf die Publikation positiver Befunde sondern auch daran, dann z.B.: in der Klinischen Forschung nur 50% der Studien vollständig publiziert werden
Publikationsbias -Gründe für die Verzerrung zugunsten der forschungsleitenden Hypothese(n)
(1) Zunehmender Druck, möglichst viele „publizierbare“ Ergebnisse zu produzieren –> leichter publizieren lassen sie sich, wenn sie durchweg Hypothesenkonform sind
(2) In der Psychologie wieder häufig Hypothesen mit geringem empirischem Gehalt getestet (z.B.: über die Rangordnung von zwei Mittelwerten) –> die Apriori-Wahrscheinlichkeit solcher Hypothesen falsifiziert zu werden ist daher eher gering
Prozentualer Anteil von falsch-positiven Ergebnissen bei signifikanten Ergebnissen
- Oft wird fälschlicher Weisen davon ausgegangen, dass die Wahrscheinlichkeit für FP dem α-Niveau entspricht (also z.b.: 5%)
- um die Rate von FP richtig zu bestimmen muss die Grundquote des wahren Effekts (g) und die Power (statistische Teststärke 1-β) berücksichtigt werden
Prozentualer Anteil von richtig-positiven Ergebnissen bei signifikanten Ergebnissen - Rechnung
N = Anzahl der durchgeführten Studien (im Beispiel 1000)
g = Basisrate (in Beispiel: 10%)
α = Signifikanzniveau (Im Beispiel: 5%)
Power (1-β) = Teststärke (im Beispiel: 35%)
- Wahrscheinlichkeit von FP:
P(FP) = (N-g) * α = (1000 – 100) * 0.05 = 45
–> Wenn man bei dieser Basisrate und dem α 1000 Studien durchführt kann man mit 45 falsch-positiven Ergebnissen rechnen - Wahrscheinlichkeit von TP:
P(TP)= (g_N ) * (1- β)=100*0.35=35
–> Wenn man bei dieser Basisrate und Power 1000 Studien durchführt kann man mit 35 richtig-positiven Ergebnissen rechnen - 35 + 45 = 80 von 1000 Studien würden statistisch signifikant
Positiv predictive value (PPV): Formel
Der Prozentualen Anteil von richtig-positiven Ergebnissen
PPV= ((1- β)*g) / ((1-β) * g + α * (1-g) )
Haupteinflüsse auf PPV
(1) Aplha: Der Anteil richtig-positiver Ergebnisse steigt an, wenn ein kleines Signifikanzniveau verwendet wird. Selbst bei verhältnismäßig kleiner Teststärke können in diesen Fällen FP deutlich reduziert werden
(2) Power: PPV wächst mit der Teststärke, dieser Einfluss wird wiederum von Signifikanzniveau moduliert. Wird ein kleines Signifikanzniveau verwendet hängt der PPV kaum von der Teststärke ab
(3) Basisrate: Der relative Anteil von TP nimmt mit der Basisrate zu: Wiederum ist der Einfluss der Basisrate auf PPV jedoch gering, wenn der statistische Test mit einem kleinen Signifikanzniveau durchgeführt wird
Reziproke Beziehung von Alpha und Beta & ihre Wichtigkeit im Kontext von Grundlagen- oder angewandert Forschung
(1) Die α – und β-Fehlerwahrscheinlichkeiten haben eine wechselseitige Beziehung: verringert man α, um die Anzahl der falsch-positiven Entscheidungen zu minimieren, so nimmt die Power ab und der β-Fehler (FN) nimmt zu
(2) Welche Fehlerwahrscheinlichkeit wichtiger ist hängt von der Fragestellung ab:
a) Grundlagenforschung: Es scheint es für die Theoriebildung schwerwiegender zu sein, wenn man einen Fehler 1. Art macht (FP), also etwas behauptet oder erklärt, was es in Wirklichkeit gar nicht gibt.
b) angewandten Forschung: scheint ein Fehler 2. Art (FN) relevanter zu sein, also wenn man einen wahren Effekt übersieht
- Tradeoff-Funktion: die Kosten und Nutzen beider Fehler sollten also in einer Tradeoff-Funktion je nach dem ausgewählt werden
–> Wichtig ist, dass sich diese Überlegungen auf Zufallsexperimente beziehen, bei denen VORHER genau festgelegt wurde, welche AV gemessen wurde und wie groß die Stichprobe sein sollte