Forschungstext 3: Inflation von falsch-postiven Befunden in der psychologischen Forschung Flashcards

1
Q

Wo vom ist der Text?

A

Ulrich & Erdfelder et. al.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Die Replikationskriese

A
  1. Zahlreiche Befunde in der Psychologie und den kognitiven Neurowissenschaften lassen sich nicht replizieren und sind daher vermutlich falsch-positive Ergebnisse (FP) -> dieses Phänomen lässt sich auch in vielen anderen Bereichen, besonders in der Medizin beobachten (ca. 50% der Ergebnisse FPs)
  2. Die Ursache der Replikationsproblematik scheint fächerübergreifend zu sein und besonders jene Fächer zu betreffen, die bei der Evaluation von Hypothesen in der Regel statistische Inferenzverfahren verwenden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Folgen von FP-Ergebnissen

A
  1. problematisch für die Weiterentwicklung des Fachs

2. problematisch für die Reputation innerhalb und außerhalb der Wissenschaft

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Arten von Replikation

A
  1. direkte Replikation

2 konzeptuelle Replikation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Direkte Replikation: Definition

A

Ziel ist es, die Studie möglichst genau zu replizieren und die Originalstudie möglichst exakt zu wiederholen -> kommen in der psychologischen Literatur selten vor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Gründe für fehlende Publikation von direkter Replikation

A
  1. Die Forschungszeitschriften lehnen diese explizit und offen ab da sie als:
    a) Nutzlos: da positive Ergebnisse schon als gesichert angesehen werden
    b) Unkreativ
    c) Befördern nicht die Reputation von Fachzeitschriften, da diese gerne neue und sensationelle Ergebnisse präsentieren
    - > Autoren fordern hier ein Umdenken bei Gutachtern und Herausgebern
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Herausforderungen direkter Replikation in der Psychologie

A
  1. Der historische und kulturelle Kontext der Originalstudie ist zu beachten -> er kann eine erfolgreiche direkte Replikation erschweren oder sogar unmöglich machen, eine Nichtreplizierbarkeit kann allein auf die Änderung dieser Umstände zurückzuführen sein

Achtung: Kontexte dürfen nicht als Immunisierungsstrategie gegenüber empirischer Kritik missbraucht werden, es müssen zusätzliche Studien belegen, dass der Kontext die Replikation behindert und alternative Replikationsansätze erarbeitet werden, die im gegenwärtigen Kontext adäquater sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Konzeptuelle Replikation: Definition

A

es steht nicht die exakte Replikation im Vordergrund, sondern die Generalisierbarkeit eines Effekts, der als theoretisch besonders aufschlussreich gilt oder einen großen praktischen Nutzen hat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Konzeptuelle Replikation: Aussagekraft

A

eine missglückte konzeptuelle Replikation wird i.d.R. nicht den Glauben an den ursprünglichen Effekt erschüttern sondern lediglich den Eindruck befördern, der ursprünglich berichtete Effekt besitze eben einen eingeschränkten Gültigkeitsbereich

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Konzeptuelle Replikation: Wissenschaftlicher Stellenwert

A

genießen im Gegensatz zu direkten Replikationen einen hohen wissenschaftlichen Stellenwert, aber es herrscht eine Widerstand Null-Effekte zu publizieren –> führt zu einem verzerrtem Bild der Wirklichkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Publikationsbias

A
  1. Anteil der positiven Befunde an Publikationen in der Psychologie ist extrem hoch (91,5%)
  2. Der Publikationbias bezieht sich dabei nicht nur auf die Publikation positiver Befunde sondern auch daran, dann z.B.: in der Klinischen Forschung nur 50% der Studien vollständig publiziert werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Publikationsbias -Gründe für die Verzerrung zugunsten der forschungsleitenden Hypothese(n)

A

(1) Zunehmender Druck, möglichst viele „publizierbare“ Ergebnisse zu produzieren –> leichter publizieren lassen sie sich, wenn sie durchweg Hypothesenkonform sind
(2) In der Psychologie wieder häufig Hypothesen mit geringem empirischem Gehalt getestet (z.B.: über die Rangordnung von zwei Mittelwerten) –> die Apriori-Wahrscheinlichkeit solcher Hypothesen falsifiziert zu werden ist daher eher gering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Prozentualer Anteil von falsch-positiven Ergebnissen bei signifikanten Ergebnissen

A
  1. Oft wird fälschlicher Weisen davon ausgegangen, dass die Wahrscheinlichkeit für FP dem α-Niveau entspricht (also z.b.: 5%)
  2. um die Rate von FP richtig zu bestimmen muss die Grundquote des wahren Effekts (g) und die Power (statistische Teststärke 1-β) berücksichtigt werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Prozentualer Anteil von richtig-positiven Ergebnissen bei signifikanten Ergebnissen - Rechnung

A

N = Anzahl der durchgeführten Studien (im Beispiel 1000)
g = Basisrate (in Beispiel: 10%)
α = Signifikanzniveau (Im Beispiel: 5%)
Power (1-β) = Teststärke (im Beispiel: 35%)

  1. Wahrscheinlichkeit von FP:
    P(FP) = (N-g) * α = (1000 – 100) * 0.05 = 45
    –> Wenn man bei dieser Basisrate und dem α 1000 Studien durchführt kann man mit 45 falsch-positiven Ergebnissen rechnen
  2. Wahrscheinlichkeit von TP:
    P(TP)= (g_N ) * (1- β)=100*0.35=35
    –> Wenn man bei dieser Basisrate und Power 1000 Studien durchführt kann man mit 35 richtig-positiven Ergebnissen rechnen
  3. 35 + 45 = 80 von 1000 Studien würden statistisch signifikant
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Positiv predictive value (PPV): Formel

A

Der Prozentualen Anteil von richtig-positiven Ergebnissen

PPV= ((1- β)*g) / ((1-β) * g + α * (1-g) )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Haupteinflüsse auf PPV

A

(1) Aplha: Der Anteil richtig-positiver Ergebnisse steigt an, wenn ein kleines Signifikanzniveau verwendet wird. Selbst bei verhältnismäßig kleiner Teststärke können in diesen Fällen FP deutlich reduziert werden
(2) Power: PPV wächst mit der Teststärke, dieser Einfluss wird wiederum von Signifikanzniveau moduliert. Wird ein kleines Signifikanzniveau verwendet hängt der PPV kaum von der Teststärke ab
(3) Basisrate: Der relative Anteil von TP nimmt mit der Basisrate zu: Wiederum ist der Einfluss der Basisrate auf PPV jedoch gering, wenn der statistische Test mit einem kleinen Signifikanzniveau durchgeführt wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Reziproke Beziehung von Alpha und Beta & ihre Wichtigkeit im Kontext von Grundlagen- oder angewandert Forschung

A

(1) Die α – und β-Fehlerwahrscheinlichkeiten haben eine wechselseitige Beziehung: verringert man α, um die Anzahl der falsch-positiven Entscheidungen zu minimieren, so nimmt die Power ab und der β-Fehler (FN) nimmt zu

(2) Welche Fehlerwahrscheinlichkeit wichtiger ist hängt von der Fragestellung ab:
a) Grundlagenforschung: Es scheint es für die Theoriebildung schwerwiegender zu sein, wenn man einen Fehler 1. Art macht (FP), also etwas behauptet oder erklärt, was es in Wirklichkeit gar nicht gibt.
b) angewandten Forschung: scheint ein Fehler 2. Art (FN) relevanter zu sein, also wenn man einen wahren Effekt übersieht

  1. Tradeoff-Funktion: die Kosten und Nutzen beider Fehler sollten also in einer Tradeoff-Funktion je nach dem ausgewählt werden

–> Wichtig ist, dass sich diese Überlegungen auf Zufallsexperimente beziehen, bei denen VORHER genau festgelegt wurde, welche AV gemessen wurde und wie groß die Stichprobe sein sollte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Bayesianische Verfahren als Alternative? Warum wird sie vorgeschlagen?

A

Selbst wenn man die oben genannten Regeln bei der Wahl des α beachtet, führt selbst ein geringes α durch das häufig sehr schwache Signal-Rausch-Verhältnis von Daten in den Verhaltens- und Neurowissenschaften und die damit verbundenen geringen Effektstärken doch zu einem relativ hohen Anteil von FP –> daher wird die bayesianische Statistik vorgeschlagen

19
Q

Bayesianische Verfahren als Alternativ? Grobes Vorgehen

A

Bei Bayesianischen Verfahren wird die H0 verworfen, wenn der sog. Bayes-Faktor des Nullhypothesenmodells relativ zum Alternativhypothesenmodell einen bestimmten kritischen Wert unterschreitet

20
Q

Bayesianische Verfahren als Alternativ? Argumente dagegegen

A
  1. Erhöhung von FN: Der Bayes-Faktor würde zwar den Anteil an falsch-positiven Befunden senken, jedoch eben auch die statistische teststärke erheblich verringern und so den Fehler 2. Art deutlich erhöhen (FN)
  2. PPV schwerer einschätzbar: Erschwerend kommt hinzu, dass Bayessche Interferenz Verteilungsannahmen über die Parameter erfordert, wie z.B.: Populationsmittelwerte –> Lassen sich oft nur über Zusatzannahmen bestimmen, was die Einflussfaktoren auf den PPV zusätzlich flexibilisiert und damit schwerer einschätzbar machen
  3. Inferenzstatistik notwendig: Der vollständige Verzicht auf Inferenzstatistik ist fatal, da es letztlich der Verzicht auf fundierte, a priori definierte Entscheidungskriterien der Ergebnisbewertung bedeutet und eine notwendige, wenn auch nicht hinreichende Voraussetzung für die Lösung der Replizierbarkeitskrise darstellt
21
Q

Wie lässt sich das Ausmaß mit dem eine Nullhypothese fälschlicher Weise verworfen wird festlegen?

A
  1. FP entstehen zwangsläufig beim Hypothesentesten.
  2. Wird ein Signifikanzniveau von 5% verwendet, so wird die Nullhypothese fälschlicherweise in 5% aller Fälle verworfen, wenn lediglich Null-Effekte untersucht werden
  3. Durch das Signifikanzniveau lässt sich als das Ausmaß mit dem eine Nullhypothese fälschlicher Weise verworfen wird durch die Höhe von α festlegen
22
Q

Welchen fragwürdigen wissenschaftlichen Praktiken gibt es?

A
  1. P-hacking
    a) data peeking
    b) multiples Testen
    c) data trimming
    d) Vibration of effects
  2. HARKing
  3. Das Schubladenproblem
23
Q

p-hacking: Data peeking - Definition, Konsequenz und richtiges Vorgehen

A
  1. Definition: Während der Datenerhebung werden die Daten mehr oder weniger häufig ausgewertet und die Erhebung abgebrochen, nachdem ein gewünschter signifikanter Effekt erzieht wurde
  2. Konsequenz: die Anzahl von FP wird von den nominelle 5% auf bis zu 20% erhöht
  3. Richtiges Vorgehen: Vor der Datenerhebung mittels einer Poweranalyse die notwendige Stichprobe abzuschätzen und die Daten erst dann auswerten, nachdem die gesamten Ergebnisse erhoben sind
24
Q

p-hacking: multiples Testen - Definition, Konsequenz und richtiges Vorgehen

A
  1. Definition: Das Erheben mehrere abhängiger Variablen und nur die berichten, die signifikant wurden -> besonders verbreitet
  2. Konsequenz: führt zu einer α-Fehler-Inflation und erhöht so die Zahl der FP deutlich
  3. Richtiges Vorgehen: Immer alle erfassten abhängigen Variablen berichten und erklären, was sie unternommen haben, um einer α-Fehler-Inflation entgegen zu wirken -> sollte breits bei Forschungsantrag geklärt und beschreiben werden
25
Q

p-hacking: Data trimming - Definition, Konsequenz und richtiges Vorgehen

A
  1. Definition: Das Entfernen von extremen Daten oder sogar Vp, um ein gewünschtes signifikantes Ergebnis zu erzielen
  2. Konsequenz: Erhöht die Anzahl an FP
  3. Richtiges Vorgehen: Die Kriterien für die Definition von Ausreißern und sonstige Regeln der Datenaufbereitung vor der Durchführung der Studie fest- und offenzulegen. Wird später aus methodischen Gründen von diese Kriterien abgewichen, dann ist dies entsprechend in der Publikation zu dokumentieren und zu begründen -> man würde eine Replikationsstudie erwarten bei der die abgewandelten Regeln von vornherein angewendet werden
26
Q

p-hacking: “vibration of effects” - Definition, Konsequenz und richtiges Vorgehen

A
  1. Definition: zusätzliche Verfeinerungen von statistischen Analysen. Z.B.: das hinzufügen einer zusätzlichen Kovariaten, nachdem die ursprüngliche Analyse ohne Kovariate die statistische Signifikanz eines vermeintlichen Effekts verfehlt hat
  2. Konsequenz: Erhöhung der FP
  3. Richtiges Vorgehen: Die Verwendung von z.B.: Kovarianten vor der Datenerhebung festlegen und nicht nachträglich hypothesenkonform anpassen  bei Forschungsanträgen sollte die statistische Analyse der Daten so gut wie möglich spezifiziert sein, damit ihre Adäquatheit beurteilt werden kann
27
Q

Die Einstellung von Ulrich & Erdfelder et. al. zu P-hacking

A

Autoren glauben nicht, dass P-hacking böswillig geschieht sondern das Forschende die negative Auswirkung von p-hacking auf die Mehrung von FP in der Forschungsliteratur unterschätzen

28
Q

HARKing: Definition

A

Das Aufstellen von Hypothesen, nachdem die Ergebnisse einer Untersuchung bekannt sind  Post-Hoc-Hypothese, die so präsentiert wird, als ob sie vor der Datenerhebung aufgestellt wurde. Können auch als „Strohmann“ verwendet werden, indem man post-hoc eine konkurrierende Hypothese so darstellt, als ob es das Ziel der Studie gewesen wäre, diese Hypothese einem kritischen Test zu unterziehen

29
Q

HARKing: Vermeidung

A

(1) Post-hoc Hypothese müssen in der Studie gekennzeichnet werden -> Gehören nur in die Diskussion und nicht in die Einleitung eines Artikels -> Da diese Hypothesen nur aus den erhobenen Daten entstanden sind, sind sie nach nie vor ungetestet
(2) Vorschlag der Autoren: bei Forschungsanträgen alle Hypothesen offenzulegen und ihre Herleitung aus der Literatur plausibel darzustellen
3. Kombination mit data-mining: es ist anzunehmen, dass HARKing in Kombination mit data-mining verwendet wird, was das Problem von FPs verschärft

30
Q

Das Schubladenproblem (Publication-Bias)

A
  1. Signifikante Ergebnisse wird eine besonders hohe Bedeutung zuteil – Steht im Wiederspruch zur Poppers Falsifikationstheorie, nach der hypothesen-diskonforme Befunde als besonders informativ zu betrachten sind
  2. Schubladenproblem/publication-Bias: die selektive Veröffentlichung von positiven, hypothesenkonformen Befunden. Danach werden nicht-signifikante Befunde und ggf. auch Befunde, die gegen die iegene Hypothese sprechen, nicht publiziert
  3. Im Extremfall können so laut Rosenthal von 100 durchgeführten Studien, in denen kein Effekt vorliegt, gerade 5 veröffentlicht werden (Im Fall von α=5%)
31
Q

Das Schubladenproblem - Auswirkung auf konzeptuelle Replikationen

A

kann so leicht der falsche Eindruck entstehen, der ursprüngliche Effekt besitze eine große empirische Tragweite

32
Q

Das Schubladenproblem - Forderung der Autoren

A

Veröffentlichung von gut begründeten nicht-signifikanten Ergebnissen -> nur so kann der Geltungsbereich bestimmter Phänomene erkannt und eine realitätsnahe Theorie dieser Phänomene konstruiert werden -> Vorrausetzung ist eine hohe Teststärke um FN zu vermeiden

33
Q

Das Schubladenproblem - Diagnosemethoden zur Feststellung eines Publication-Bias in einem Forschungsfeld

A

(1) funnel plot
(2) p-kurve
(3) test for excess of significance (TES)

34
Q

TES: Vorgehen

A
  1. kann sogar auf einzelne Publikationen angewandt werden, wen diese aus mehreren einzelnen Untersuchungseinheiten besteht, indem man die Power der ver. Experimente der Publikation multipliziert und schaut dann, ob diese Wahrscheinlichkeit „zu gut ist, um wahr zu sein“
  2. Ergeben Hinweise auf dieverse Publikationsverzerrungen in der zeitgenössischen Forschungsliteratur, auch in hochrangigen Publikationsorganen
  3. Beispiel: 1-ß = 0.6, fünf Studien wurden mit der Power durchgeführt:
  4. 6 ^5 = 0.078 = 7,5% ist die Wahrscheinlichkeit, dass alle Signifikant geworden sind
35
Q

TES: Studie von Francis et. al. (2014)

A
  1. Analysierten 18 Studien aus der Fachzeitschrift „Science“, bei 15 Studein (83%) war die geschätzte TES-Wahrscheinlichkeit derart klein, dass davon auszugehen ist, dass negative Ergebnisse unterdrückt wurden
  2. Die Befunde legen daher, dass durch die Verzerrungen einige Theorien eher die persönliche Präferenz von WissenschatlerInnen als die psychologische Realität widerspiegeln
36
Q

Hinweise für klinische Forschung: Die Diskussion in der klinischen Forschung

A
  1. Die Diskussionen in klinischen Studien tangieren auch ähnliche Anliegen:
    a) Verbesserung von Qualitätsstandards bei der Auswahl von Forschungsthemen, der Forschungsdesigns und Datenanalysen,
    b) die explizite Förderung von Replikationsstudien &
    c) die Verbesserung des Berichtswesen

–> Im klinischem Feld gibt es im Gegensatz zum psychologischen Feld ein gut etabliertes System der Studienregistrierung

37
Q

Hinweise für klinische Forschung: DFG-Empfehlungen

A
  1. Verbesserung von Dokumentation

2. Registrierung von Studien und Publikation aller Befunde sollten dabei die Anhäufung von FPs verhindern

38
Q

Hinweise für klinische Forschung: Explorative Studien

A

Besonders wichtig in diesen angewandten Bereichen, um Hypothesen zu generieren -> müssen explizit in Publikationen als solche ausgewiesen werden und solange die nicht durch direkte Replikationsstudien validiert wurden, müssen die hierbei aufgestellten ab-hoc Hypothesen allerdings als ungeprüft gelten

39
Q

Abschließendes Kommentar: Die wichtigsten Punkte für Originalstudien

A
  1. negative Ergebnisse müssen höheren Stellenwert einnehmen –> Studien müssen in solchen Fällen ausreichend hohe Power besitzen
  2. Abschätzung der Power hängt von der zugrundeliegenden Effektstärke in der Grundgesamtheit:
    a) muss durch Hintergrundinformationen abgeschätzt und begründet werden
    b) wenn das nicht geht, dann eine Mindeststärke festlegen die der Effekt haben sollte, um relevant zu sein (Konventionen von Cohen)
40
Q

Abschließendes Kommentar: Die wichtigsten Punkte für Replikationsstudien

A
  1. Replikationen sind wichtig
  2. Stichrpobenumfang aufgrund einer a priori Teststärkenanalyse vorher festlegen (oft einer größerer als in Originalstudie nötig)
  3. Registered Reports
41
Q

Registered Reports Definition und Gründe für die Anwendung bei Replikationsstudien

A
  1. Definition: Initiative beider vor der Datenerhebung ein Manuskript über eine Studie eingereicht wird und begutachtet, das lediglich den theoretischen Hintergrund, die konkrete Fragestellung und die geplante Versuchsplanungs- und Auswertungsmethodik detailliert schildert. Fällt die Begutachtung positiv aus, dann ist die Auswertung in einem bestimmten Zeitraum durchzuführen und die Veröffentlichung der Studie wird egal bei welchem Ergebnis garantiert
  2. Registered Reports für Replikationsstudien:
    a) weil sowohl die Begründung als auch die a priori einer rigorosen Qualitätskontrolle unterzogen werden
    b) bei positiver Bewertung ergebnisunabhängig eine Publikation garantiert ist, was Evidenzverzerrungen in der Literatur entgegenwirkt
42
Q

Abschließendes Kommentar: Die wichtigsten Punkte zu FN

A
  1. FN sind ein weitgehend ignoriertes Problem, dessen Ausmaß sich noch schlechter abschätzen lässt  eine zu geringe und eine zu höhe Power begünstigen Fehler dieser Art
  2. Problem theoretischer FN:
    a) das Übersehen von (neuen) Hypothesen, welche vorliegende Ergebnismuster vollständiger und umfassender erklären könnten als die geprüften Hypothesen.
    b) bester Weg dieses Problem zu adressieren ist Forschungsprogramme von vorhinein nicht als Tests nur einer Hypothese auszulegen, sondern als Tests zwischen verschiedenen, mit dem Hintergrundwissen gleichermaßen vereinbaren Alternativhypothesen
43
Q

Wichtigste Kriterien für eine Förderung von direkten Replikationsstudien

A
  1. Begründung der Wichtigkeit: Warum besitzt die Replikation einen besonderen theoretischen, empirischen oder technologischen Stellenwert? Die Konsequenzen einer erfolgreichen vs. unerfolgreichen Replikation sind auszuführen. Der Erwartete Erkenntnisfortschritt ist zu diskutieren
2. Genauigkeit der Replikationsmethodik: 
Die Methodik (d.h. Vp-Gewinnung, Design, Material und Prozedur) der Originalstudie sind möglichst genau zu replizieren 
  1. A-Priori-Definition der relevanten Effektstärke
    Die zu entdeckende Effektstärke, die den zu replizierenden Effekt präzise definitert ist vor der Replikationsstudie festzulegen und zu begründen (theoretisch oder aus Effekstärkenschätzungen vorliegender Studien)
  2. Sorgfältige Stichprobenumfangsplanung
    Die VP-Zahl ist so zu wählen, dass die Power (Teststärke) des gewählten statistischen Tests für die zu entdeckende Effektstärke hinreichend hoch ist. In aller Regel sollte dabei eine Balance zwischen den beiden statistischen Fehlerwahrscheinlichkeiten α und β angestrebt werden, so dass bei α= 0.05 eine Teststärke von 1- β = 0.95 resultiert
  3. Unabhängigkeit des Forscherteams
    Unabhängigkeitskriterien erfüllen, keine Überlappungen mit dem Forschendenteam der Originalstudie
    VI. Kooperation mit dem Forscherteam der zu replizierenden Studie:
    Absicherung zwecks der Methodik. Idealerweise bestätigen die Autoren der Originalstudie vor der Durchführung der Replikationsstudie, dass die geplante Untersuchung als direkte Replikation gelten kann
  4. Publikationsverpflichtung
    Zu begrüßen ist die Anmeldung als registrierter Bericht vor der Datenerhebung. Erfolgt die Publikation nicht in einer geeigneten Fachzeitschrift, sind die Ergebnisse in einem geeigneten Repositorium zu dokumentieren
  5. Transparenz
    Alle Details sind unter Beachtung des Datenschutzes sorgfältig zu dokumentieren und archivieren. Versuchsbeschreibungen, Versuchsmaterial, (anomymisierte) Rohdaten, Makros und Computerprogramme zur Datenanalyse sind an alle Forschenden für Zwecke der Reanalyse oder ggf. weitere Replikationsstudien herzugeben, wenn danach verlangt wird