Forschungstext 3: Inflation von falsch-postiven Befunden in der psychologischen Forschung Flashcards

Question

p-hacking: Data trimming - Definition, Konsequenz und richtiges Vorgehen

Answer 1

1. Definition: Das Entfernen von extremen Daten oder sogar Vp, um ein gewünschtes signifikantes Ergebnis zu erzielen 2. Konsequenz: Erhöht die Anzahl an FP 3. Richtiges Vorgehen: Die Kriterien für die Definition von Ausreißern und sonstige Regeln der Datenaufbereitung vor der Durchführung der Studie fest- und offenzulegen. Wird später aus methodischen Gründen von diese Kriterien abgewichen, dann ist dies entsprechend in der Publikation zu dokumentieren und zu begründen -> man würde eine Replikationsstudie erwarten bei der die abgewandelten Regeln von vornherein angewendet werden

Answer 2

1. Definition: zusätzliche Verfeinerungen von statistischen Analysen. Z.B.: das hinzufügen einer zusätzlichen Kovariaten, nachdem die ursprüngliche Analyse ohne Kovariate die statistische Signifikanz eines vermeintlichen Effekts verfehlt hat 2. Konsequenz: Erhöhung der FP 3. Richtiges Vorgehen: Die Verwendung von z.B.: Kovarianten vor der Datenerhebung festlegen und nicht nachträglich hypothesenkonform anpassen  bei Forschungsanträgen sollte die statistische Analyse der Daten so gut wie möglich spezifiziert sein, damit ihre Adäquatheit beurteilt werden kann

Answer 3

Autoren glauben nicht, dass P-hacking böswillig geschieht sondern das Forschende die negative Auswirkung von p-hacking auf die Mehrung von FP in der Forschungsliteratur unterschätzen

Answer 4

Das Aufstellen von Hypothesen, nachdem die Ergebnisse einer Untersuchung bekannt sind  Post-Hoc-Hypothese, die so präsentiert wird, als ob sie vor der Datenerhebung aufgestellt wurde. Können auch als „Strohmann“ verwendet werden, indem man post-hoc eine konkurrierende Hypothese so darstellt, als ob es das Ziel der Studie gewesen wäre, diese Hypothese einem kritischen Test zu unterziehen

Answer 5

(1) Post-hoc Hypothese müssen in der Studie gekennzeichnet werden -> Gehören nur in die Diskussion und nicht in die Einleitung eines Artikels -> Da diese Hypothesen nur aus den erhobenen Daten entstanden sind, sind sie nach nie vor ungetestet (2) Vorschlag der Autoren: bei Forschungsanträgen alle Hypothesen offenzulegen und ihre Herleitung aus der Literatur plausibel darzustellen 3. Kombination mit data-mining: es ist anzunehmen, dass HARKing in Kombination mit data-mining verwendet wird, was das Problem von FPs verschärft

Answer 6

1. Signifikante Ergebnisse wird eine besonders hohe Bedeutung zuteil – Steht im Wiederspruch zur Poppers Falsifikationstheorie, nach der hypothesen-diskonforme Befunde als besonders informativ zu betrachten sind 2. Schubladenproblem/publication-Bias: die selektive Veröffentlichung von positiven, hypothesenkonformen Befunden. Danach werden nicht-signifikante Befunde und ggf. auch Befunde, die gegen die iegene Hypothese sprechen, nicht publiziert 3. Im Extremfall können so laut Rosenthal von 100 durchgeführten Studien, in denen kein Effekt vorliegt, gerade 5 veröffentlicht werden (Im Fall von α=5%)

Answer 7

kann so leicht der falsche Eindruck entstehen, der ursprüngliche Effekt besitze eine große empirische Tragweite

Answer 8

Veröffentlichung von gut begründeten nicht-signifikanten Ergebnissen -> nur so kann der Geltungsbereich bestimmter Phänomene erkannt und eine realitätsnahe Theorie dieser Phänomene konstruiert werden -> Vorrausetzung ist eine hohe Teststärke um FN zu vermeiden

Answer 9

(1) funnel plot (2) p-kurve (3) test for excess of significance (TES)

Answer 10

1. kann sogar auf einzelne Publikationen angewandt werden, wen diese aus mehreren einzelnen Untersuchungseinheiten besteht, indem man die Power der ver. Experimente der Publikation multipliziert und schaut dann, ob diese Wahrscheinlichkeit „zu gut ist, um wahr zu sein“ 2. Ergeben Hinweise auf dieverse Publikationsverzerrungen in der zeitgenössischen Forschungsliteratur, auch in hochrangigen Publikationsorganen 3. Beispiel: 1-ß = 0.6, fünf Studien wurden mit der Power durchgeführt: 0. 6 ^5 = 0.078 = 7,5% ist die Wahrscheinlichkeit, dass alle Signifikant geworden sind

Answer 11

1. Analysierten 18 Studien aus der Fachzeitschrift „Science“, bei 15 Studein (83%) war die geschätzte TES-Wahrscheinlichkeit derart klein, dass davon auszugehen ist, dass negative Ergebnisse unterdrückt wurden 2. Die Befunde legen daher, dass durch die Verzerrungen einige Theorien eher die persönliche Präferenz von WissenschatlerInnen als die psychologische Realität widerspiegeln

Answer 12

1. Die Diskussionen in klinischen Studien tangieren auch ähnliche Anliegen: a) Verbesserung von Qualitätsstandards bei der Auswahl von Forschungsthemen, der Forschungsdesigns und Datenanalysen, b) die explizite Förderung von Replikationsstudien & c) die Verbesserung des Berichtswesen --> Im klinischem Feld gibt es im Gegensatz zum psychologischen Feld ein gut etabliertes System der Studienregistrierung

Answer 13

1. Verbesserung von Dokumentation | 2. Registrierung von Studien und Publikation aller Befunde sollten dabei die Anhäufung von FPs verhindern

Answer 14

Besonders wichtig in diesen angewandten Bereichen, um Hypothesen zu generieren -> müssen explizit in Publikationen als solche ausgewiesen werden und solange die nicht durch direkte Replikationsstudien validiert wurden, müssen die hierbei aufgestellten ab-hoc Hypothesen allerdings als ungeprüft gelten

Answer 15

1. negative Ergebnisse müssen höheren Stellenwert einnehmen --> Studien müssen in solchen Fällen ausreichend hohe Power besitzen 2. Abschätzung der Power hängt von der zugrundeliegenden Effektstärke in der Grundgesamtheit: a) muss durch Hintergrundinformationen abgeschätzt und begründet werden b) wenn das nicht geht, dann eine Mindeststärke festlegen die der Effekt haben sollte, um relevant zu sein (Konventionen von Cohen)

Answer 16

1. Replikationen sind wichtig 2. Stichrpobenumfang aufgrund einer a priori Teststärkenanalyse vorher festlegen (oft einer größerer als in Originalstudie nötig) 3. Registered Reports

Answer 17

1. Definition: Initiative beider vor der Datenerhebung ein Manuskript über eine Studie eingereicht wird und begutachtet, das lediglich den theoretischen Hintergrund, die konkrete Fragestellung und die geplante Versuchsplanungs- und Auswertungsmethodik detailliert schildert. Fällt die Begutachtung positiv aus, dann ist die Auswertung in einem bestimmten Zeitraum durchzuführen und die Veröffentlichung der Studie wird egal bei welchem Ergebnis garantiert 2. Registered Reports für Replikationsstudien: a) weil sowohl die Begründung als auch die a priori einer rigorosen Qualitätskontrolle unterzogen werden b) bei positiver Bewertung ergebnisunabhängig eine Publikation garantiert ist, was Evidenzverzerrungen in der Literatur entgegenwirkt

Answer 18

1. FN sind ein weitgehend ignoriertes Problem, dessen Ausmaß sich noch schlechter abschätzen lässt  eine zu geringe und eine zu höhe Power begünstigen Fehler dieser Art 2. Problem theoretischer FN: a) das Übersehen von (neuen) Hypothesen, welche vorliegende Ergebnismuster vollständiger und umfassender erklären könnten als die geprüften Hypothesen. b) bester Weg dieses Problem zu adressieren ist Forschungsprogramme von vorhinein nicht als Tests nur einer Hypothese auszulegen, sondern als Tests zwischen verschiedenen, mit dem Hintergrundwissen gleichermaßen vereinbaren Alternativhypothesen

Answer 19

1. Begründung der Wichtigkeit: Warum besitzt die Replikation einen besonderen theoretischen, empirischen oder technologischen Stellenwert? Die Konsequenzen einer erfolgreichen vs. unerfolgreichen Replikation sind auszuführen. Der Erwartete Erkenntnisfortschritt ist zu diskutieren ``` 2. Genauigkeit der Replikationsmethodik: Die Methodik (d.h. Vp-Gewinnung, Design, Material und Prozedur) der Originalstudie sind möglichst genau zu replizieren ``` 3. A-Priori-Definition der relevanten Effektstärke Die zu entdeckende Effektstärke, die den zu replizierenden Effekt präzise definitert ist vor der Replikationsstudie festzulegen und zu begründen (theoretisch oder aus Effekstärkenschätzungen vorliegender Studien) 4. Sorgfältige Stichprobenumfangsplanung Die VP-Zahl ist so zu wählen, dass die Power (Teststärke) des gewählten statistischen Tests für die zu entdeckende Effektstärke hinreichend hoch ist. In aller Regel sollte dabei eine Balance zwischen den beiden statistischen Fehlerwahrscheinlichkeiten α und β angestrebt werden, so dass bei α= 0.05 eine Teststärke von 1- β = 0.95 resultiert 5. Unabhängigkeit des Forscherteams Unabhängigkeitskriterien erfüllen, keine Überlappungen mit dem Forschendenteam der Originalstudie VI. Kooperation mit dem Forscherteam der zu replizierenden Studie: Absicherung zwecks der Methodik. Idealerweise bestätigen die Autoren der Originalstudie vor der Durchführung der Replikationsstudie, dass die geplante Untersuchung als direkte Replikation gelten kann 6. Publikationsverpflichtung Zu begrüßen ist die Anmeldung als registrierter Bericht vor der Datenerhebung. Erfolgt die Publikation nicht in einer geeigneten Fachzeitschrift, sind die Ergebnisse in einem geeigneten Repositorium zu dokumentieren 7. Transparenz Alle Details sind unter Beachtung des Datenschutzes sorgfältig zu dokumentieren und archivieren. Versuchsbeschreibungen, Versuchsmaterial, (anomymisierte) Rohdaten, Makros und Computerprogramme zur Datenanalyse sind an alle Forschenden für Zwecke der Reanalyse oder ggf. weitere Replikationsstudien herzugeben, wenn danach verlangt wird