Forschungstext 2: Optimizing Research Output: How can psychological research methods be improved? Flashcards
Autoren des Texts
Miller & Ulrich
Replikationskrise
Die Psychologische Forschung ist in Verruf geraten, da weniger als 50% der publizierten Ergebnisse repliziert werden konnten
->Auch in anderen Feldern zu beobachten, vertrauen in die Wissenschaft sinkt
Evidentiary value movement
Die Bemühungen und Untersuchungen, die versuchen die Fehler in den traditionellen Forschungen und Gründe für die schlechte Replizierbarkeit zu suchen werden gesamtheitlich manchmal als „evidentiary value movment“ bezeichnet -> Der Forschungsartikel versucht die Ergebnisse dieser Bewegung zusammenzufassen
Gründe für eine schlechte Replikationsrate
a) Die Replikationsstudie war schlecht: Es kann sein, dass nicht die Originalstudie fehlerhaft war, sondern die Replikationsstudie
b) Veränderte Umstände: Zum Zeitpunkt der Originalstudie war der Effekt da, aber die Umstände haben sich so geändert, dass zum Zeitpunkt der Replikationsstudie der Effekt nicht mehr vorhanden ist
- > Jedoch wird angenommen, dass Probleme in der Prozedur nur einen kleinen Beitrag zur Replikationskriese beisteuern
c) Falsche Ergebnisse der Originalstudie: Es wird angenommen, dass der Hauptgrund für die geringen Replikationsraten der ist, dass viele der original publizierten Ergebnisse falsch sind
Vier Typen von Ergebnissen einer individuellen Studie
I. True Positiv (TP): Korrekte Schlussfolgerung, dass der gesuchte Effekt vorhanden ist
II. False Positiv (FP): Inkorrekte Schlussfolgerung, dass der gesucht Effekt vorhanden ist (Fehler 1. Art)
III. True Negativ (TN): Korrekte Schlussfolgerung, dass der gesucht Effekt nicht vorhanden ist
IV. False Nevativ (FN): Inkorrekte Schlussfolgerund, dass der gesuchte Effekt nicht vorhanden ist (Fehler 2. Art)
Die Basisrate π und die Hypothesen
- Der gesuchte Effekt kann entweder vorhanden sei (H1 ist wahr) oder nicht (H0 ist wahr).
- Die Wahrscheinlichkeit dieser beiden Ereignisse (H0 ist wahr oder H1 ist wahr) sind nicht gleich, sondern von der Basisrate der wahren Effekte π abhängig.
- π gibt die Wahrscheinlichkeit an mit der die H1 wahr ist. 1-π gibt entsprechend die Wahrscheinlichkeit an, dass die H0 wahr ist.
- Die Größe von π ist von dem Forschungsfeld anhängig.
siehe auch Abbildung auf Lernzettel
Publication Bias und sein Einfluss auf FP
- Die meisten publizierten Ergebnisse sind positive Ergebnisse.
- Per se hat der Publikation-Bias keinen Einfluss auf die Anzahl der FP Ergebnisse, aber einen Einfluss auf die Proportionen zwischen FP und FN/TN Ergebnisse, –> Wenn nur positive Ergebnisse publiziert werden und die Replikation nicht gelingt, ist die Wahrscheinlichkeit, dass in der Originalstudie ein FP vorliegt, relativ hoch (im Gegensatz zu einem FN/TN, da negative Ergebnisse ja erst gar nicht publiziert werden)
Gründe für FP
I. Betrug oder falsche Daten -> relativ selten
II. Flasche Anwendung von Forschungsmethoden und statistischen Verfahren -> Vorschlag: Statistische Ausbildung verbessern
III. Statistische Gründe: zufällige Variablen erzeigen unausweichlich einige FP durch reinen Zufall
Welche statischen Parameter legen die Frequenz von FP fest?
- α-Niveau: Die Rate von FP (P_FP) ist immer geringer, je kleiner α-Niveau gewählt ist unabhängig von der Power und der Basisrate
- Power (1 – β): Die Rate von FP sinkt je weiter die Power steigt. Besonders schnell steigt die Rate von FP an, wenn die Power unter 0.5 sinkt (was schnell passiert bei einer kleinen Stichprobe oder ungenauen Messinstrumenten)
- Die Basisrate der wahren Effekte (π): Die Rate von FP steigt systematisch mit dem Sinken von π. Wenn die Basisrate sinkt haben weniger Studien die Chance eine TP zu produzieren, weil weniger Studien ja überhaupt einen Effekt untersuchen, der existiert daher beruhen immer mehr positive Ergebnisse auf einen Fehler -> wenn die Basisrate π ≤ 0.1, dann haben wir eine P_RP > 0.5 -> das passiert aus rein Statistischen Gründe, egal wie angemessen die Methoden sind -> daher wäre die Replikationsrate auch extrem schlecht
Wann sind Basisraten hoch und wann niedrig? Und wie sieht die geschätzte Basisrate der Psychologie aus?
- Wilson& Wixted haben geschätzt, dass ca. 10% der Studien in der sozial Psychologie wirklich Effekte testen, die es gibt. Die Basisrate bezieht sich also nicht wie α und die Power auf die einzelne Studie, sondern auf das Forschungsgebiet, in dem die Studie eingebettet ist.
- Basisraten sind meist dann hoch, wenn es um ein Forschungsgebiet geht, in dem es einen soliden theoretischen Hintergrund gibt
- Basisraten sind dann niedrig, wenn es sich um ein weniger entwickeltes Forschungsfeld handelt, wo Forschung sich meist auf Intuition oder Anekdoten stützt
- In der Psychologie wird die Basisrate auf ca. 20% oder weniger geschätzt
Vorschläge für die Reduzierung von FP
- Reduktion des Alpha-Levels
- Auslöschung von fragwürdigen Forschungspraktiken
- Erhöhung der Power
- Erhöhung der Basisrate
Vorschläge für die Reduzierung von FP: 1. Reduktion des Alpha-Levels
Bedeutet jedoch gleichzeitig, dass man starke Belege für einen Effekt braucht, bevor man ein positives Ergebnis erzielt
(siehe hier auch Forschungstext 1)
Vorschläge für die Reduzierung von FP: b) Auslöschen von fragwürdigen Forschungspraktiken (questionable research practices [QRP]): wie können QPR aussehen?
Diese QRP können unterschiedliche ausgestaltet sein, meist wird versucht auf vorerst nicht signifikanten Ergebnissen signifikante zu machen (P-hacking) durch:
I. Die Durchführung von mehreren gleichen Studien oder das Messen mehrere gleiche AV um die eine zu finden die (aus Zufall) ein positive Ergebnis erzeugt
II. Die Durchführung vieler ver. statistischer Methoden, um die eine Methoden zu finden, die ein signifikantes Ergebnis bringt
III. Nachträglich mehr Daten sammeln, in der Hoffnung, dass die größere Stichprobe ein signifikantes Ergebnis bringt
Vorschläge für die Reduzierung von FP: 3. Erhöhung der Power
- In der Psychologie sind die Powerraten oft sehr gering (schätzungsweise für kleine Effekte bei 0.2 und für große bei 0.5)
- Cohen hat ein α = 0.05 und eine Power von mind. 0.8 vorgeschlagen. Cohens Gedanke dahinter war, dass FP ca. viermal schlechter sind als FN (β = 4* α )-> nach der Logik müsse man bei Runtersetzen des α-Levels das Powerlevel erhöhen
- Problem: Die Stichprobengröße ist schwierig abzuschätzen, da man nicht weiß, was die wahre Effektgröße ist -> Stichproben können daher zu groß oder zu klein sein. Sehr große Stichproben verbrauchen viele Ressourcen, bieten ein hohes Powerlevel an und Effekte zu finden, die so klein sind, dass sie nicht von praktischem Interesse sind
Vorschläge für die Reduzierung von FP: 4. Erhöhung der Basisrate
Es gibt wenig Vorschläge dazu, wie die Basisrate beeinflusst werden kann, damit weniger FP auftreten, da die Basisrate nicht in der Kontrolle der Forschenden liegt und viel von Vorwissen und dem Entwicklungsstand von Theorien abhängen. Eine Möglichkeit könnte es sein, sich sehr genau zu überlegen, welche Effekt an untersuchen möchte und welche nicht
- Einwände gegen die vorgeschlagenen Änderungen: negative Folgen von niedigen Alpha, hoher Basisrate und Abschaffung von QRP
I. Eine Verringerung des α führt ebenfalls zu einer Verringerung der Power, wenn Stichproben nicht vergrößert werden. Die Verringerung der Power führt dann dazu, dass wahre Effekte nicht entdeckt werden, erhöht die Rate von FN was noch schlimmer sein kann als FP
II. QRP führen zu einer Erhöhung der Power (Power Inflation) was ein Vorteil sein kann
III. Um die Power zu erhöhen, muss man die Stichprobengröße erhöhen, was Forschungskosten erhöht was dazu führt, dass weniger Studien durchgeführt werden können
IV. Die Entwicklung der Forschung würde sich verlangsamen, wenn Forschende versuchen die Basisrate dadurch hochzuhalten, indem sie nur noch leichte Variationen von bereits replizierten Effekten untersuchen würden unerwartete Ergebnisse können zu wissenschaftlichen Durchbruch verhelfen, low-risik-Studien hätte einen geringen Informationswert
Warum schlagen die Autoren andere Modell vor?
Aufgrund der komplexen Informationsgehälter mit Bezug auf α, Effektgröße, Basisrate & Power benötigen Modelle nicht nur statistische Parameter, sondern müssen auch praktische Beschränkungen mit einbeziehen, wie z.B.: Der feste Pool von Forschungsressourcen innerhalb eines Forschungsfeldes
Welche anderen Modelle zur Erhöhung der Effizienz schlagen die Autoren vor?
1 Minimierung von FP und Maximierung der Replikationsfähigkeit
2 Maximierung der Vorteile für die Forschenden
3 Replikationen optimieren
4 Maximierung des Gesamten Payoffs
5 Limitierte Forschungsoptionen und Trade-offs
Welchen Anspruch legen die Autoren an die vorgeschlagenen Modell
Aufgrund der komplexen Informationsgehälter benötigen die Modelle nicht nur statistische Parameter, sondern müssen auch praktische Beschränkungen mit einbeziehen ( z.B.: begrenzte Ressourcen)
Modelle: 1. Minimierung von FP und Maximierung der Replikationsfähigkeit: Definition der Forschungseffektivität in diesem Modell
Man könnte Forschungseffektivität im Bezug auf das Ziel der Minimierung der FP und der damit einhergehenden Maximierung der Replikationsfähigkeit definieren