Lecture 11 Critical thinking about psychological research Flashcards
twee voorbeelden van “f you leave out enough, everything can become a beautiful story”
- Publication bias, file drawer problem
- Unspecified predictions, hidden nsustainable assumptions in theory
Half of publications in 8 major psychology
journals (1985-2013) that involve NHST contain at least 1 error in reported p-values.
- 1 in 8 contained a “grossly inconsistent p-value that may have affected the statistical conclusion”.
- Those gross inconsistencies were more likely when significant vs non-significant results were reported
researchers degrees of freedom
- Which research area, which theory, which
hypotheses? - How many dependent variables, how many
conditions? - What measurement procedure?
- How many participants?
- What analyses? What outliers?
- What is an effect? What is a relevant effect?
- What can you conclude from the analyses?
- What can you conclude from the investigations?
issues with robustness =
when researchers that use the same data, find different effects.
only 49% of the papers published could be reproduced
oke
waardoor komen die researcher degrees of freedom
door differences in robustness.
large researchers degree of freedom betekent
hogere variation
lagere robustness
lagere reliability
hoe gaat het ideale process van wetenschap
author writes research -> editor decides who should review -> editor sends to experts in area -> experts review etc
maar wat zien we helaas bij peer reviewers
mensen beoordelen significante resultaten als beter uitgevoerd, dan geen significante resultaten (hier is veel meer kritiek op)
Goals of science do not always go hand
in hand with the goals of the scientist
- Quantity of (frequently quoted) publications essential for further careers
- The problem is that the pursuit of truthful/robust and interpretable results in the current system does not always lead to publications
file drawer effect =
in science many results remain unpublished, especially negative ones.
Too much emphasis on new, surprising, findings is problematic:
- We think too quickly that a published positive result is a full-fledged phenomenon.
- Counterintuitive findings are looked at more, hoewel zij een lagere prior probability hebben
- Small and noisy samples
- Popular media will highlight catchy findings
als de prior probability laag is, is rejecting the H0…
minder informatief
kleiner sample =
kleinere power = minder informatief om H0 te rejecten
type 1 error rate staat gelijk aan
alpha
power is hetzelfde als
1 - B
wat is B
type 2 error/false negative
wat is een correcte true negative
1-a
dus alles op een rijtje: formules in het vierkant van links boven naar rechtsonder
type 1 error/a, power/1-B, correct true negative/1-a, type 2 error/1-B
hoe komt publication and reporting bias tot stand
- study publication bias
- outcome reporting bias
- spin
- citation bias
study publication bias =
trials zonder resultaten worden niet gepubliceerd
outcome reporting bias =
zelfs als de studie wel wordt gepubliceerd, worden de dingen zonder resultaat niet gepubliceerd in de final paper
spin=
researchers beschrijven het alsof iets heel significant en met veel effect is
citation bias =
dingen die werken hebben een hogere kans om geciteerd te wordne.
uiteindelijk kom je door publication and reporting bias dus bij een ding wat van 50/50% kans op werken is gegaan naar een geweldig resultaat wat sowieso werkt en veel consensus achter zit
oke
wat was de bevinding van de dead fish brain activity
p-hacking
p-hacking=
misuse of data analysis to find patterns in data that can be presented as statistically significant, thus dramatically increasing and understating the risk of false positives.
alpha interpretatie van 0.05
if the null were true, we would mistakenly reject the null in 5% of the cases. we dont know whether we are right, but we know that we are not wrong most of the time.
wat gebeurt er als je meerdere comparisons maakt
bv rollen met meerdere dobbelstenen en alleen de ene keer rapporteren dat je 6 gooide.
a type 1 error only applies to a single comparison that you are making: if you are doing multiple comparisons, the type one error inflates.
wanneer gaat de probability of type 1 error omhoog (3 situaties)
- when measuring multiple dependent variables
- when comparing multiple groups
- when just testing out different covariates
Type I error control would only work if …
we set up (and communicate) a clear sampling plan:
* Adding observations and testing after each new additions increases the probability of a type-I error
* So continuing data collection until an significant difference is found guarantees a type-I error (given that the null is true)
in welke situaties gaat de p value steeds meer omlaag
- meerdere dependent variables
- meer observations per cell
- dropping conditions
- controlling for gender or gender interaction with treatment
- alles gecombineerd
why would power be lower in neuroscience papers
omdat zij hele dure apparatuur gebruiken
de kans op het maken van een type 1 error inflates als je van een grote studie naar multiple small studies gaat
oke
waarom is dit problematisch: if the p value is lower than 0.61 and if power is at least 0.35 then i should reject H0
omdat we dan niet meer in de meeste gevallen goed zitten (definitie van alpha)
hogere sample = hogere power
oke
wat is belangrijk bij replications van studies
je moet niet alleen checken voor significance! want als er een lack of sensitivity is, door een underpowered study, kan je nog een inconclusive replication attempt krijgen. dit betekent dat je nog steeds niet zeker weet welk resultaat je kan geloven. is the found effect in the replication meaningfully different from the original
waarom hadden onderzoekers een effect gevonden van jonger kan worden door oudere muziek luisteren
- hebben 1 conditie gedropped
- optional stopping met datacollection
- multiple dependent variables, only reported a couple
- effect was dependent on covariate (but not mentioned)
how do we solve these questionable research questions:
- quality of research should be determining factor in how research/career is evaluated (not statistical significance)
- replication should be more central (direct + conceptual replication)
- importance of open science and pre-registration (online availability of data, materials, procedures and pre-publications.
verschil direct & conceptual replication
direct = same research, different sample
conceptual = different research and sample, same concepts
4 cognitive fallacies in research
- hypothesis myopia
- texas sharpshooter
- asymmetric attention
- just-so storytelling
texas sharpshooter=
seizing on random patterns in the data and mistaking them for interesting findings. eerst data verzamelen en daarna pas een pattern zoeken tussen de bevindingen (gewoon schieten op een bord en daarna de cirkel er in tekenen) -> no way you could have predicted this in advance!
hypothesis myopia=
collecting evidence to support a hypothesis, not looking for evidence against it, and ignoring other explanations
asymmetric attention =
rigorously checking unexpected results, but giving expected ones a free pass.
just-so storytelling
finding stories after the fact to rationalize whatever the results turned out to be
waar komt hypothesis myopia mee overeen
confirmation bias
waar komt asymmetric attention mee overeen
motivated reasoning: people tend to process information in such a way that it matches the goals they want to achieve. it makes ppl defensive (ook scientists)
-> looking more critically at unexpected results/think we already believe
-> looking less critically at predicted results
wat is een voorbeeld van asymmetric attention
vrouwen keken meer sceptisch naar onderzoek dat aantoonde dat koffie leidt tot borstkanker, omdat zij dit zelf vaker krijgen (= attack op self -> self-defense -> meer critical)
wat is dit voorbeeld van koffie
motivated skepticism (i want to be right)
wat is de rule: 2,4,8
en wat kan hier mis gaan?
mensen denken er over na, schrijven dan op: bijvoorbeeld elke keer x2.
maar kan ook simpelweg zijn dat de nummers steeds hoger worden. dus er zijn meerdere explanations, je kan niet gelijk na het vinden van een uitleg uitgaan van die uitleg
wat is de 2,4,8 rule een voorbeeld van
hypothesis myopia (alleen kijken naar de hypothesis waar je in gelooft, biased)
if those who have been exposed to clutter (messy room) or a smell (fart spray) favour harsher punishments -> digust hypothesis
waar is dit een voorbeeld van?
hypothesis myopia
wat is een black box model
what we know:
independent variable -> ? -> dependent variable
? = black box. dit kan meerdere uitleggen hebben.
wanneer kan een false dilemma opkomen
als mensen bijvoorbeeld wel meerdere hypothesen geven over waarom ze data hebben gevonden, maar dat die ook nergens op slaan.
wat is het verschil tussen texas sharpshooter en just-so storytelling
texas sharpshooter = patterns, story telling komt daarna. hangt dus heel erg samen.
met welke vorm van bias is texas sharpshooter en just so story telling ook gerelateerd
hindsight bias (jezelf overtuigen dat je het wel van te voren had kunnen weten)
3 principles tegen making errors=
- you must not fool yourself, you are the easiest to fool
- bend over backwards to try to prove yourself wrong!! be critical!!
- the essence of science is making mistakes in public: research papers should open up to allow others to help with corrections
hoe heet het dat wij biased zijn voor onze eigen bias
bias blind spot
hoe kan je deze bias blind spot tegen gaan
gebruik van actively open-minded thinking
actively open-minded thinking (AOT)
1) search phase: search for possibilities (provide different possibilities and hypotheses that could also explain your data).
2) inference: if this were true, than this evidence is a lot more likely than if this were true.
3) goals and criteria
4) sufficiency, fairness and confidence