Experimenteel onderzoek Flashcards
Onderzoeksvragen correlationeel bestaat uit (4)
- Population → De groep mensen die de onderzoeker wil onderzoeken.
- Intervention → De variabelen die je manipuleert (onafhankelijke variabelen)
- Comparison → De niveaus van de onafhankelijke/gemanipuleerde variabelen (de groepen die vergeleken worden)
- Outcome → De gemeten variabelen (afhankelijke variabelen)
Voorwaarden causale relatie (3)
- Covariance
Er moet een relatie zijn tussen de oorzaak en het gevolg - Temporal precedence
De oorzaak moet in de tijd voorafgaan aan het gevolg - Internal validity
Alternatieve verklaringen voor de gevonden relatie moeten zijn uitgesloten
Afhankelijke en onafhankelijke variabelen
Afhankelijke variabelen = de gemeten variabelen (uitkomstvariabelen)
Rekenprestaties
Onafhankelijke variabelen = de gemanipuleerde variabelen
Instructie (directe instructie of de instructie bij de controlegroep)
Stappen in Null Hypothesis Significance Testing
Stap 1 Toetskeuze, hypotheses bepalen en significantieniveau kiezen
(Geen correlatiecoefficient meer: Als we het verschil het gemiddelde in groepen willen bekijken, hebben we de t-toets voor
afhankelijke groepen nodig!)
Stap 2 Assumpties controleren
Stap 3 Toetsinggrootheid en p-waarde bepalen
Stap 4 Conclusive trekken over H0
Stap 5 Inhoudelijke conclusie en effectgrootte bepalen
Uitrekenen vrijheidsgraden (df)
Bij de t-toets voor onafhankelijke groepen wordt het aantal
vrijheidsschalen (df) bepaald door de grootte van de ene steekproef – 1, plus de grootte van de andere
steekproef – 1. Niet direct bepaald door n dus, maar indirect.
Type 1 fout
Nulhypothesen verwerpen, terwijl we dat niet zouden moeten doen. Er is in de werkelijkheid namelijk geen verschil, weergegeven Griekse Alpha α en staat direct in verband met significantieniveau.
Type 2 fout
Nulhypothesen niet verwerpen, terwijl we dat eigenlijk wel hadden moeten doen. In werkelijkheid (populatie) is er namelijk wél een verschil, weergegeven in de Griekse Beta β
Power
Power is de kans om de H0 correct te verwerpen. In de werkelijkheid is er een verschil tussen groepen, hoe groot is dan de kans om dat ook te vinden?
→ Onderzoekers willen dus een hoge power! Dat betekent een hoge kans dat je de juiste beslissing neemt.
→ Onderzoekers streven vaak naar een power van 0.80.
Factoren van invloed op power (4)
Grootte van verschil (Hoe groter hoe hoger power)
Grootte van de steekproef (Groter > hoger power)
Grootte van de spreiding (Kleiner > hoger power)
Significantieniveau (Hoger > hoger power)
Principes van gedragscode (5)
Eerlijkheid
Zorgvuldigheid
Transparantie
Onafhankelijkheid
Verantwoordelijkheid
QRP: p-hacking
P-hacking is wanneer een onderzoeker bewust of onbewust de gegevens manipuleert tot een gunstig resultaat.
QRP: HARKing
Hypothesizing after the results are known is an acronym that refers to the questionable research practice of “presenting a post hoc hypothesis in the introduction of a research report as if it were an a priori hypothesis”.
Data FAIRness (4) acroniem
Findable
Accessible
Interoperable
Reusable
Puntschatting en betrouwbaarheidsinterval
Puntschatting: schatting op basis van 1 steekproef
Betrouwbaarheidsinterval (BI/CI): de onder en bovengrens van een puntschatting
Cohen’s d effectgrootte (3)
0.20 klein effect
0.50 medium effect
0.80 groot effect
Breedte van het interval (M1-M2 +/- t x standaardfout) hangt af van (3)
- Steekproefgrootte
Grotere steekproeven > kleinere steekproefverdeling > kleinere standaardfout > smaller interval - Mate van spreiding in scores in populatie
Grote spreiding > breder interval en grotere standaardfout - Gekozen betrouwbaarheidsniveau
Onderzoekers kiezen dit zelf bij alpha (veel gebruikt is alpha = 0.05 betrouwbaarheidsniveau 95% is)
Hoe hoger het betrouwbaarheidsniveau, hoe breder het interval.
Wat betekent het betrouwbaarheidsinterval van 95%? BI = 95%?
Je kunt met 95% zekerheid zeggen dat het –populatieverschil– in het betrouwbaarheidsinterval valt.
Assumpties voor t-toets: De eerste 3 kan je lezen uit het artikel, de laatste 3 zijn statistisch.
- Aselecte steekproef: de steekproef is op een random manier getrokken.
- Afhankelijke variabelen van interval/ratio meetniveau
- De twee groepen zijn onafhankelijk (bij een experiment): de totale steekproef is random verdeeld over de twee groepen/condities.
- Geen uitschieters (boxplot)
- Scores zijn in beide groepen normaal verdeeld (bellcurve op histogram, tenzij N>30)
- Scores hebben in beide groepen gelijke spreiding (boxplot + Levene’s)
Validiteit van experimenten (4)
-Begripsvaliditeit
Worden constructen goed gemeten?
-Externe validiteit
Welke steekproef trek je en welke populatie kun je dan generaliseren?
-Statistische validiteit
Controleren assumpties, effectgrootte en BI benoemen.
-Interne validiteit
Kunnen we een goed antwoord vinden op onze onderzoeksvraag?
Factoren interne validiteit (8)
→ Design confounds: was de gemanipuleerde variabelen wel het enige verschil tussen de twee groepen?
→ Maturation threat: Natuurlijke ontwikkeling plaatsvind bij de deelnemers van het experiment.
➔ History threat: externe gebeurtenis beïnvloed scores op de afhankelijke variabelen.
➔ Regression to the mean: groepen die al extreem scoren, kunnen niet nog extremer scoren.
➔ Observer bias: onderzoeker ‘wil graag’ dat het experiment werkt.
➔ Demand characteristics: ook de participanten ‘willen graag’ dat het experiment werkt.
➔ Placebo effect
➔ Het selectie-effect: groepen verschillen vóór het experiment al.
Interne validiteit: Design confounds
→ Design confounds: was de gemanipuleerde variabelen wel het enige verschil tussen de twee groepen?
Interne validiteit: Maturation threat
→ Maturation threat: Natuurlijke ontwikkeling plaatsvind bij de deelnemers van het experiment.
Interne validiteit: History threat
➔ History threat: externe gebeurtenis beïnvloed scores op de afhankelijke variabelen.
Interne validiteit: Regression to the mean
➔ Regression to the mean: groepen die al extreem scoren, kunnen niet nog extremer scoren.
Interne validiteit: Observer bias
➔ Observer bias: onderzoeker ‘wil graag’ dat het experiment werkt.
Interne validiteit: Demand characteristics
➔ Demand characteristics: ook de participanten ‘willen graag’ dat het experiment werkt.
Interne validiteit: Selectie effect
➔ Het selectie-effect: groepen verschillen vóór het experiment al
Verklaringen geen effect (3)
-Weak manipulations
Het kan zijn dat de interventie slecht wordt uitgevoerd
-Power problem
Het kan zijn dat er wel degelijk een effect is, maar er zijn te weinig participanten gebruikt om het effect te vinden
-No effect: daadwerkelijk geen effect
Types experimental designs (2)
-Klassiek/between subjects: experimentele en controlegroepen met een voormeting
-Within-subjects design: het verschil tussen een
voormeting en nameting
Types replicatie onderzoek (2)
➔ Directe replicatie: onderzoeksprotocol moet exact herhaald worden. Onderzoeksgroep moet
heel vergelijkbaar zijn.
➔ Conceptuele replicatie: aanpassingen in onderzoeksprotocol zijn toegestaan.
Falsifying door bias (2)
- Publication bias:
onderzoekers niet significante bevindingen bewust niet opschrijven om zo de kans te vergroten dat hun artikel gepubliceerd wordt. - Confirmation bias:
onderzoekers resultaten (on of bewust) negeren die niet in lijn zijn met hun verwachtingen.
(extra: Niet significante resultaten blijven dan ook vaak “in de la liggen”, dit noemen we het file-drawer probleem!)
Bayes factor geeft aan
De Bayes Factor geeft aan hoe goed hypothesen ten opzichte van elkaar bij de data passen en wordt berekend met de fit en specificiteit van de hypotheses
BF10=5 omrekenen naar 01:
1/ BF10
1/5 =0.2
Dus er is 5x zo veel meer ondersteuning voor alternatieve hypothese
PMK0 is
PMK 0 is de kans dat de nulhypothese waar is, gegeven de informatie in de data
Conditionele type 1 fout
Type l fout is: we verwerpen de nulhypothese terwijl dat fout is. Als de PMK0 = 0.8, dan kan je dat lezen als 80% kans dat hij waar is. Dus kiezen we dan toch voor H1, dan is er een kans dat we dan ten onrechte doen gelijk aan 0.8.
Conditionele type 2 fout
Conditionele type II fout
Type ll fout: we verwerpen de nulhypothese NIET, terwijl dat niet het goede antwoord is. Als PMK1 = 0.2 is, en we kiezen voor de H0, dan is er een kans dat we dat ten onrechte doen gelijk aan 0.2, of te wel 20% kans dat we fout zitten.
Stappen in Bayesiaanse Hypothese Evaluatie
Stap 1 Toetskeuze en hypotheses bepalen
Stap 2 Assumpties controleren (same as NHST)
Stap 3 Bayes Factor en PMKS bepalen
Stap 4 Conclusies trekken over je hypothesen
Stap 5 Inhoudelijke conclusies
Kanskapitalisatie
Hoe meer hypotheses, hoe meer kans op een Type l fout (ergens verwerp je een keer de
nulhypothese terwijl dit dan niet goed is) > vandaar derde groep bij ANOVA
Hoe heet onafhankelijke variabele in ANOVA?
Factor (= onafhankelijke variabele). Bij enkelvoudige ANOVA 1 factor, bij meervoudige meerdere.
Hoe ziet een hypothese er uit bij ANOVA?
H0: µDI = µEI = µC (µ is populatie gemiddelde)
H1: minimaal 1 van de gemiddelden is anders
De ANOVA kan al een significant resultaat geven als één van die gemiddelden anders is dan de andere gemiddelden.
Bij toetsinggrootheid f-waarde wordt de mean square van spreiding binnen de groepen gedeeld door de mean square van spreiding tussen de groepen. Hoe heet dit in de ANOVA tabel?
Conditie: tussen groepen
Residual: binnen groepen
Effectgrootte bij ANOVA (η^2 spreek uit eta squared)
η^2 = 0.01 is klein effect
η^2 = 0.09 is medium effect
η^2 = 0.25 is groot effect
Wat is een post hoc toets?
Wanneer we een significant resultaat vinden in de ANOVA mogen we een post hoc toets uitvoeren om de groepsgemiddelden twee aan twee te vergelijken.
Informatieve hypotheses als stap na bayesiaanse hypothesetoets (2)
-Unconstrained hypothese: een hypothese waar de gemiddelden in een willekeurige volgorde staan (niet specifiek)
-Complement hypothese: een hypothese waar alle niet genoemde/gespecifieerde hypotheses worden genoemd