thema 1 Flashcards
experimenteren:
de enige manier om causaliteit te toetsen, is nodig om validiteitsbedreigers onder controle te houden.
Experimenteren kunnen we omschrijven als een gecontroleerde methode van waarnemen waarbij de waarde van een of meer onafhankelijke variabelen/de predictor (bijvoorbeeld informatieverschaffing) door de onderzoeker worden gemanipuleerd (het al dan niet laten zien van een voorlichtingsfilm) met het oogmerk het oorzakelijke of causale effect daarvan vast te stellen op één of meer afhankelijke variabelen (bijvoorbeeld het rook-, eet-, werk- of rijgedrag). Experimenteren verwijst niet zozeer naar een plaats waar experimenten plaatsvinden zoals een laboratorium, werkplaats of veld, maar naar de logica van de daarbij gehanteerde procedure.
Bij experimenteel onderzoek gaat het om een door de onderzoeker gecreëerde situatie, die een min of meer kunstmatig karakter heeft. Daarin heeft de onderzoeker controle over wie er deelnemen aan het experiment, wat er precies gebeurt tijdens het experiment en onder welke omstandigheden dat gebeurt. De onderzoeker manipuleert de onafhankelijke variabele (informatieverschaffing), ook wel de experimentele of oorzaakvariabele genoemd, door een bepaalde categorie mensen bloot te stellen aan een experimentele stimulus of experimentele ingreep (de voorlichtingsfilm) en een andere categorie mensen daar niet aan bloot te stellen. Door deze manipulatie kan de onderzoeker nagaan of en zo ja, in welke mate de onafhankelijke variabele (het beoogde) effect heeft op de afhankelijke variabele: het gedrag of houdingen van de deelnemers (rook-, eet-, werk- of rijgedrag). Hij kan vaststellen of er een causaal verband is tussen de onafhankelijke en afhankelijke variabele.
causaliteit
Het begrip ‘causaliteit’ speelt dus een belangrijke rol bij experimenteel onderzoek en krijgt in de cursus veel aandacht.
Strikt genomen moet er aan drie voorwaarden worden voldaan om te kunnen spreken van een causale relatie:
1 Er moet een statistisch significant verband zijn tussen de onafhankelijke variabele/predictor en de afhankelijke variabele. Betekent in het algemeen dat de samenhang waarschijnlijk ongelijk is aan 0. Zo een resultaat zegt niets over de grootte van het verband en dus ook niet over het belang/relevantie van het verband.
2 De predictor moet in de tijd voorafgaan aan de meting van de afhankelijke variabele.
3 De relatie tussen de predictor en de afhankelijke variabele wordt niet veroorzaakt door een derde, mogelijk onbekende, variabele. (randomisatie helpt hierbij)
Bekende storende variabelen kunnen eventueel worden gemeten en statistisch onder controle worden gehouden door deze variabele als covariaat in de analyse te betrekken. Bij een zuiver experiment kan men daarom vrij zeker zijn dat aan voorwaarde 3 is voldaan.
het zuivere experiment
Een geschikte methode van dataverzameling om causale relaties te onderzoeken is een zuiver experiment. In een experiment kunnen we voorwaarde 1 toetsen via een statistische toets. De opzet van een experiment is zo dat de manipulaties die leiden tot de condities van het experiment (die de waarden van een predictor voorstellen) voorafgaan aan het meten van de afhankelijke variabele, waarmee aan voorwaarde 2 wordt voldaan. Door de subjecten willekeurig aan de condities toe te delen (randomisatie) wordt geprobeerd de invloed van onbekende variabelen te reduceren. Bekende storende variabelen kunnen eventueel worden gemeten en statistisch onder controle worden gehouden door deze variabelen als covariaat in de analyse te betrekken. Bij een goed uitgevoerd zuiver experiment kan men daarom vrij zeker zijn dat ook aan voorwaarde 3 is voldaan.
ethiek minimized harm
Ethische richtlijnen bij het doen van onderzoek zijn opgesteld om psychologen te doen realiseren dat zij de plicht hebben om de rechten en waardigheid van de deelnemers aan hun onderzoek te respecteren en te bewaken. Sommige richtlijnen zijn vastgelegd in wetgeving, terwijl de meeste richtlijnen een groot grijs gebied kennen waar per situatie een oordeel zal moeten worden gevormd. In het geval van experimenteel onderzoek zijn er een aantal ethische kwesties die met name van belang zijn. De belangrijkste overkoepelende richtlijn is dat onderzoek zo moet zijn opgesteld dat het de proefpersoon zo min mogelijk belast, ook wel het principe van minimized harm genoemd. Het is soms erg lastig om de juiste ethische afweging te maken, en er zijn geen gouden regels om vast te stellen of de kosten van onderzoek in termen van belasting opwegen tegen de baten ervan. Om dit soort vragen te toetsen is het daarom vereist dat onderzoekers zo veel mogelijk hun onderzoek vooraf laten toetsen door een ethische commissie.
informed consent
Deze combinatie van informatie verstrekken en toestemming vragen heet informed consent. Wanneer de deelnemer een handeling moet verrichten om toestemming te verlenen, zoals het ondertekenen van een informed consent-formulier dan heet dit active informed consent. Wanneer de deelnemer een handeling moet verrichten om niet deel te nemen aan een onderzoek dan heet dit passive informed consent; in wezen een vorm van ‘wie zwijgt, stemt toe’. Een voorbeeld van passive informed consent kan bijvoorbeeld een situatie zijn waarbij een deelnemer een vragenlijst krijgt waar de eerste bladzijde informatie geeft over het hoe en waarom van de vragenlijst. Verwacht kan worden dat als de deelnemer niet mee wil doen, de deelnemer de vragenlijst gewoon niet invult. Het invullen van de vragenlijst kan dan worden beschouwd als een vorm van passive consent. Een voorbeeld van active informed consent is wanneer ouders een brief van school krijgen waarin wordt toegelicht dat er in de klas een vragenlijst aan hun kinderen worden uitgedeeld. Als de deelname van het kind alleen kan plaatsvinden na expliciete toestemming van de ouders, bijvoorbeeld door een handtekening te zetten op een formulier voor deelname, dan is er sprake van active consent.
Consent kan slechts informed zijn wanneer deelnemers geïnformeerd zijn over de volgende zaken.
Vrijwillige deelname en dat het weigeren van deelname geen negatieve consequenties met zich meedraagt.
Recht op deelname beëindigen op ieder moment deelname aan het onderzoek te staken, toegelicht wat er gebeurt met eventuele verzamelde gegevens tot het punt van stoppen.
Doel van onderzoek: waar mogelijk
Onderzoeksprocedure: gaat de deelnemer alleen vragenlijsten invullen na het lezen van krantenartikelen, of moet de deelnemer tussendoor ook nog puzzels maken?
Alle voorzienbare risico’s en ongemakken die de deelnemers kunnen treffen moeten vooraf bekend zijn. Dit hoeft niet alleen betrekking te hebben op lichamelijke ongemakken (bijvoorbeeld, injecties, afname van speeksel, of elektrische schokken), maar ook psychologische (bijvoorbeeld het zien van schokkend of pornografisch materiaal).
Maatschappelijk nut van onderzoek maar kan ook een nut zijn voor de deelnemers zelf.
De duur van de belasting van het onderzoek moet vooraf bekend zijn. Gaat de deelnemer een uur lang ononderbroken computertaken uitvoeren, of wordt van de deelnemer verwacht dat er over de periode van een half jaar iedere week een volledige dag in het ziekenhuis onderzoek wordt verricht? Dit alles moet zo helder mogelijk worden gecommuniceerd.
Contactinformatie van de persoon die benaderd kan worden voor eventuele vragen of in het geval van letsel of noodgevallen.
Anonimiteit: het moet voor de deelnemers absoluut helder zijn hoe hun gegevens worden verwerkt. Dit hoeft niet in detail, maar de deelnemer moeten weten of hun gegevens anoniem worden verwerkt, en zo ja, hoe? Worden codes toegewezen? Als er persoonsgegevens worden gekoppeld aan het onderzoek, hoe wordt anonimiteit vervolgens afgehandeld?
Debriefing
Na afloop van het onderzoek is het ethisch om de deelnemers de gelegenheid te geven om de onderzoeksprocedure te kunnen bespreken of vragen te stellen. Deelnemers moeten een algemeen idee krijgen van wat de onderzoeker wilde weten en waarom en wat hun aandeel in het onderzoek was. Als zij in een van meerdere onderzoekscondities waren ingedeeld, zoals de controlegroep, dan is de debriefing het moment waarop de deelnemer dit verneemt. Als de deelnemer voorgelogen moest worden over de aard van het onderzoek dan geeft de onderzoeker in de debriefing openheid van zaken en legt de deelnemer ook de redenen voor die deceptie uit. Eventuele vragen van deelnemers moeten zo openlijk en eerlijk mogelijk beantwoord worden.
Een ethische debriefing laat niet te lang op zich wachten, deze dient zo snel mogelijk plaats te vinden. Ook moet de onderzoeker zo goed als redelijkerwijs mogelijk is zorgen dat de deelnemers de debriefing kunnen begrijpen.
Het doel van de debriefing is het wegnemen van misconcepties of onzekerheden die deelnemers kunnen hebben over het onderzoek. Een goede debriefing laat de deelnemers achter met het gevoel dat hun tijd niet verspild is. Het doel van de debriefing is niet slechts het informeren van de deelnemer, maar om de deelnemer de experimentele situatie te doen verlaten in een vergelijkbare stemming met hoe ze het experiment binnenkwamen.
bedrog
In de regel is het ongeoorloofd om deelnemers te bedriegen, tenzij de onderzoeker aannemelijk kan maken dat dit noodzakelijk is. Hoewel er geen harde regels zijn, is de algemene richtlijn dat wanneer deelnemers hoogstwaarschijnlijk aanstoot zouden nemen aan het bedrog of hoogstwaarschijnlijk geëmotioneerd gaan raken na debriefing dan is er sprake van onacceptabel bedrog.
De drie bekendste vormen hiervan zijn:
1 Het gebruik van handlangersconfederaties:
de onderzoeker kan acteurs of onderzoeksassistenten inzetten die zich voordoen als respondenten. Een bekend voorbeeld hiervan betreft het onderzoek van Asch naar het Asch-effect. Asch liet proefpersonen lijnstukken van verschillende lengte beoordelen. De proefpersonen dachten dat ze in een groep van zeven proefpersonen samenwerkten. De handlangers waren geïnstrueerd om expres overduidelijk foute antwoorden te geven, zodat de onderzoeker kon zien of de proefpersoon zich liet verleiden om met de meerderheid mee te gaan.
2 Staged manipulations in field settings: de omstandigheden waarin de proefpersoon zich bevindt, kunnen gemanipuleerd worden, om zo een effect op de proefpersoon te hebben. Zo kunnen proefpersonen bijvoorbeeld na het maken van een eenvoudige puzzeltaak gefingeerde negatieve terugkoppelingen van hun prestaties krijgen om zo een laag gevoel van zelfvertrouwen te induceren. In sociaalpsychologisch onderzoek wordt wel eens gefingeerd dat proefpersonen met andere deelnemers gaan samenwerken door op het computerscherm een nepcode te vertonen die de illusie moet wekken dat er een connectie met andere computers wordt gelegd.
3 Misleidende instructies: de aard van het onderzoek kan van meet af aan misleidend worden voorgesteld. Een van de bekendste voorbeelden hiervan betreft het Milgram-experiment. Milgram vertelde de respondenten dat ze meededen aan een experiment naar een nieuwe leermethode middels het toedienen van elektrische schokken bij foute antwoorden. Als onderdeel van de instructie werden de deelnemers zelf blootgesteld aan een kleine schok van 45 volt, zodat zij konden voelen wat voor straf ze zelf later zouden gaan uitdelen. In werkelijkheid werden er geen schokken toegediend en ging het onderzoek over de bereidheid van de deelnemers om gehoor te geven aan opgedragen taken van een gezaghebbende ook als die strijdig waren met hun eigen geweten.
het schrijven van een procedure in een methodensectie
De proceduresectie in een experimenteel onderzoek is vaak vele malen uitgebreider dan die in niet-experimentele onderzoeken. Waar de schrijver de lezers informeert over ethische aspecten van de experimentele manipulatie. De proceduresectie moet enerzijds bondig zijn geschreven, maar tegelijkertijd voldoende gedetailleerd zodat andere onderzoekers het experiment na zouden kunnen doen. Daartoe dient de informatie logisch geordend te zijn en voldoende structuurwoorden bevatten. Het is de kunst om de balans te vinden tussen een overdaad aan detail en een tekortschieten in detaillering; doel is dat de lezer goed kan volgen hoe het experiment is gedaan.
De volgende informatie dient in een goede proceduresectie te staan.
Als er niet al eerder in de methodensectie een aparte subkop design was, dan kan het experimentele design in de procedureparagraaf besproken worden.
Een samenvatting van de instructies die proefpersonen ontvangen hebben. Dit is bij voorkeur niet een volledig transcript; als dit van belang is dan kan naar een appendix worden verwezen. Hier komt ook de informatie over de informed consent.
Een beschrijving van de specifieke experimentele manipulaties. Hoe zijn de onafhankelijke variabelen in experimentele scenario’s geoperationaliseerd en hoe zijn de proefpersonen hieraan blootgesteld?
Als er eventuele counterbalancing of andere methoden van experimentele controle is toegepast dan wordt dit ook in de proceduresectie toegelicht.
Duur van het experiment.
Eventuele beloningen voor het participeren in het onderzoek.
validiteit vs betrouwbaarheid
Betrouwbaarheid en validiteit zijn twee van elkaar losstaande concepten. Betrouwbaarheid is synoniem aan ruis of error. Alle inconsistenties die in onze metingen ontstaan om puur willekeurige redenen, zijn problemen van betrouwbaarheid. Wanneer er systematische redenen zijn waarom metingen van elkaar afwijken dan spreken we van bias, en dit is een kwestie van validiteit: meten we wel wat we willen meten? Als men spreekt over betrouwbaarheid dan vraagt men zich af in hoeverre metingen vrij zijn van error. Als men spreekt over validiteit dan vraagt men zich af in hoeverre het onderzoek vrij is van bias. Betrouwbaarheid is een statistisch probleem, validiteit is meer een filosofisch probleem. Bij betrouwbaarheid poogt men te kwantificeren in welke mate de meetinstrumenten tot consistente resultaten leiden. Het is mogelijk om met statistische informatie bewijs te vergaren die helpt bepalen of onderzoek valide is, maar uiteindelijk blijft het gis- en denkwerk. Validiteit komt in veel smaakjes. In het kader van experimenten behandelen wij in deze module in het bijzonder twee categorieën van validiteit: interne en externe validiteit.
interne validiteit
De interne validiteit betreft de vraag of er voldoende bewijs is dat X veranderingen op Y veroorzaakt, met andere woorden: of de causale relatie tussen twee variabelen voldoende is aangetoond. Een causale inferentie kan enkel bestaan wanneer aan drie condities is voldaan:
1De oorzaak doet zich voor voorafgaand aan het effect (tijdsvolgorde, of temporeel precedent).
2De oorzaak en het gevolg zijn aan elkaar gerelateerd (covariatie).
3Er zijn geen plausibele alternatieve verklaringen voor de geobserveerde covariatie (geen schijnverband).
In experimentele proefopzetten proberen onderzoekers deze drie randvoorwaarden voor causale inferenties veilig te stellen door zo veel mogelijk verstorende factoren onder controle te houden en puur de experimentele (onafhankelijke) variabele te manipuleren om zo te zien wat het effect ervan is op een afhankelijke variabele. Wanneer een onderzoeker erin slaagt om de manipulatie zo goed te isoleren dat andere verklaringen of rivaliserende hypothesen worden uitgesloten dan wordt gesteld dat de causale inferentie intern valide is.
externe validiteit
Externe validiteit betreft de vraag in hoeverre resultaten uit onderzoek gegeneraliseerd kunnen worden naar de doelpopulatie. Eigenlijk betreft dit twee soorten van generaliseerbaarheid:
*de mate waarin situaties in het experiment gegeneraliseerd kunnen worden naar real-life situaties: de generaliseerbaarheid tussen situaties. Dit wordt ook wel de ecologische validiteit genoemd.
*de mate waarin de mensen die aan het onderzoek hebben deelgenomen een weergave zijn van de doelpopulatie in het algemeen: de generaliseerbaarheid tussen mensen.
Het is van belang om te benadrukken dat het generaliseren naar de populatie niet betekent dat er gegeneraliseerd moet kunnen worden naar andere populaties, of de mensheid in het algemeen. Als onderzoekers willen weten hoe ADHD-patiënten reageren op een behandeling dan is het vraagstuk van de externe validiteit alleen gericht op de vraag of de onderzoeksresultaten generaliseren naar ADHD-patiënten,
ecologische validiteit
Ecologische validiteit kan wel eens verkeerd begrepen worden omdat deze te letterlijk wordt geïnterpreteerd. Experimenteel onderzoek is altijd op een of andere manier onrealistisch. Ecologische validiteit is niet synoniem aan realisme. Er zijn meerdere wijzen waarop een experiment ecologisch valide kan zijn. Vaak als men het over een realistisch experiment heeft dan bedoelt men: psychologisch realistisch, oftewel de mate waarin psychologische processen die door het experiment worden opgeroepen vergelijkbaar zijn met hoe deze psychologische processen worden opgeroepen in het dagelijks leven.
bedreigers van interne validiteit
1 Tussentijds extern voorval (history)
specifieke gebeurtenissen die plaatsvinden tussen de eerste en de tweede meting.
Bijv nieuws wat effect heeft op het gedrag of de attitude van proefpersonen.
2 Rijping of groei (maturation) veranderingen die binnen proefpersonen optreden door het verloop van tijd (bijv verlies concentratie of puberteit).
3 Testeffect
de effecten die de voormeting heeft op de uitkomsten van de daaropvolgende testen daarom vaak zonder voormeting of groepen toevoegen die geen voormeting hebben gehad om te vergelijken.
4 Instrumentatie
veranderingen in meetinstrumentaria of beoordelaars die veranderingen in onderzoeksresultaten in gang zetten. Soms is het onvermijdelijk om van meetinstrument te veranderen. Als een onderzoeker de intelligentie van kinderen wil meten gedurende hun basisschoolcarrière, dan kan de onderzoeker niet steeds dezelfde test afnemen, omdat de test in de vroegste basisschoolgroep te eenvoudig is geworden zodra deze in de laatste basisschoolgroep komen. Ongeacht de reden: zodra de meetinstrumenten of de beoordelingscriteria veranderen, dan is de interne validiteit bedreigd. Een van de mogelijke oplossingen is het toepassen van een retrospectieve voormeting. In plaats van een echte voormeting worden proefpersonen gevraagd naar hun begrip of vaardigheid voorafgaand aan de treatment, na afloop van het onderzoek.
5 Statistische regressie (regression to the mean)
geen statistische toets maar extreme proefpersoon kenmerken bij voormeting die natuurlijk terugzakken/-groeien naar een minder extreem niveau.
Je zoekt vaak pas hulp bij ernstige klachten dus vanaf daar zal het sowieso beter gaan ook zonder de behandeling.
6 Selectie (selection bias)
de vergeleken condities zijn niet vergelijkbaar door verschillende steekproefkenmerken op voor het onderzoek relevantie eigenschappen. Structurele afwijkingen voorafgaand aan het onderzoek die interacteren met de onafhankelijke variabele en daardoor verantwoordelijk kunnen zijn voor verschillen in de afhankelijke variabele.
7 Uitval (experimental mortality)
proefpersonen die niet meer meewerken aan latere metingen in het experiment om redenen die relevant kunnen zijn voor de steekproefkenmerken van het experiment. Er is sprake van een validiteitsbedreiging door uitval wanneer conclusies worden getrokken op basis van de ‘overlevers’ in een dataset.
Hoewel uitval soms willekeurig is, kan een grote uitval ook een structurele reden hebben. In een onderzoek naar majeure depressie kan het zijn dat de proefpersonen met de zwaarste depressie hun medewerking aan het onderzoek staken omdat ze de energie er niet meer voor kunnen opbrengen. Resultaten uit het onderzoek worden vervolgens gebaseerd op proefpersonen met relatief minder ernstige depressie, waardoor de resultaten van het onderzoek niet meer duidelijk zijn toe te schrijven aan de experimentele behandeling. Onderzoek naar controversiële onderwerpen kan ook tot het gevolg hebben dat proefpersonen uitvallen. Bijvoorbeeld een vooringenomen vragenlijst naar negatieve stereotypen over buitenlandse leerlingen uitgezet onder docenten kan ertoe leiden dat sommige docenten zich geschoffeerd voelen en weigeren dit onderdeel van de vragenlijst in te vullen.
Soms heeft de uitval structurele gevolgen voor het onderzoek zelf. Bijvoorbeeld in een onderzoek naar een programma dat mensen moet helpen stoppen met roken kan het zijn dan meer dan de helft van de proefpersonen het programma niet afrondt, omdat ze voor de afronding al gestopt waren met roken. Uitval wordt een bedreiger van validiteit zodra de uitval toe te schrijven is aan een systematisch kenmerk van het onderzoek zelf, het toedienen van de treatment, of de aard van de meetinstrumenten.
8 Interactie tussen bedreigers
een combinatie van bedreigers die elkaar versterken bv selectie en groei.
9 Verspreiding van de ingreep
informatie/uitleg in de ene conditie wordt ook bekend onder deelnemers in de andere conditie.
Bij een experiment krijgt in de regel de experimentele groep een experimentele stimulus of treatment en de controlegroep niet. Echter een (quasi-)experimenteel ontwerp is op zichzelf geen garantie dat de desbetreffende groepen daadwerkelijk de ingreep respectievelijk wel en niet ontvangen. Informatie over de ingreep of (onderdelen van) de experimentele ingreep kunnen zelfs worden doorgegeven naar de controlegroep. Deelnemers in de onderscheiden condities van een experiment kunnen met elkaar praten over het experiment, hun ervaringen uitwisselen en dergelijke.
10 Compenserende rivaliteit
de deelnemers in verschillende onderzoekcondities gaan in competitie met deelnemers in de andere condities. Ook bekend als het John Henry-effect (John Henry was een arbeider die beter dan een machine ging presteren in een experiment, omdat hij zich ervan bewust was dat zijn prestaties met die van de machine vergeleken gingen worden).
Of de storende factor ‘compenserende rivaliteit’ al dan niet optreedt, is afhankelijk van de mate waarin het bekend is aan alle deelnemers in de onderscheiden condities dat er bij de experimentele condities een ingreep plaatsvindt en wat de aard van de ingreep is. Afhankelijk van de wijze waarop de ingreep wordt geïnterpreteerd kan er rivaliteit en concurrentie ontstaan tussen de deelnemers in de verschillende condities.
Als het duidelijk is dat van de deelnemers in de controlegroep wordt verwacht dat zij het iets minder ‘goed’ doen dan de experimentele groep, bestaat de mogelijkheid dat zij extra hun best gaan doen om daarmee de voorspelling van de onderzoekers te falsifiëren. Dit is vooral het geval als er banen of subsidie op het spel staan. Dit effect kan ook gemakkelijk optreden wanneer bijvoorbeeld een nieuwe of een andere onderwijsmethode of methode van hulpverlening wordt ingevoerd en onderzoek wordt gedaan waarmee de effectiviteit van de nieuwe methode moet worden aangetoond.
bedreigers externe validiteit
11 Interactie voormeting en experimentele stimulus.
Het probleem van een voormeting is niet alleen een probleem van interne validiteit. Bij de interne validiteit was het probleempunt dat proefpersonen kunnen leren van de voormeting.
Er is ook een ander probleem met voormeten: mensen worden in de werkelijke wereld niet gemeten voordat ze natuurlijk gedrag vertonen. Wanneer mensen een experimentele stimulus krijgen toegediend en voorafgaand daaraan zijn gemeten dan zijn deze mensen niet meer een realistische weergave van de doelpopulatie. We generaliseren immers mensen-die-een-voormeting-hebben gehad naar mensen die in hun dagelijks doen en laten geen voormeting bij hun ontbijt hebben gehad.
Of dit interactie-effect een bedreiging vormt voor de generaliseerbaarheid van de resultaten van een experiment hangt af van de specifieke variabelen die bij het onderzoek worden betrokken en vooral de manier waarop die worden gemeten. Omdat het onderzoek zelf van invloed is op hetgeen wordt onderzocht, is er sprake van reactiviteit. Bij het afnemen van een vragenlijst over motivatie voor het volgen van een cursus zal er eerder sprake zijn van reactieve effecten van de voormeting, dan bijvoorbeeld bij het observeren van het gedrag van mensen zonder dat zij zich daarvan bewust zijn.
De voormeting creëert een situatie die zich buiten het experiment niet voor zou doen; bijvoorbeeld de voormeting maakt mensen meer bewust van waarnaar ze worden gevraagd.
Om reactiviteit te voorkomen kan de onderzoeker de voormeting weglaten, kiezen voor een retrospectieve voormeting, of ervoor kiezen om proefpersonen te misleiden: als proefpersonen niet weten dat ze worden onderzocht, of zich niet realiseren dat ze een experimentele stimulus hebben ontvangen, dan kunnen zij zich ook niet bewust zijn van het bestaan van een controlegroep.
12 Niet-representatieve steekproeven
Selectie van proefpersonen wijkt af van de populatie waar het effect in plaats zou moeten vinden.
Representativiteit houdt in dat de steekproef wat betreft belangrijke kenmerken (bijvoorbeeld leeftijd, geslacht, opleidingsniveau) een goede afspiegeling vormt van de populatie. Om te kunnen concluderen of een steekproef representatief is, zal de onderzoeker de samenstelling van de populatie moeten kennen. Als een experiment bij bepaalde personen, op een bepaalde plaats, op een bepaald tijdstip en onder bepaalde omstandigheden heeft plaatsgevonden, blijft het de vraag of de resultaten van een dergelijk experiment zonder meer gegeneraliseerd kunnen worden naar andere plaatsen, andere tijdstippen en andere omstandigheden. Als dat wel mogelijk is, zijn de resultaten extern valide. Veel psychologisch onderzoek is verricht met studenten als proefpersonen. Volgens veel psychologen zijn de psychische functies of de sociale mechanismen die onderzocht worden zo algemeen van aard dat ze niet samenhangen met de variabelen waarop de selectie van proefpersonen afwijkt van welke populatie van volwassenen of kinderen dan ook. Strikt genomen is dat echter alleen proefondervindelijk vast te stellen.
13 Reactieve experimentele locatie
De proefleider, of kennis van de experimentele toewijzing maakt dat proefpersonen zich anders gedragen, vaak in lijn met wat proefpersonen denken wat van hen verwacht wordt.
Naast het reactieve effect van de voormeting kan ook de experimentele omgeving of locatie en daarin vooral degene die het experiment leidt, de proefleider, een reactief effect hebben. Het blijkt namelijk dat proefpersonen in experimenten zich in de regel zeer coöperatief opstellen jegens de proefleider en het hem of haar naar de zin willen maken. Het blijkt dat verwachtingen die proefleiders zelf hebben over de resultaten van het experiment soms een aantoonbaar effect hebben op die resultaten, ook wel experimenter bias genoemd. Proefleiders kunnen, bewust of onbewust, op heel subtiele wijze signalen uitzenden naar hun proefpersonen waardoor die zich gaan gedragen zoals ze denken dat de proefleider van hun verwacht. Het is ook mogelijk dat proefleiders op grond van hun ideeën over de uitkomsten van het experiment, bepaalde reacties of gedragingen die in strijd zijn daarmee, niet opmerken of signaleren. Dat is een vorm van selectieve perceptie.
Experimenter bias is lastig te kwalificeren als een bedreiger van interne of externe validiteit. Het hoort eigenlijk een beetje thuis in beide lijsten van bedreigingen. De redenen om het bij externe validiteit te plaatsen zijn bijzonder subtiel verschillend van de redenen om het bij de interne validiteit te plaatsen. Waarom experimenter bias toch als een bedreiging van externe validiteit wordt genoemd is dat de aanwezige proefleider een bijzondere omgeving schept met de eigen aanwezigheid en eigen biases. Dezelfde groep personen met dezelfde experimentele manipulaties zouden zich bij een andere proefleider anders gedragen. Omdat dit heel dicht aanschuurt tegen het concept van de ecologische validiteit wordt experimenter bias ingedeeld bij de externe validiteitsbedreigers. Consensus hierover ontbreekt. In sommige boeken staat het alleen bij de interne validiteit, en in een klein aantal andere boeken staat experimenter bias in beide lijsten.
Reactieve experimentele locatie kan voorkomen worden door te voorkomen dat proefpersonen weten in welke experimentele conditie zij zitten (zoals het niet weten of men een placebo ontvangt of niet), of door te voorkomen dat de proefleider weet in welke condities proefpersonen zijn ingedeeld. Het eerste zou dan een blind experiment heten, en wanneer proefpersonen en proefleider blind zijn: een dubbelblind experiment.
een zuiver experiment versus een quasi experiment
Het gros van psychologisch onderzoek betreft de ‘waarom’-vraag: waarom doet een bepaald fenomeen zich voor? Onderzoekers hebben theorieën over onderliggende mechanismen die de werkelijke veroorzakers zijn van het te onderzoeken fenomeen in kwestie. Zo’n theorie is bijvoorbeeld dat een studietaak leuk vinden alleen kan plaatsvinden als studenten zichzelf competent achten tot die studietaak. Het probleem in observaties is dat we wel kunnen zien dat B na A komt (interesse na competentiebeleving), maar we niet zondermeer weten dat A tot B heeft geleid (is het daadwerkelijk de competentiebeleving die eerst moet optreden?).
De enige manier om de causaliteit vast te stellen is om een experiment uit te voeren. Experimenten dienen er over het algemeen toe om ons te vertellen hoe verschillende observaties en uitkomsten aan elkaar gerelateerd zijn. Om preciezer te zijn, het doel van experimenten is om causale relaties empirisch te observeren en evalueren.
Alle typen experimenten hebben met elkaar gemeen dat condities of procedures onder strenge controle worden gehouden of gemanipuleerd. Deze controles of manipulaties worden treatments genoemd. Er zijn grofweg twee families van experimenten, zuivere experimenten en quasi-experimenten en twee families van designs, tussenproefpersonendesigns en binnenproefpersonendesigns.
In een zuiver experiment wordt randomisatie toegepast om proefpersonen aan experimentele condities of manipulaties toe te wijzen. In quasi-experimentele experimenten niet. Op papier is dit verschil soms duidelijker dan in de realiteit. De kern van de randomisatie is dat iedere eenheid die geobserveerd wordt, meestal de proefpersoon, in het experiment evenveel kans moet hebben gehad om in een van de experimentele condities terecht te komen. Als een onderzoeker wil weten of meer uren studeren zich vertaalt in betere cijfers en daartoe slechts proefpersonen werft in de eigen familie dan is de steekproef wellicht ongelukkig gekozen, maar als die proefpersonen nog steeds random aan condities worden toegewezen betreft het nog steeds een zuiver experiment. Van belang is dus niet hoe proefpersonen in de steekproef terecht zijn gekomen, maar hoe ze in hun experimentele conditie terecht zijn gekomen.
Randomisatie zou de grote gelijkmaker moeten zijn die zuivere experimenten hun verklarende kracht geven. Hoewel randomisatie niet garandeert dat iedereen hetzelfde is in alle experimentele condities, maar zolang iedere persoon evenveel kans heeft om in alle condities terecht te komen zou de randomverdeling redelijk in de buurt moeten komen van het gelijk spreiden van proefpersooneigenschappen die de causale inferentie zouden kunnen verstoren.
In een quasi-experimenteel experiment wordt geobserveerd en gemanipuleerd in zogenaamde bestaande groepen. Er wordt niet gerandomiseerd. Een voorbeeld van een quasi-experiment is wanneer een onderzoeker een nieuwe lesmethode wil toetsen en een school onderzoekt waar de onderwijsvernieuwing plaatsvindt, en deze school vergelijkt met een school die in vrijwel alle opzichten (aantal leerlingen, pedagogische visie) lijkt op de experimentele school, maar waar de onderwijsvernieuwing niet plaatsvindt. De leerlingen zitten niet random op de ene of de andere school, en vervelender, er zijn waarschijnlijk structurele redenen waarom leerlingen op de ene school zitten en niet op de andere. Dit maakt quasi-experimentele designs iets zwakker dan zuivere experimenten. Bij zuivere experimenten hield de randomisatie de structurele verschillen tussen proefpersoonkenmerken onder controle. Bij quasi-experimenten is dit niet onder controle, en rest ons alleen nog om deze problematiek statistisch onder controle te krijgen. Onderzoekers kunnen variabelen meenemen in hun onderzoek waarvan ze een theoretisch onderbouwd vermoeden hebben dat dit verstorende achtergrondkenmerken kunnen zijn. De variabelen worden covariaten genoemd, en kunnen in specifieke statistische analyses gebruikt worden om proefpersonen op die variabelen ‘gelijk te trekken’, in de hoop de kracht van randomisatie te benaderen.
between subjects design
in het Nederlands tussenproefpersonendesigns genoemd, betreffen studies waar iedere proefpersoon aan slecht een enkele experimentele conditie wordt blootgesteld. Hierdoor ontstaan groepen van proefpersonen die als groepen vergeleken kunnen worden. In een medisch onderzoek kunnen proefpersonen bijvoorbeeld worden toegewezen aan de treatment-conditie waarin een nieuw medicijn wordt toegediend, of aan de controleconditie waarin een placebo wordt toegediend. (Een placebo is een stof zonder pharmacologisch voordeel dat als een pseudomedicijn aan een controlegroep wordt toegediend).
within subjects design
in het Nederlands binnenproefpersonendesigns genoemd, worden alle proefpersonen juist aan alle experimentele en controlecondities blootgesteld. Als in een sociaalpsychologisch onderzoek de onderzoeker wil weten of mensen meer lachen wanneer ze pizza eten of hutspot kan de onderzoeker de proefpersonen eerst gezamenlijk pizza te eten geven, tellen hoe vaak eenieder lacht, en dezelfde proefpersonen vervolgens hutspot serveren om wederom te tellen hoe vaak gelachen wordt. Omdat bij binnenproefpersonendesigns de reacties van proefpersonen wordt gemeten na het toedienen van ieder treatment wordt er ook wel van repeated-measures designs gesproken (herhaalde-metingendesigns). Het probleem van binnenproefpersonendesigns kan zijn dat er volgorde-effecten optreden. Misschien vindt de onderzoeker dat mensen minder lachen bij het eten van hutspot, maar dat kan wellicht komen omdat ze dan al vol zijn van de pizza. In binnenproefpersonendesigns wordt in sommige gevallen de volgorde waar condities in worden aangeboden gevarieerd, zodat er bijvoorbeeld niet alleen respondenten zijn die eerst pizza eten en dan hutspot, maar dat er ook een groep eerst hutspot eet en dan pas pizza. Deze vorm van controle wordt dan counterbalancing genoemd.
Het is uiteraard ook mogelijk om een mix te hebben van tussen- en binnenproefpersonendesigns, bijvoorbeeld wanneer in een klinisch onderzoek twee groepen patienten op drie verschillende tijdstippen hun vorderingen worden gemeten. Deze designs heten dan mixed-designs.
controle groep/Mill’s method
exp groep als x dan y
contr groep als -x dan -y
Onderzoekers die willen toetsen of een dagje op de stormbaan werknemers tot een team smeedt, kunnen niet volstaan met een randomgroep mensen op de stormbaan zetten en dan observeren hoe ze als team vooruit zijn gegaan. Uiteindelijk zal iemand toch de vraag hebben of werknemers een dag in de bus zetten op weg naar de stormbaan, zelfs als dit effectief blijkt, beter is dan de werknemers met rust laten en de samenwerking zijn natuurlijke beloop laten gaan. Zulke controles zijn populair gemaakt door de filosoof John Stuart Mill, en het concept van de controlegroep is sinds zijn werken ook wel de Mill’s methode gaan heten. Het concept van de controle is namelijk een concept van logische bewijsvoering. Het is namelijk niet voldoende dat een experiment kan aantonen dat als men gaat stormbaanrennen dat er dan meer teamgevoel ontstaat, maar een experiment moet ook kunnen aantonen dat als men niet gaat stormbaanrennen dat er dan niet meer teamgevoel ontstaat.
Mill vatte de eisen samen in de taal van logica, en stelde dat experimenten twee vormen van bewijs moesten leveren.
De eerste, method of agreement, stelt dat een experiment allereerst moet aantonen dat als X zich voordoet, Y zich ook voordoet. Dit betekent dat als er minstens twee situaties zijn waarin Y zich voordoet, en X is in ieder van die gevallen aanwezig, dan is X een sufficient condition voor Y. In andere woorden, X is dan voldoende om het effect in Y in gang te zetten.
Als tweede stelde Mill middels de method of difference dat als X zich niet voordoet (-X) dat Y zich dan ook niet voor dient te doen (-Y). Dit betekent dat als het vermoede effect Y afwezig is als het vermoede effect X afwezig is dan is X een necessary condition voor Y. In andere woorden, X is dan absoluut onmisbaar om het effect in Y in gang te zetten. Om de causaliteit van sommige vragen te beantwoorden is het daarom soms noodzakelijk om een controlegroep waar een treatment niet optreedt (-X) aan het experiment toe te voegen. Schematisch is een simpel voorbeeld van Mill’s methode:
Experimentele groep: Als X, dan Y
Controlegroep: Als -X, dan -Y.
Een belangrijk punt om in het achterhoofd te houden is dat Mill’s method voorkomt dat experimenteel onderzoek de vorm van een rechtbank aanneemt, waarbij een stelling ‘onschuldig is tot schuldig bewezen’. Het gebeurt weleens dat een onderzoeker een sterke claim doet op basis van een observatie en critici worden uitgedaagd om dan maar te bewijzen dat deze claim niet waar is. Een goed onderzoeker test dus zelf beide claims.
Het is niet altijd mogelijk om ethische of praktische redenen om een controlegroep aan het experiment toe te voegen. Onderzoekers kunnen niet zondermeer een groep terminale patiënten een experimenteel geneesmiddel toedienen en de controlegroep maar aan haar lot over laten. In zulke gevallen kunnen onderzoekers soms de wachtlijst als een soort controlegroep gebruiken, maar mensen kunnen niet eeuwig kunstmatig op een wachtlijst worden gezet.
matchen en homogeniseren
Het is mogelijk allerlei externe factoren die, naast of in plaats van de experimentele variabele, effect kunnen hebben op de afhankelijke variabele, met behulp van randomisatie onder controle te houden. Naast randomiseren zijn matchen en homogeniseren andere toewijzingsprocedures waarmee dat kan.
Met matchen of homogeniseren wordt geprobeerd de experimentele en de controlegroep gelijk te maken op een aantal externe bekende kenmerken waarvan men denkt dat ze in belangrijke mate van invloed zijn op de afhankelijke variabele. Als we ervan uitgaan dat sekse, leeftijd en opleiding van invloed zijn op de mening over asielzoekers, moeten we ervoor zorgen dat de experimentele en controlegroep op deze kenmerken aan elkaar gelijk (gemaakt) zijn. Er zijn twee manieren om dat te doen, namelijk door precisiecontrole en globale controle.
precisie controle
Bij precisiecontrole probeert men voor elke proefpersoon in de experimentele groep een proefpersoon te vinden voor de controlegroep, die op de aangegeven variabelen gelijk is aan eerstgenoemde eenheid. Idealiter zouden we een kloon van iemand willen hebben in iedere conditie, maar omdat dit (vooralsnog) onmogelijk is vormt matchen op belangrijke achtergrondskenmerken een aardige vervangende oplossing. De kunst van goed matchen is om paren van proefpersonen te identificeren die zoveel mogelijk bij ons ideaal van een ‘kloon’ in de buurt komen. Bijvoorbeeld een paar van proefpersonen die beiden vrouw zijn, een modaal inkomen hebben, wonen in de randstad, een wetenschappelijke opleiding hebben gevolgd, enzovoorts. Nadat op deze wijze paren zijn gevormd, wordt op toevalsbasis bepaald wie van elk paar in de experimentele groep terechtkomt en wie in de controlegroep. Als men op een groot aantal variabelen wil matchen, moet men over een grote steekproef beschikken om tot gelijke paren te kunnen komen.
globale controle
Een tweede methode om te matchen is globale controle. Hierbij wordt ernaar gestreefd dat de frequentie van een aantal belangrijke kenmerken in de experimentele groep en controlegroep aan elkaar gelijk zijn. Dit is algemener dan matchen met precisiecontrole. Bij precisiecontrole werd gezocht naar een zo goed mogelijk gelijkende kopie van iedere proefpersoon; zoveel mogelijk individuen met gelijke kenmerken gelijk verdeeld over de condities. Bij globale controle wordt getracht om ieder kenmerk van individuen gelijk te verdelen over condities en zijn we al tevreden als we losse kenmerken van de proefpersonen in alle condities vertegenwoordigd hebben. Er zitten dan zowel in de experimentele als in de controlegroep net zoveel mannen als vrouwen, net zoveel laagopgeleiden als hoogopgeleiden en net zoveel jongeren als ouderen. Omdat de condities slechts per afzonderlijk kenmerk aan elkaar gelijk zijn en niet wat betreft de kenmerken-in-combinatie betreft globale controle een grovere wijze van matchen dan precisiecontrole.
Bij homogeniseren en matchen moet men zich beperken tot die externe kenmerken waarvan bekend is of het vermoeden bestaat dat ze invloed hebben of zouden kunnen hebben op de afhankelijke variabele. Deze procedures kunnen dus niet worden opgevat als vervanging voor randomiseren, maar ze kunnen gebruikt worden in combinatie daarmee, als dat tenminste mogelijk is. Bij echt of zuiver experimenteel onderzoek is randomiseren essentieel; de andere procedures kunnen daaraan toegevoegd worden.
gerandomiseerd blokdesign
Gerandomiseerd blokontwerp
Wanneer bij een experiment de groepen in de verschillende (experimentele en controle)condities even groot zijn en de toewijzing van de proefpersonen plaatsvindt op toevalsbasis, dan is er sprake van een volledig gerandomiseerd ontwerp. Vaak wordt bij de opzet van een experiment gebruikgemaakt van een zogenoemd gerandomiseerd blokontwerp. Daarbij worden de proefpersonen, voorafgaand aan het eigenlijke experiment, ingedeeld in homogene categorieën, bijvoorbeeld mannen en vrouwen. Als groepen worden gevormd op basis van sekse en leeftijd (met de categorieen man, vrouw en jong, middelbaar, senior en bejaard) resulteert dat in acht groepen. Deze groepen worden blokken genoemd. Onderzoekers gaan bij vorming van dergelijke blokken uit van de variabelen die zij onder controle willen houden, omdat zij veronderstellen dat er een verband bestaat tussen respectievelijk sekse en leeftijd aan de ene kant en bijvoorbeeld de houding jegens asielzoekers aan de andere kant. De proefpersonen worden op basis van het toeval toegewezen aan de experimentele dan wel aan de controleconditie. Er is sprake van een gerandomiseerd blokontwerp wanneer ten eerste aan elk blok in beginsel evenveel onderzoekseenheden of proefpersonen worden toegewezen, ten tweede binnen elk blok evenveel eenheden worden toegewezen aan de experimentele en aan de controlegroep en ten derde als de toewijzing van de proefpersonen gebeurt op basis van toeval.
Via deze procedure kan ervoor worden gezorgd dat de experimentele en controlegroep volledig aan elkaar gelijk zijn op de kenmerken (geslacht en leeftijd) die de basis vormden voor de indeling in blokken. Doordat de selectie van de proefpersonen uit de blokken en de toewijzing aan de experimentele of aan de controleconditie gebeurt op toevalsbasis, kunnen we ervan uitgaan dat de experimentele en controlegroep ook aan elkaar gelijk zijn op allerlei kenmerken die in het onderzoek niet worden gemeten. Daardoor schakelen onderzoekers het systematische effect van sekse en leeftijd uit en minimaliseren zij door randomisatie de invloed van eventuele andere - onbekende - storende variabelen. Het gerandomiseerd blokontwerp is een vorm tussen precisiecontrole en globale controle. Deze manier van toewijzing van proefpersonen wordt daarom soms ook wel groepsgewijs matchen genoemd.
causaliteit
In veel psychologisch onderzoek wordt verondersteld dat variabelen een causale relatie met elkaar hebben. Dat wil zeggen dat wordt verondersteld dat er sprake is van een of meer onafhankelijke variabelen (predictoren) en een of meer afhankelijke variabelen, waarbij een onafhankelijke variabele effect heeft op de afhankelijke.
Strikt genomen moeten er aan drie voorwaarden worden voldaan om te kunnen spreken van een causale relatie. Deze voorwaarden zijn:
1 Er moet een statistisch significant verband zijn tussen de predictor de afhankelijke variabele.
2 De predictor moet in de tijd voorafgaan aan de afhankelijke variabele.
3 De relatie tussen de predictor en de afhankelijke variabele wordt niet veroorzaakt door een derde, mogelijk onbekende, variabele.
Een statistisch significant (voorwaarde 1) resultaat betekent in het algemeen dat de samenhang waarschijnlijk ongelijk is aan nul. Zo’n resultaat zegt niets over de grootte van het verband en dus ook niet over het belang of de relevantie van het verband. Een klein verband kan bij een grote steekproef namelijk ook statistisch significant zijn. Als de steekproef maar groot genoeg is dan wordt elke afwijking van nul, hoe klein ook, in de steekproef significant. Een verbad kan ook causaal zijn zonder dar er statistische significantie is (een kleuine n) Om te zien of een verband voldoende sterk of relevant is moet er naar de grootte van het effect worden gekeken (Engels: effect size). Bij een regressieanalyse kan de grootte van het effect worden afgelezen aan de gestandaardiseerde regressiecoëfficiënt (beta).
Ten tweede betekent statistische significantie van een verband niet dat er sprake is van een causaal verband. Het causale proces kan namelijk ook omgekeerd zijn of worden veroorzaakt door een derde variabele.
Aan de andere kant zou er wel een causaal verband kunnen bestaan tussen twee variabelen, terwijl er in de analyse geen sprake is van statistische significantie. De belangrijkste reden hiervoor is dan een te kleine steekproef, m.a.w. de toets heeft te weinig power om de samenhang te ontdekken. Ook kan er sprake zijn van een derde variabele die het verband maskeert. Het probleem van een te kleine steekproef, en dus van te weinig power om een effect te vinden, doet zich vooral gelden bij de typen verbanden die in Thema 2 aan de orde zullen komen, de interactie-effecten. Voor het testen van moderatiemodellen moeten er in het algemeen nog grotere datasets worden gebruikt dan bij modellen met alleen een hoofdeffect.
Een geschikte methode van dataverzameling om causale relaties te onderzoeken is een zuiver experiment. In een experiment kunnen we voorwaarde 1 toetsen via een statistische toets. De opzet van een experiment is dusdanig dat de manipulaties die leiden tot de condities van het experiment (die de waarden van een predictor voorstellen) voorafgaan aan het meten van de afhankelijke variabele, waarmee aan voorwaarde 2 wordt voldaan. Door de subjecten willekeurig aan de condities toe te delen (randomisatie) wordt geprobeerd de invloed van onbekende variabelen te reduceren. Bekende storende variabelen kunnen eventueel worden gemeten en statistisch onder controle worden gehouden door deze variabelen als covariaat in de analyse te betrekken. Bij een goed uitgevoerd zuiver experiment kan men daarom vrij zeker zijn dat ook aan voorwaarde 3 is voldaan.