H8: Validiteit Flashcards
Wat is de definitie van validiteit?
De mate waarin evidentie en theorie de interpretatie van de testscores ondersteunen bij het gebruik van de test.
Validiteit geeft aan of de sprong van testscore naar criterium gerechtvaardigd is. Om deze sprong te verantwoorden, moet het gebruik van de test empirisch en theoretisch onderbouwd worden.
Wanneer in deze cursus wordt gesproken over ‘de validiteit van een test’, wordt telkens bedoeld:….
‘validiteit bij een specifieke toepassing van de test in een bepaalde context en onderzoekspopulatie’.
Het tekstboek start de bespreking van validiteit vanuit twee hoofddoelen die tests kunnen hebben. Welke 2?
Een strikt onderscheid in deze twee doelstellingen is echter niet vol te houden, omdat…
- Wanneer het doel van de test is om een bepaald (praktisch-relevant) criterium te voorspellen op basis van testgedrag, wordt gesproken van predictieve validiteit.
Het criterium is dan een gebeurtenis of gedrag in de toekomst (zoals school- of beroepssucces) of in het verleden (zoals een belangrijke gebeurtenis in de jeugd). - Wanneer het doel van een test is om een bepaald psychologisch begrip in kaart te brengen (operationaliseren), spreekt men over de begripsvaliditeit.
Aangezien predictieve validiteit niet zonder een goede operationalisering van het begrip kan en begripsvaliditeit niet mogelijk is zonder informatie over het voorspellend vermogen van de test.
Hoewel Drenth en Sijtsma met name op predictieve validiteit en begripsvaliditeit ingaan, bespreken ze ook andere validiteiten die in de literatuur regelmatig worden gebruikt. Zoals Drenth en Sijtsma opmerken was er een lange tijd sprake van een wildgroei aan nieuwe termen voor telkens nieuwe ‘soorten’ van validiteit. Dit is begrijpelijk want studies naar validiteit kunnen niet alle aspecten van validiteit bestuderen en richten zich vaak op concrete vraagstukken zoals de mate waarin de test hetzelfde meet als een gelijksoortige test (vaak als concurrente validiteit aangeduid).
Als reactie daarop wordt in de Standards for Educational and Psychological Testing simpelweg gesproken over ‘validiteit’ als…
eenledig concept waarmee. wordt benadrukt dat de validiteit van test altijd een geïntegreerd oordeel is op basis van heel veel stukjes informatie die elk bijdragen aan een antwoord op de vraag naar validiteit.
Hoewel in de Amerikaans testpsychologie dus een tendens is waar te nemen om geen onderscheid meer te maken in verschillende soorten validiteit, maar validiteit te zien als eenledig concept, is het nog steeds belangrijk om de verschillende vormen van validiteit te kennen die Drenth en Sijtsma en andere auteurs onderscheiden. Enerzijds omdat deze termen nog steeds gebruikt worden en kennis van de betekenis hiervan dus gewenst is. Anderzijds omdat de Amerikaanse testpsychologie wel verschillende aspecten van validiteit onderscheidt (zij scharen dit echter onder het grotere begrip validiteit en beschouwen het dus niet als verschillende soorten validiteit). Uiteindelijk wordt, ongeacht het specifieke standpunt of validiteit wel of geen eenledig begrip betreft, naar dezelfde informatie gekeken om iets te zeggen over de validiteit van een test. In alle gevallen zul je kijken naar het voorspellend vermogen van tests en de mate waarin scores op de test samenhangen met bedoelde begrippen (en niet samenhangen met onbedoelde psychologische eigenschappen), ongeacht of je hierbij de begrippen predictieve validiteit en begripsvaliditeit gebruikt of enkel ‘validiteit’.
Wat is de conclusie?
Resumerend zouden we dus kunnen stellen dat het gebruik van meerdere termen voor validiteit niet erg is, als je maar in gedachten houdt dat je aan de hand van deze begrippen iets wilt zeggen over de vraag naar validiteit in het algemeen, dus in hoeverre de test aan zijn doel beantwoordt.
De vier belangrijkste soorten validiteit zijn volgens Drenth en Sijtsma…
(1) predictive validity die lijkt op predicitieve validiteit maar strikt genomen alleen gaat over het succes waarmee toekomstige criteriumscores kunnen worden voorspeld terwijl predictieve validiteit ook op paradictie en postdictie betrekking kan hebben;
(2) concurrent validity die bepaald wordt ten opzichte van gelijktijdig beschikbare criteriumgegevens;
(3) content validity die de mate beschrijft waarin een test het inhoudelijk domein van criterium (of mogelijke items) representeert; en
(4) construct validity die sterk aanleunt tegen begripsvaliditeit, maar er niet mee samenvalt (voor een uitleg hiervan, zie paragraaf 8.2.1 en 8.3.5).
Verder noemen ze nog twee soorten validiteit in paragraaf 8.2.2 die op te vatten zijn als specifieke varianten van begripsvaliditeit, namelijk …
- synthetische validiteit (als criterium wordt niet het criterium in zijn geheel (bijvoorbeeld leidinggeven) gebruikt, maar kleinere, zinvolle elementen van het grotere criterium (bijvoorbeeld omgang met mensen) en
- congruent validity (soortgenootvaliditeit; als criterium wordt een bestaande test gebruikt die dezelfde eigenschap pretendeert te meten).
Er zijn nog 2 validiteiten die verwant zijn aan synthestische validiteit en congruent validity. Welke?
- face-validity (indruksvaliditeit, waarbij op intuïtieve gronden wordt bepaald of de inhoud van een test valide is/van belang voor de voorspelling van een bepaald criterium)
- incremental validity (incrementele (toegevoegde) validiteit, wat betrekking heeft op de toename in validiteit die het gevolg is van toevoeging van een nieuwe test aan een bestaande testbatterij).
Parallel aan de ontstane mening over validiteit als eenledig begrip zijn ook diverse taxonomieën van validiteit voorgesteld die aangeven hoe verschillende vormen/aspecten van validiteit zich tot elkaar verhouden. Twee taxonomieën, die onderdeel uitmaken van de tentamenstof, worden hieronder besproken. Welke 2 zijn dat?
- COSMIN-taxonomie
- Taxonomie van validiteiten van De Von en collega’s. De definities die zij gebruiken, overlappen met die van Drenth en Sijtsma.
Wat houdt de COSMIN-taxonomie in?
Deze taxonomie beschrijft drie kwaliteitsdomeinen van testen, namelijk betrouwbaarheid, validiteit en reactievermogen. Elk domein bevat een of meer meeteigenschappen (bijvoorbeeld bij het domein validiteit: content validity, criterion validity en construct validity; verder te verdelen in structural validity, hypothesetoetsing en cross-cultural validity).
NB Het is belangrijk dat u beseft dat er diverse termen en taxonomieën bestaan voor het begrip validiteit en dat er ook sprake is van een trend – die overigens niet door alle wetenschappers wordt gevolgd – om validiteit als eenledig concept te beschouwen. De toekomst zal uitwijzen in hoeverre de opvatting van validiteit als eenledig concept in de psychometrische wetenschap zal worden gevolgd.
Wat is de taxonomie van de Von en collega’s
- Construct validiteit
- 1 translational validity
1.1.1 Face
1.1.2 Content
1.2 criteriion validity
1.2.1 Concurrent
1.2.2 Predictive
1.2.3 Convergent
1.2.4 Discriminant
Wat is de multitrek-multimethode-benadering?
In essentie komt deze benadering erop neer dat het correlatiepatroon dat ontstaat bij de afname van verschillende tests voor meer dan één eigenschap, geanalyseerd wordt op consistentie.
Met betrekking tot de validiteit, zijn drie overwegingen van belang bij de multitrek-multimethode benadering. Welke?
- De voornaamste eis is dat twee tests die dezelfde eigenschap pretenderen te meten, hoger met elkaar correleren dan twee tests die verschillende eigenschappen pretenderen te meten (voor de andere overwegingen, zie het boek).
- Er dient sprake te zijn van zowel confirmerende validiteit (metingen van dezelfde eigenschap met verschillende tests moeten hoog met elkaar correleren) en discriminante validiteit (metingen van verschillende eigenschappen moeten laag met elkaar correleren).
- De uitkomsten van de multitrek-multimethode-benadering worden gekoppeld aan het onderscheid tussen betrouwbaarheid en validiteit en tevens aan het verschil tussen methode- en trekvariantie.
Welke omschrijving van validiteit wordt door Drenth en Sijtsma bepleit?
Drenth en Sijtsma bepleiten een omschrijving van validiteit waarbij het gaat om de vraag in hoeverre een test aan zijn doel beantwoordt. De vaststelling van de validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of tests die alle zijn op te vatten als operationaliseringen van hypothetische begrippen.
a Welk indelingsprincipe vloeit voort uit de koppeling van de validiteit aan het doel van het testen?
b Welke twee soorten validiteit zijn te koppelen aan deze onderscheiding in doelen?
a Vanuit een koppeling van de validiteit aan het doel van het testen vloeit een tweedeling voort. Ten eerste kan het bij testen primair gaan om de voorspelling van gedrag of een prestatie buiten de testsituatie. Ten tweede kan het bij het testen expliciet gaan om het theoretische begrip zelf waarmee men een verklaring kan geven van het testgedrag.
b Bij het eerste doel gaat het om de predictieve validiteit en bij het tweede doel om de begripsvaliditeit.
Welke validiteitsvragen horen bij welke doelen?
Wanneer het doel van testen toelating, selectie, beroepsadvisering, classificatie of differentiële predictie is, dan is de centrale validiteitsvraag in hoeverre de test daadwerkelijk een juiste voorspelling mogelijk maakt. Wanneer het doel van testen de theoretische analyse van begrippen, het experiment ter toetsing van theorieën, het begrijpen of beschrijven van de onderzochte in psychologische termen is, dan is de centrale validiteitsvraag in hoeverre de test het bedoelde theoretische begrip dekt.
a Welke vier soorten van validiteit worden vaak onderscheiden in de literatuur?
b Wat houdt elke vorm in en hoe verhoudt elke vorm zich tot predictieve validiteit of begripsvaliditeit?
a De vier soorten validiteit die vaak in de literatuur worden onderscheiden, zijn: predictive validity, concurrent validity, content validity en construct validity.
b1 De predictive validity heeft betrekking op de relatie tussen testprestaties en op een later tijdstip verkregen criteriumprestaties. De predictive validity komt zeer dicht in de buurt van de predictieve validiteit, maar is dus wel temporeel voorspellend opgevat.
2 De concurrent validity heeft betrekking op de relatie tussen testprestaties en gelijktijdig verkregen criteriumprestaties.
3 De content validity of inhoudsvaliditeit heeft betrekking op de vraag in hoeverre een test een adequate representatie is van het universum van situaties, kennisinhouden of vaardigheden waarover conclusies moeten worden getrokken met betrekking tot de onderzochte. Een nadeel van inhoudsvaliditeit is dat het vaststellen ervan vooral een kwestie is van oordelen en niet van empirische toetsing. Onderzoek naar de inhoudsvaliditeit zou feitelijk neerkomen op een onderzoek naar de begripsvaliditeit.
4 De construct validity wordt geëvalueerd door te onderzoeken welke psychologische kwaliteiten een test meet. Bij constructvalidering gaat het eerst om het uitvinden welke begrippen zouden kunnen worden gezien als een verklaring voor de testprestatie, vervolgens om het afleiden van toetsbare hypothesen uit de theorie waarin het construct een plaats heeft, en tenslotte om het uitvoeren van een empirisch onderzoek om deze hypothese te toetsen. De definitie van construct validity is iets meer omvattend dan de definitie van begripsvaliditeit.
Welke andere vier vormen van validiteit worden nog regelmatig in de literatuur aangetroffen? Waarvoor staat elk van de genoemde vormen?
1 De synthetische validiteit richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criterium gedrag in plaats van een complex criterium als geheel. Uit de afzonderlijk geprediceerde elementen wordt dan vervolgens de voorspelling van het gehele criterium ‘gesynthetiseerd’. 2 De convergent validity of soortgenootvaliditeit geeft de mate aan waarin een test correleert met een andere test waarvan wordt aangenomen dat die dezelfde eigenschap meet.
3 Van face-validity of indruksvaliditeit is sprake indien, naar de subjectieve impressie van de leek of de psycholoog zelf, de relatie tussen test en criterium of de betekenis van de test ‘zonder meer duidelijk’ is.
4 Onder incremental validity wordt de verbetering van de voorspellingen (van een criterium met behulp van een test) ten opzichte van de reeds voorhanden zijnde informatie bedoeld.
Hoe wordt de predictieve validiteit van een test doorgaans vastgesteld?
Bij de predictieve validiteit gaat het om de vraag hoe goed een criterium valt te voorspellen. De criteriuminformatie moet geschat worden vanuit kennis van de predictor. Het schatten van de testprestaties gebeurt bijvoorbeeld door in de regressieformule informatie te gebruiken over de relatie tussen test- en criteriumscore, verkregen in een eerder onderzoek.
Wat wordt bedoeld met het conceptuele criterium?
Het conceptuele criterium is een concretisering van het uiteindelijke doel van de testgebruiker in termen van zichtbare resultaten. Van het conceptuele criterium wordt een criteriummaat of -score afgeleid. (Een criteriummaat is een expliciete, ondubbelzinnige uitspraak of score die betrekking heeft op het criteriumgedrag of de criteriumprestatie).
Wanneer is de vraag naar de begripsvaliditeit van belang?
De vraag in welke mate de predictor de criteriumscore kan voorspellen, is pas relevant nadat het criteriumgedrag is gekozen en de criteriummaat is vastgesteld. De predictieve validatie als een empirisch proces komt dus altijd pas na het besluit om een bepaalde criteriumprestatie te nemen als concretisering van een conceptueel criterium.
Is de betrouwbaarheid van de criteriummaat van belang?
Evenals voor een test, is een zo hoog mogelijke betrouwbaarheid van de criteriumscore gewenst.
a Uit hoeveel fasen bestaat het proces van het vaststellen van de predictive validity van een test(batterij)?
b Waaruit bestaat iedere fase?
a Er kunnen zes fasen in het proces van het vaststellen van de predictieve validiteit van een test(batterij) worden onderscheiden:
b1 In de eerste fase wordt het criteriumgedrag geoperationaliseerd in de vorm van een zo exact mogelijke criteriummaat.
2 In de tweede fase wordt een test gekozen of worden items gekozen waaruit één of meer tests kunnen worden samengesteld.
3 De derde fase wordt gevormd door proefafnames op verschillende groepen van proefpersonen die representatief zijn voor de populatie waarvoor de test uiteindelijk zal worden gebruikt. Op basis van in de derde fase verzamelde gegevens wordt de definitieve test samengesteld.
4 In de vierde fase vindt dan de daadwerkelijke validatie van deze test plaats. Nagegaan wordt in hoeverre de test het criterium kan voorspellen. Indien de criteriumscores van de proefpersonen niet beschikbaar zijn, dienen zij uiteraard (alsnog of in de loop van de tijd) verzameld te worden bij dezelfde personen als van wie de predictorscores verkregen zijn.
5 In de vijfde fase worden, indien verscheidene tests zijn gekozen of samengesteld, de tests waarvoor men een bruikbare validiteit heeft gevonden, gecombineerd in een maximaal voorspellende testbatterij.
6 In de zesde en laatste fase dient kruisvalidatie plaats te vinden. In een tweede onderzoek op een onafhankelijke, vergelijkbare steekproef dient het onderzoek te worden gerepliceerd om de in de eerste validatie gevonden correlaties of verschillen te onderzoeken op hun robuustheid.
Geconstateerd wordt dat validiteitscoëfficiënten vaak laag zijn (gesuggereerd wordt lager dan 0.45). Hoe kunnen deze lage waarden worden verklaard?
Afgezien van een lage betrouwbaarheid van de test(s) zijn een of meer van de volgende factoren verantwoordelijk voor lage validiteitscoëfficiënten:
a lage betrouwbaarheid van het criterium
b afwijkingen van lineariteit van het verband tussen test- en criteriumscore
c gebrek aan homogeniteit van de onderzochte groep (voor sommige groepen kan de validiteit hoger zijn dan voor andere groepen)
d externe variabelen die er de oorzaak van zijn dat het criterium in de ene situatie een andere lading dekt dan in een andere situatie
e test- en criteriumscore die in tijd ruim van elkaar verwijderd zijn. Als voorbeeld kan genoemd worden de validiteit van een IQ, gemeten op twaalfjarige leeftijd, voor de voorspelling van de eindexamencijfers vwo, die op ongeveer achttienjarige leeftijd worden verkregen.
In de eerste plaats wordt de hoogte van de eindexamencijfers beïnvloed door meer factoren dan de intelligentie alleen.
In de tweede plaats is de intelligentie wel in hoge mate betrouwbaar als tussen twee metingen één tot twee jaar ligt, maar iets minder betrouwbaar wanneer er ongeveer zes jaar tussen ligt. Het is goed denkbaar dat op achttienjarige leeftijd een beroep wordt gedaan op intelligentiefactoren die op twaalfjarige leeftijd niet of nauwelijks aan bod zijn gekomen.
Hoe verhoudt het valideringsproces zich tot validiteit?
Het begrip validiteit heeft betrekking op de vraag of de sprong van het testgedrag naar
iets anders verantwoord is. Het proces van het verzamelen van evidentie voor deze rechtvaardiging is het valideringsproces, en de mate waarin die rechtvaardiging is gevonden wordt
aangegeven met de term validiteit
het doel van het testen kan primair de voorspelling van bepaald gedrag of een prestatie buiten de testsituatie zijn.
Wat is hierbij het verschil tussen predictie, paradictie en postdictie?
We spreken van ▌predictie (toekomst), ▌paradictie (heden) en ▌postdictie (verleden).
Enige relativering over de mogelijkheid van correcte voorspellingen is hier op haar plaats. Namelijk?
Al
bestaat er een aantoonbare relatie tussen twee begrippen, als de test geen goede operationalisering van deze begrippen is, dan heeft de voorspelling weinig kans van slagen.
Wat is een belangrijk bezwaar tegen inhoudsvaliditeit?
Al
bestaat er een aantoonbare relatie tussen twee begrippen, als de test geen goede operationalisering van deze begrippen is, dan heeft de voorspelling weinig kans van slagen.
Wat zou een formele definitie van inhoudsvaliditeit kunnen zijn?
de sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein.
Die laatste score is in de praktijk
niet beschikbaar. Daarom moet de score op een steekproef van items gebruikt worden. Deze
definitie komt neer op het bepalen van de samenhang tussen de scores op twee tests die
verondersteld worden equivalent te zijn. De correlatie is dan een schatting van de betrouwbaarheid van de afzonderlijke tests. De inhoudsvaliditeit is vervolgens alleen maar vast te
stellen door een subjectieve beoordeling van de representativiteit van beide tests
Construct validation bestaat uit drie onderdelen. Welke 3?
Ten eerste het uitvinden welke eigenschappen een verklaring
zouden kunnen geven van de testprestatie.
Ten tweede het afleiden van toetsbare hypothesen uit die theorie die het construct verklaart.
Ten derde het uitvoeren van een empirisch
onderzoek om deze hypothesen te toetsen
Construct validity komt in de buurt van wat ▌betekenisanalyse wordt genoemd. Wat houdt dit in?
Betekenisanalyse (verder besproken vanaf pagina 89) impliceert voor een belangrijk deel exploratief
onderzoek, en bevat ook onderzoek naar de begripsvaliditeit, maar is breder. De definitie van
begripsvaliditeit is enger dan die van construct validity.
De ▌synthetische validiteit is vooral van belang voor praktische toepassingen van tests in welke delen van de psychologie? 2x
selectie- en beroepskeuzepsychologie
Waar wordt de congruent validity voor gebruikt?
Het is doorgaans niet de
bedoeling testprestaties te voorspellen, maar vast te stellen in hoeverre een nieuwe test een
bepaalde eigenschap meet. Het gaat hier om een onderdeel van het begripsvalideringsproces
Indrukvaliditeit is niet altijd een nuttige, en soms zelfs een gevaarlijke eigenschap van een test. Waarom?
Veel tests zijn jarenlang in gebruik geweest omdat ze indrukvaliditeit bezaten. Die ogenschijnlijke evidentie vormde zelfs een obstakel voor een werkelijk validiteitsonderzoek. Dit betekent
niet dat een test geen indrukvaliditeit mag bezitten, integendeel zelfs
Wil men de predictieve validiteit van een test
bepalen, dan is het dus nodig om in een representatieve steekproef uit de beoogde populatie welke 2 dingen te verzamelen?
Wat doet men als deze gegevens verzameld zijn?
- Testgegevens (predictor)
- Criteriumgegevens
Relatie tussen test en criterium vaststellen
We onderscheiden drie typen criteria. Welke?
- Het ▌uiteindelijke criterium betreft het alomvattende
doel van een concrete procedure. Dit abstracte criterium is zelden beschikbaar. - Daarom kiest
men vaak een ▌tussentijds criterium - of een meer ▌onmiddellijk criterium.
Bij de driedeling van criteria spelen 2 problemen. Welke?
- Ten eerst wat betreft de tijd. Het uiteindelijke criterium ligt in de tijd ver verwijderd van het tijdstip van testen, terwijl tussentijds en onmiddellijk criterium dichterbij liggen.
- Ten tweede de vraag in hoeverre het criterium beschikbaar is, kan worden geoperationaliseerd, of kan worden gekwantificeerd. Deze twee dimensies, tijd en abstractieniveau van de doelstelling, worden vaak onvoldoende gescheiden