H8: Validiteit Flashcards

1
Q

Wat is de definitie van validiteit?

A

De mate waarin evidentie en theorie de interpretatie van de testscores ondersteunen bij het gebruik van de test.

Validiteit geeft aan of de sprong van testscore naar criterium gerechtvaardigd is. Om deze sprong te verantwoorden, moet het gebruik van de test empirisch en theoretisch onderbouwd worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wanneer in deze cursus wordt gesproken over ‘de validiteit van een test’, wordt telkens bedoeld:….

A

‘validiteit bij een specifieke toepassing van de test in een bepaalde context en onderzoekspopulatie’.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Het tekstboek start de bespreking van validiteit vanuit twee hoofddoelen die tests kunnen hebben. Welke 2?

Een strikt onderscheid in deze twee doelstellingen is echter niet vol te houden, omdat…

A
  1. Wanneer het doel van de test is om een bepaald (praktisch-relevant) criterium te voorspellen op basis van testgedrag, wordt gesproken van predictieve validiteit.
    Het criterium is dan een gebeurtenis of gedrag in de toekomst (zoals school- of beroepssucces) of in het verleden (zoals een belangrijke gebeurtenis in de jeugd).
  2. Wanneer het doel van een test is om een bepaald psychologisch begrip in kaart te brengen (operationaliseren), spreekt men over de begripsvaliditeit.

Aangezien predictieve validiteit niet zonder een goede operationalisering van het begrip kan en begripsvaliditeit niet mogelijk is zonder informatie over het voorspellend vermogen van de test.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hoewel Drenth en Sijtsma met name op predictieve validiteit en begripsvaliditeit ingaan, bespreken ze ook andere validiteiten die in de literatuur regelmatig worden gebruikt. Zoals Drenth en Sijtsma opmerken was er een lange tijd sprake van een wildgroei aan nieuwe termen voor telkens nieuwe ‘soorten’ van validiteit. Dit is begrijpelijk want studies naar validiteit kunnen niet alle aspecten van validiteit bestuderen en richten zich vaak op concrete vraagstukken zoals de mate waarin de test hetzelfde meet als een gelijksoortige test (vaak als concurrente validiteit aangeduid).

Als reactie daarop wordt in de Standards for Educational and Psychological Testing simpelweg gesproken over ‘validiteit’ als…

A

eenledig concept waarmee. wordt benadrukt dat de validiteit van test altijd een geïntegreerd oordeel is op basis van heel veel stukjes informatie die elk bijdragen aan een antwoord op de vraag naar validiteit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hoewel in de Amerikaans testpsychologie dus een tendens is waar te nemen om geen onderscheid meer te maken in verschillende soorten validiteit, maar validiteit te zien als eenledig concept, is het nog steeds belangrijk om de verschillende vormen van validiteit te kennen die Drenth en Sijtsma en andere auteurs onderscheiden. Enerzijds omdat deze termen nog steeds gebruikt worden en kennis van de betekenis hiervan dus gewenst is. Anderzijds omdat de Amerikaanse testpsychologie wel verschillende aspecten van validiteit onderscheidt (zij scharen dit echter onder het grotere begrip validiteit en beschouwen het dus niet als verschillende soorten validiteit). Uiteindelijk wordt, ongeacht het specifieke standpunt of validiteit wel of geen eenledig begrip betreft, naar dezelfde informatie gekeken om iets te zeggen over de validiteit van een test. In alle gevallen zul je kijken naar het voorspellend vermogen van tests en de mate waarin scores op de test samenhangen met bedoelde begrippen (en niet samenhangen met onbedoelde psychologische eigenschappen), ongeacht of je hierbij de begrippen predictieve validiteit en begripsvaliditeit gebruikt of enkel ‘validiteit’.

Wat is de conclusie?

A

Resumerend zouden we dus kunnen stellen dat het gebruik van meerdere termen voor validiteit niet erg is, als je maar in gedachten houdt dat je aan de hand van deze begrippen iets wilt zeggen over de vraag naar validiteit in het algemeen, dus in hoeverre de test aan zijn doel beantwoordt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

De vier belangrijkste soorten validiteit zijn volgens Drenth en Sijtsma…

A

(1) predictive validity die lijkt op predicitieve validiteit maar strikt genomen alleen gaat over het succes waarmee toekomstige criteriumscores kunnen worden voorspeld terwijl predictieve validiteit ook op paradictie en postdictie betrekking kan hebben;

(2) concurrent validity die bepaald wordt ten opzichte van gelijktijdig beschikbare criteriumgegevens;

(3) content validity die de mate beschrijft waarin een test het inhoudelijk domein van criterium (of mogelijke items) representeert; en

(4) construct validity die sterk aanleunt tegen begripsvaliditeit, maar er niet mee samenvalt (voor een uitleg hiervan, zie paragraaf 8.2.1 en 8.3.5).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Verder noemen ze nog twee soorten validiteit in paragraaf 8.2.2 die op te vatten zijn als specifieke varianten van begripsvaliditeit, namelijk …

A
  1. synthetische validiteit (als criterium wordt niet het criterium in zijn geheel (bijvoorbeeld leidinggeven) gebruikt, maar kleinere, zinvolle elementen van het grotere criterium (bijvoorbeeld omgang met mensen) en
  2. congruent validity (soortgenootvaliditeit; als criterium wordt een bestaande test gebruikt die dezelfde eigenschap pretendeert te meten).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Er zijn nog 2 validiteiten die verwant zijn aan synthestische validiteit en congruent validity. Welke?

A
  1. face-validity (indruksvaliditeit, waarbij op intuïtieve gronden wordt bepaald of de inhoud van een test valide is/van belang voor de voorspelling van een bepaald criterium)
  2. incremental validity (incrementele (toegevoegde) validiteit, wat betrekking heeft op de toename in validiteit die het gevolg is van toevoeging van een nieuwe test aan een bestaande testbatterij).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Parallel aan de ontstane mening over validiteit als eenledig begrip zijn ook diverse taxonomieën van validiteit voorgesteld die aangeven hoe verschillende vormen/aspecten van validiteit zich tot elkaar verhouden. Twee taxonomieën, die onderdeel uitmaken van de tentamenstof, worden hieronder besproken. Welke 2 zijn dat?

A
  1. COSMIN-taxonomie
  2. Taxonomie van validiteiten van De Von en collega’s. De definities die zij gebruiken, overlappen met die van Drenth en Sijtsma.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat houdt de COSMIN-taxonomie in?

A

Deze taxonomie beschrijft drie kwaliteitsdomeinen van testen, namelijk betrouwbaarheid, validiteit en reactievermogen. Elk domein bevat een of meer meeteigenschappen (bijvoorbeeld bij het domein validiteit: content validity, criterion validity en construct validity; verder te verdelen in structural validity, hypothesetoetsing en cross-cultural validity).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

NB Het is belangrijk dat u beseft dat er diverse termen en taxonomieën bestaan voor het begrip validiteit en dat er ook sprake is van een trend – die overigens niet door alle wetenschappers wordt gevolgd – om validiteit als eenledig concept te beschouwen. De toekomst zal uitwijzen in hoeverre de opvatting van validiteit als eenledig concept in de psychometrische wetenschap zal worden gevolgd.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is de taxonomie van de Von en collega’s

A
  1. Construct validiteit
  2. 1 translational validity
    1.1.1 Face
    1.1.2 Content

1.2 criteriion validity
1.2.1 Concurrent
1.2.2 Predictive
1.2.3 Convergent
1.2.4 Discriminant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is de multitrek-multimethode-benadering?

A

In essentie komt deze benadering erop neer dat het correlatiepatroon dat ontstaat bij de afname van verschillende tests voor meer dan één eigenschap, geanalyseerd wordt op consistentie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Met betrekking tot de validiteit, zijn drie overwegingen van belang bij de multitrek-multimethode benadering. Welke?

A
  1. De voornaamste eis is dat twee tests die dezelfde eigenschap pretenderen te meten, hoger met elkaar correleren dan twee tests die verschillende eigenschappen pretenderen te meten (voor de andere overwegingen, zie het boek).
  2. Er dient sprake te zijn van zowel confirmerende validiteit (metingen van dezelfde eigenschap met verschillende tests moeten hoog met elkaar correleren) en discriminante validiteit (metingen van verschillende eigenschappen moeten laag met elkaar correleren).
  3. De uitkomsten van de multitrek-multimethode-benadering worden gekoppeld aan het onderscheid tussen betrouwbaarheid en validiteit en tevens aan het verschil tussen methode- en trekvariantie.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welke omschrijving van validiteit wordt door Drenth en Sijtsma bepleit?

A

Drenth en Sijtsma bepleiten een omschrijving van validiteit waarbij het gaat om de vraag in hoeverre een test aan zijn doel beantwoordt. De vaststelling van de validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of tests die alle zijn op te vatten als operationaliseringen van hypothetische begrippen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

a Welk indelingsprincipe vloeit voort uit de koppeling van de validiteit aan het doel van het testen?
b Welke twee soorten validiteit zijn te koppelen aan deze onderscheiding in doelen?

A

a Vanuit een koppeling van de validiteit aan het doel van het testen vloeit een tweedeling voort. Ten eerste kan het bij testen primair gaan om de voorspelling van gedrag of een prestatie buiten de testsituatie. Ten tweede kan het bij het testen expliciet gaan om het theoretische begrip zelf waarmee men een verklaring kan geven van het testgedrag.

b Bij het eerste doel gaat het om de predictieve validiteit en bij het tweede doel om de begripsvaliditeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Welke validiteitsvragen horen bij welke doelen?

A

Wanneer het doel van testen toelating, selectie, beroepsadvisering, classificatie of differentiële predictie is, dan is de centrale validiteitsvraag in hoeverre de test daadwerkelijk een juiste voorspelling mogelijk maakt. Wanneer het doel van testen de theoretische analyse van begrippen, het experiment ter toetsing van theorieën, het begrijpen of beschrijven van de onderzochte in psychologische termen is, dan is de centrale validiteitsvraag in hoeverre de test het bedoelde theoretische begrip dekt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

a Welke vier soorten van validiteit worden vaak onderscheiden in de literatuur?
b Wat houdt elke vorm in en hoe verhoudt elke vorm zich tot predictieve validiteit of begripsvaliditeit?

A

a De vier soorten validiteit die vaak in de literatuur worden onderscheiden, zijn: predictive validity, concurrent validity, content validity en construct validity.
b1 De predictive validity heeft betrekking op de relatie tussen testprestaties en op een later tijdstip verkregen criteriumprestaties. De predictive validity komt zeer dicht in de buurt van de predictieve validiteit, maar is dus wel temporeel voorspellend opgevat.
2 De concurrent validity heeft betrekking op de relatie tussen testprestaties en gelijktijdig verkregen criteriumprestaties.
3 De content validity of inhoudsvaliditeit heeft betrekking op de vraag in hoeverre een test een adequate representatie is van het universum van situaties, kennisinhouden of vaardigheden waarover conclusies moeten worden getrokken met betrekking tot de onderzochte. Een nadeel van inhoudsvaliditeit is dat het vaststellen ervan vooral een kwestie is van oordelen en niet van empirische toetsing. Onderzoek naar de inhoudsvaliditeit zou feitelijk neerkomen op een onderzoek naar de begripsvaliditeit.
4 De construct validity wordt geëvalueerd door te onderzoeken welke psychologische kwaliteiten een test meet. Bij constructvalidering gaat het eerst om het uitvinden welke begrippen zouden kunnen worden gezien als een verklaring voor de testprestatie, vervolgens om het afleiden van toetsbare hypothesen uit de theorie waarin het construct een plaats heeft, en tenslotte om het uitvoeren van een empirisch onderzoek om deze hypothese te toetsen. De definitie van construct validity is iets meer omvattend dan de definitie van begripsvaliditeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welke andere vier vormen van validiteit worden nog regelmatig in de literatuur aangetroffen? Waarvoor staat elk van de genoemde vormen?

A

1 De synthetische validiteit richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criterium gedrag in plaats van een complex criterium als geheel. Uit de afzonderlijk geprediceerde elementen wordt dan vervolgens de voorspelling van het gehele criterium ‘gesynthetiseerd’. 2 De convergent validity of soortgenootvaliditeit geeft de mate aan waarin een test correleert met een andere test waarvan wordt aangenomen dat die dezelfde eigenschap meet.
3 Van face-validity of indruksvaliditeit is sprake indien, naar de subjectieve impressie van de leek of de psycholoog zelf, de relatie tussen test en criterium of de betekenis van de test ‘zonder meer duidelijk’ is.
4 Onder incremental validity wordt de verbetering van de voorspellingen (van een criterium met behulp van een test) ten opzichte van de reeds voorhanden zijnde informatie bedoeld.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hoe wordt de predictieve validiteit van een test doorgaans vastgesteld?

A

Bij de predictieve validiteit gaat het om de vraag hoe goed een criterium valt te voorspellen. De criteriuminformatie moet geschat worden vanuit kennis van de predictor. Het schatten van de testprestaties gebeurt bijvoorbeeld door in de regressieformule informatie te gebruiken over de relatie tussen test- en criteriumscore, verkregen in een eerder onderzoek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wat wordt bedoeld met het conceptuele criterium?

A

Het conceptuele criterium is een concretisering van het uiteindelijke doel van de testgebruiker in termen van zichtbare resultaten. Van het conceptuele criterium wordt een criteriummaat of -score afgeleid. (Een criteriummaat is een expliciete, ondubbelzinnige uitspraak of score die betrekking heeft op het criteriumgedrag of de criteriumprestatie).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wanneer is de vraag naar de begripsvaliditeit van belang?

A

De vraag in welke mate de predictor de criteriumscore kan voorspellen, is pas relevant nadat het criteriumgedrag is gekozen en de criteriummaat is vastgesteld. De predictieve validatie als een empirisch proces komt dus altijd pas na het besluit om een bepaalde criteriumprestatie te nemen als concretisering van een conceptueel criterium.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Is de betrouwbaarheid van de criteriummaat van belang?

A

Evenals voor een test, is een zo hoog mogelijke betrouwbaarheid van de criteriumscore gewenst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

a Uit hoeveel fasen bestaat het proces van het vaststellen van de predictive validity van een test(batterij)?
b Waaruit bestaat iedere fase?

A

a Er kunnen zes fasen in het proces van het vaststellen van de predictieve validiteit van een test(batterij) worden onderscheiden:
b1 In de eerste fase wordt het criteriumgedrag geoperationaliseerd in de vorm van een zo exact mogelijke criteriummaat.
2 In de tweede fase wordt een test gekozen of worden items gekozen waaruit één of meer tests kunnen worden samengesteld.
3 De derde fase wordt gevormd door proefafnames op verschillende groepen van proefpersonen die representatief zijn voor de populatie waarvoor de test uiteindelijk zal worden gebruikt. Op basis van in de derde fase verzamelde gegevens wordt de definitieve test samengesteld.
4 In de vierde fase vindt dan de daadwerkelijke validatie van deze test plaats. Nagegaan wordt in hoeverre de test het criterium kan voorspellen. Indien de criteriumscores van de proefpersonen niet beschikbaar zijn, dienen zij uiteraard (alsnog of in de loop van de tijd) verzameld te worden bij dezelfde personen als van wie de predictorscores verkregen zijn.
5 In de vijfde fase worden, indien verscheidene tests zijn gekozen of samengesteld, de tests waarvoor men een bruikbare validiteit heeft gevonden, gecombineerd in een maximaal voorspellende testbatterij.
6 In de zesde en laatste fase dient kruisvalidatie plaats te vinden. In een tweede onderzoek op een onafhankelijke, vergelijkbare steekproef dient het onderzoek te worden gerepliceerd om de in de eerste validatie gevonden correlaties of verschillen te onderzoeken op hun robuustheid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Geconstateerd wordt dat validiteitscoëfficiënten vaak laag zijn (gesuggereerd wordt lager dan 0.45). Hoe kunnen deze lage waarden worden verklaard?

A

Afgezien van een lage betrouwbaarheid van de test(s) zijn een of meer van de volgende factoren verantwoordelijk voor lage validiteitscoëfficiënten:
a lage betrouwbaarheid van het criterium
b afwijkingen van lineariteit van het verband tussen test- en criteriumscore
c gebrek aan homogeniteit van de onderzochte groep (voor sommige groepen kan de validiteit hoger zijn dan voor andere groepen)
d externe variabelen die er de oorzaak van zijn dat het criterium in de ene situatie een andere lading dekt dan in een andere situatie
e test- en criteriumscore die in tijd ruim van elkaar verwijderd zijn. Als voorbeeld kan genoemd worden de validiteit van een IQ, gemeten op twaalfjarige leeftijd, voor de voorspelling van de eindexamencijfers vwo, die op ongeveer achttienjarige leeftijd worden verkregen.
In de eerste plaats wordt de hoogte van de eindexamencijfers beïnvloed door meer factoren dan de intelligentie alleen.
In de tweede plaats is de intelligentie wel in hoge mate betrouwbaar als tussen twee metingen één tot twee jaar ligt, maar iets minder betrouwbaar wanneer er ongeveer zes jaar tussen ligt. Het is goed denkbaar dat op achttienjarige leeftijd een beroep wordt gedaan op intelligentiefactoren die op twaalfjarige leeftijd niet of nauwelijks aan bod zijn gekomen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Hoe verhoudt het valideringsproces zich tot validiteit?

A

Het begrip validiteit heeft betrekking op de vraag of de sprong van het testgedrag naar
iets anders verantwoord is. Het proces van het verzamelen van evidentie voor deze rechtvaardiging is het valideringsproces, en de mate waarin die rechtvaardiging is gevonden wordt
aangegeven met de term validiteit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

het doel van het testen kan primair de voorspelling van bepaald gedrag of een prestatie buiten de testsituatie zijn.
Wat is hierbij het verschil tussen predictie, paradictie en postdictie?

A

We spreken van ▌predictie (toekomst), ▌paradictie (heden) en ▌postdictie (verleden).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Enige relativering over de mogelijkheid van correcte voorspellingen is hier op haar plaats. Namelijk?

A

Al
bestaat er een aantoonbare relatie tussen twee begrippen, als de test geen goede operationalisering van deze begrippen is, dan heeft de voorspelling weinig kans van slagen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Wat is een belangrijk bezwaar tegen inhoudsvaliditeit?

A

Al
bestaat er een aantoonbare relatie tussen twee begrippen, als de test geen goede operationalisering van deze begrippen is, dan heeft de voorspelling weinig kans van slagen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Wat zou een formele definitie van inhoudsvaliditeit kunnen zijn?

A

de sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein.
Die laatste score is in de praktijk
niet beschikbaar. Daarom moet de score op een steekproef van items gebruikt worden. Deze
definitie komt neer op het bepalen van de samenhang tussen de scores op twee tests die
verondersteld worden equivalent te zijn. De correlatie is dan een schatting van de betrouwbaarheid van de afzonderlijke tests. De inhoudsvaliditeit is vervolgens alleen maar vast te
stellen door een subjectieve beoordeling van de representativiteit van beide tests

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Construct validation bestaat uit drie onderdelen. Welke 3?

A

Ten eerste het uitvinden welke eigenschappen een verklaring
zouden kunnen geven van de testprestatie.

Ten tweede het afleiden van toetsbare hypothesen uit die theorie die het construct verklaart.

Ten derde het uitvoeren van een empirisch
onderzoek om deze hypothesen te toetsen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Construct validity komt in de buurt van wat ▌betekenisanalyse wordt genoemd. Wat houdt dit in?

A

Betekenisanalyse (verder besproken vanaf pagina 89) impliceert voor een belangrijk deel exploratief
onderzoek, en bevat ook onderzoek naar de begripsvaliditeit, maar is breder. De definitie van
begripsvaliditeit is enger dan die van construct validity.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

De ▌synthetische validiteit is vooral van belang voor praktische toepassingen van tests in welke delen van de psychologie? 2x

A

selectie- en beroepskeuzepsychologie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Waar wordt de congruent validity voor gebruikt?

A

Het is doorgaans niet de
bedoeling testprestaties te voorspellen, maar vast te stellen in hoeverre een nieuwe test een
bepaalde eigenschap meet. Het gaat hier om een onderdeel van het begripsvalideringsproces

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Indrukvaliditeit is niet altijd een nuttige, en soms zelfs een gevaarlijke eigenschap van een test. Waarom?

A

Veel tests zijn jarenlang in gebruik geweest omdat ze indrukvaliditeit bezaten. Die ogenschijnlijke evidentie vormde zelfs een obstakel voor een werkelijk validiteitsonderzoek. Dit betekent
niet dat een test geen indrukvaliditeit mag bezitten, integendeel zelfs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Wil men de predictieve validiteit van een test
bepalen, dan is het dus nodig om in een representatieve steekproef uit de beoogde populatie welke 2 dingen te verzamelen?

Wat doet men als deze gegevens verzameld zijn?

A
  1. Testgegevens (predictor)
  2. Criteriumgegevens

Relatie tussen test en criterium vaststellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

We onderscheiden drie typen criteria. Welke?

A
  1. Het ▌uiteindelijke criterium betreft het alomvattende
    doel van een concrete procedure. Dit abstracte criterium is zelden beschikbaar.
  2. Daarom kiest
    men vaak een ▌tussentijds criterium
  3. of een meer ▌onmiddellijk criterium.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Bij de driedeling van criteria spelen 2 problemen. Welke?

A
  1. Ten eerst wat betreft de tijd. Het uiteindelijke criterium ligt in de tijd ver verwijderd van het tijdstip van testen, terwijl tussentijds en onmiddellijk criterium dichterbij liggen.
  2. Ten tweede de vraag in hoeverre het criterium beschikbaar is, kan worden geoperationaliseerd, of kan worden gekwantificeerd. Deze twee dimensies, tijd en abstractieniveau van de doelstelling, worden vaak onvoldoende gescheiden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Het is van belang het uiteindelijke doel van de organisatie waarvoor de voorspelling plaatsvindt te onderscheiden. Dat doel is als zodanig niet-psychologisch van aard. Meer concreet
zichtbaar is het ▌conceptuele criterium. Wat houdt dit in?

Wat wordt er vervolgens uit het conceptuele criterium afgeleid?

A

een concretisering van het organisatiedoel in termen
van zichtbare resultaten.

Criteriummaat: een expliciete, ondubbelzinnige uitspraak of score, die betrekking heeft op criteriumgedrag of -prestaties. Dit bedoelden we tot nu toe impliciet met de term criterium. Het
criteriumgedrag of de criteriumprestatie is waarneembaar en registreerbaar, en is relevant
voor het conceptuele criterium.

40
Q

Vaak zijn criteriummaten kwantitatieve operationaliseringen van het criteriumgedrag. In hoeverre deze operationalisering geslaagd is, is op zich weer een validiteitsvraag. Daarbij moet
ook de vraag worden gesteld…

A

welke criteriummaat het meest relevant is. Belangrijk is dus dat
de meting van een criterium aan dezelfde eisen van betrouwbaarheid en validiteit moet voldoen als de test waarmee dit criterium wordt voorspeld

41
Q

Pas nadat het criteriumgedrag is gekozen en de criteriummaat is vastgesteld, kan wat worden bepaald?

A

Predictieve validiteit

42
Q

Wat is een probleem bij de keuze van criteriumgedragingen?

A

at de betrouwbaarheid van de maten
hiervoor vaak omgekeerd evenredig is aan hun relevantie. Met moet trachten criteriummaten
te vinden die nog zo betrouwbaar zijn dat ze de test niet op voorhand invalideren, maar niet
zo irrelevant dat ze het conceptuele criterium niet meer weerspiegelen.

43
Q

Uit welke fasen bestaat het opzetten van test of testbatterij waarbij ook de predictieve validiteit wordt bepaald? 6x

A

Fase 1: Operationalisering van het criterium

Fase 2: Keuze en constructie van tests

Fase 3: Proefafneming van bestaande of nieuwe tests

Fase 4: Validatie van de testprocedure

Fase 5: Samenstelling van de predictorbatterij

Fase 6: Kruisvalidering

44
Q

Wat houdt ‘Fase 1: Operationalisering van het criterium’ in?

A

De eerste fase bestaat uit het operationeel maken van het criteriumgedrag, zoals beschreven
in de vorige paragraaf

45
Q

Waar bestaat ‘Fase 2: Keuze en constructie van tests’ uit?

A

De tweede fase bestaat uit de keuze van mogelijk geschikte tests danwel de keuze of constructie van mogelijk geschikte items waaruit een of meer tests kunnen worden samengesteld.
Deze keuze kan in meer of mindere mate gebaseerd zijn op een psychologische analyse van
het criteriumgedrag en van de eisen die daarin gesteld worden.

46
Q

Wat houdt ‘Fase 3: Proefafneming van bestaande of nieuwe tests’
in?

A

De derde fase wordt gevormd door proefafnemingen van de bestaande of nieuw te construeren tests op diverse groepen proefpersonen uit de populatie waarvoor de testprocedure
wordt ontworpen. Bij een bestaande test is een proefafneming alleen nodig als de procedure
plaatsvindt in een populatie die afwijkt van de populatie waarvoor de test oorspronkelijk is
geconstrueerd.

47
Q

Hoe wordt de steekproef gekozen bij Fase 3: Proefafneming van bestaande of nieuwe tests?

A

Een steekproef dient een zo getrouw mogelijke afspiegeling te zijn van de populatie waarvoor
de test uiteindelijk wordt gebruikt.

Representativiteit van de steekproef kan beter worden
gegarandeerd indien men vooraf rekening houdt met de samenstelling van de populatie naar
voor de test belangrijke demografische en persoonlijke variabelen, bijvoorbeeld door gebruik
te maken van een gestratificeerde steekproef. Stratificeren is niet nodig als men een grote
steekproef aselect uit een steekproef kan trekken, maar dan moet wel iedereen dezelfde kans
hebben om in de steekproef te komen.

Tot slot moet onderscheid worden gemaakt tussen het vooronderzoek en het hoofdonderzoek (zie hiervoor pagina 32). Het vooronderzoek dient als grove
zeef om na te gaan of de proefpersonen begrijpen wat van hen wordt verlangd, of de items
niet veel te moeilijk of gemakkelijk zijn, en of de testtijd realistisch is

48
Q

Wanneer is er bij ‘Fase 3: Proefafneming van bestaande of nieuwe tests’ itemanalyse nodig?

Wat houdt dit in?

A

Als de tests nog moeten worden geconstrueerd, en voor het vooronderzoek een steekproef
wordt gebruikt, kan het vooronderzoek behalve voor de hiervoor genoemde doelen ook voor
het verzamelen van informatie voor een itemanalyse worden gebruikt.

In deze itemanalyse
kunnen diverse aspecten van de testitems worden geëvalueerd, zoals de moeilijkheidsgraad
en de item-restcorrelatie (zie hiervoor pagina 53)

49
Q

Wanneer zijn extreem moeilijke of extreem makkelijke items gewenst?

A

als de test in de populatie de
gehele schaal van de eigenschap dient te bestrijken.
In het algemeen worden items niet alleen
op basis van hun moeilijkheid in een test opgenomen, omdat dit het risico inhoudt dat er een
test ontstaat die inhoudelijk heterogeen is of waarvan de score onbetrouwbaar is.

50
Q

Hoe verkrijgt men een homogene test?

Wat is een alternatieve methode?

A

Een homogene test verkrijgt men door bijvoorbeeld factoranalyse (zie hiervoor pagina 89).

Een andere
mogelijkheid is dat de onderzoeker zelf items rechtstreeks in dezelfde test selecteert op basis
van hun onderlinge correlaties, dus met hoge item-restcorrelaties. Hiermee wordt een relatief
betrouwbare testscore verkregen, wat vooral goed te zien is aan Cronbachs alfa..

51
Q

Wat houdt “Fase 4: Validatie van de testprocedure” in?

A

In de vierde fase heeft de daadwerkelijke validatie van de test plaats.

52
Q

Wanner is “Fase 4: Validatie van de testprocedure” moeilijker uitvoerbaar?

A

Als het om een in de toekomst liggend criterium gaat,
is dit onderzoek veel moeilijker praktisch uitvoerbaar, omdat er soms jaren moeten liggen
tussen het moment van testen en het moment waarop het criteriumgedrag wordt beoordeeld. Vaak ziet de onderzoeker zich dan gedwongen om het onderzoek uit te voeren op
proefpersonen van wie de criteriumscores al beschikbaar of gemakkelijk te verzamelen zijn,
in de hoop de gegevens te kunnen generaliseren naar het voorspellingsmodel. Die hoop is
echter niet altijd terecht

53
Q

Ook aan het ideale onderzoek, waarin kandidaten bij de entree met de te valideren tests worden onderzocht en vervolgens wordt gewacht tot er criteriumgegevens beschikbaar komen,
zijn bezwaren verbonden. Welke 3?

A
  1. Door de lange duur van het onderzoek is het kostbaar.
  2. Ook is het de vraag van hoeveel proefpersonen uiteindelijk de criteriumscores ter beschikking komen. Uit de geselecteerde groep kunnen personen verdwijnen, waardoor sprake kan zijn van variatiebeperking. Hierdoor kunnen betrouwbaarheid en validiteit te laag worden ingeschat.
  3. Een laatste probleem is dat de testuitslagen mogelijk bij een latere beoordelaar bekend raken.
    Als die zijn oordeel door deze kennis laat beïnvloeden, zijn testscore en criteriumscore niet
    meer onafhankelijk vastgesteld.
54
Q

Wat is contaminatie van het criterium?

A

De testuitslagen raken mogelijk bij een latere beoordelaar bekend. Als die zijn oordeel door deze kennis laat beïnvloeden, zijn testscore en criteriumscore niet
meer onafhankelijk vastgesteld. Dit verschijnsel heet ▌contaminatie van het criterium. Als
hiervan sprake is, valt de correlatie tussen test- en criteriumscore kunstmatig hoog uit.

55
Q

Wat is de validiteitscoëfficiënt?

A

De genoemde correlatie tussen test- en criteriumscore is een aanduiding van de validiteit en
wordt daarom de ▌validiteitscoëfficiënt genoemd.

56
Q

De genoemde correlatie tussen test- en criteriumscore is een aanduiding van de validiteit en
wordt daarom de ▌validiteitscoëfficiënt genoemd. Door hiervoor de product-momentcorrelatie te nemen, wordt aangenomen dat het verband tussen predictor en criterium goed door een rechte lijn kan worden benaderd. Vaak klopt dit wel, maar niet altijd.

Wat zijn 2 uitzonderingen?

A
  1. kromlijnige relatie:
    en lage testscore gaat gepaard met een lage criteriumscore, een hogere testscore met een
    hoge criteriumscore, maar een zeer hoge testscore weer met een lage criteriumscore.
  2. heteroscedastische relatie.
    val bestaat er wel een verband tussen de lagere waarden van test- en criteriumscore, maar niet voor de hogere waarden. Het is zelfs zo dat, naarmate X toeneemt, de
    spreiding van mogelijke waarden van Y toeneemt.

n beide situaties geldt dat toepassing van
de product-momentcorrelatie op test en criterium een lage waarde oplevert, terwijl wel degelijk sprake is van een interessante relatie tussen beide variabelen. Het kritiekloos gebruik
van de product-momentcorrelatie is dan ook onverstandig

57
Q

Tests kunnen voor voorspelling soms nuttig zijn als ▌suppressorvariabele. Wat houdt dit in?

A

Stel, we hebben
twee testscores X1 en X2 en een criteriumscore Y. We nemen aan dat X1 en Y positief correleren, en X2 en Y nul. De twee testscores correleren positief. Als we afgaan op de beide
validiteitscoëfficiënten lijkt het alsof X1 wel nuttig is voor de voorspelling van Y en X2 niet.
Vanwege de positieve correlatie tussen beide testscores is die conclusie niet terecht. Kennelijk
is het zo dat X2 met een deel van X1 correleert dat zelf niet met Y correleert. Wanneer we nu
met behulp van X2 dit deel uit X1 verwijderen, dan blijft een voor X2 gecorrigeerde variabele
𝑋1
′over, die sterker met Y correleert dan de ongecorrigeerde X1. In dit geval is X2 de suppressorvariabele. Door bijvoorbeeld de scores op een rekentoets X1 te corrigeren voor
taalvaardigheid X2, die op zich irrelevant is voor een voorspelling van Y, kan een betere voorspelling worden verkregen.

58
Q

Testscores kunnen ook functioneren als ▌moderatorvariabele. Wat houdt dit in?

A

Dit is een variabele die zelf niet
of nauwelijks hoeft te correleren met een criteriumscore Y, maar die wel de relatie van andere
variabelen met Y beïnvloedt. In valideringsonderzoek kan het zeer de moeite waard zijn met
moderatoren rekening te houden. Niet alleen verduidelijken die de relatie tussen test en criterium, zij maken ook duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een
populatie bruikbaar zijn om een criterium te voorspellen.

59
Q

enigszins ander geval is dat twee variabelen apart met een criteriumvariabele Y correleren, en bovendien nog een ▌interactie-effect op Y hebben.
Wat gebeurt er als beide variabelen tegelijkertijd een hoge score te zien geven?

A

Dan wordt de correlatie met het criterium daardoor nog extra
verhoogd.

60
Q

Wat houdt ‘Fase 5: Samenstelling van de predictorbatterij’ in?

Wat wordt toegepast om de maximaal voorspellende waarde te bepalen?

A

De tests waarvoor een goede validiteit is gevonden, worden vervolgens gecombineerd in een
maximaal voorspellende testbatterij.

Meervoudige regressie.
n het regressiemodel worden testscores gewogen
en vervolgens opgeteld tot een voorspelling van de criteriumscore. Bij m tests met scores Xg
en gewichten bg kan het model worden weergegeven als 𝑌̂ = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2 + ⋯ + 𝑏𝑚𝑋𝑚.
Een gewicht is relatief groot als de test hoog correleert met criterium Y en laag met andere
tests. Ideaal is daarom een batterij van tests die weinig overlap vertonen en alle een uniek
aspect van Y verklaren. Zinloze redundantie wordt in het regressiemodel afgestraft met lage
gewichten voor diverse van deze tests.

61
Q

Hoe wordt het succes van de gehele testbatterij voor de voorspelling van Y uitgedrukt?

A

In de multipele correlatie.

Dit is de correlatie van de gewogen voorspelling 𝑌̂ op basis van de hele testbatterij, met het geobserveerde criterium Y.

62
Q

Wat houdt “Fase 6: kruisvalidering” in?

A

Kruisvalidering of ▌cross validation houdt in dat het statistische voorspellingsmodel dat is gevonden op basis van de steekproefgegevens, wordt gecontroleerd op een nieuwe, representatieve steekproef, afkomstig uit dezelfde populatie

63
Q

Wat is kanskapitalisme?

A

De reden voor de kruisvalidatie is dat een
uiteindelijk gekozen regressiemodel vaak tot stand komt na het uitproberen van een groot
aantal varianten. Naarmate de steekproef kleiner is, leunt dit proberen sterker op de toevallige samenstelling ervan, en worden beslissingen over tussentijdse wijzigingen van het model
genomen op basis van steeds onnauwkeuriger geschatte regressiegewichten. Als gevolg daarvan worden behalve goede ook foute beslissingen genomen, en als men veel modellen probeert stapelen die fouten zich op. Er treedt dan ▌kanskapitalisatie op, en het gevonden model
past dan eigenlijk te goed bij deze toevallige steekproef, maar niet meer bij de populatie

64
Q

Wanneer is kruisvalidering van belang?

A

Kruisvalidering is van groot belang in vrijwel elk onderzoek waarin een effect of een relatie
wordt geschat. Het is daarom des te opmerkelijker dat het zo weinig gebeurt. Overigens is de
vraag of het uiteindelijke model ook daadwerkelijk leidt tot betere beslissingen, belangrijker
dan een succesvolle kruisvalidatie. Duidelijk is wel dat een robuust model meer kans maakt
om tot juiste beslissingen te leiden.

65
Q

Ook al zijn de regels voor testconstructie en validering goed in acht genomen, dan nog zijn de
resultaten van het empirisch valideringsonderzoek over het algemeen niet zo rooskleurig.
Meestal zijn de validiteitscoëfficiënten niet hoger dan 0.3 of 0.4. Tests met een geringe validiteit kunnen soms toch een zinvolle bijdrage aan een beslissing leveren, en een test met een
behoorlijke validiteit heeft soms maar weinig effect. Waar hangt dit van af?

A

Dit hangt ervan af of er voorafgaand aan
de voorspelling al relevante informatie beschikbaar was. Als dat het geval is, kunnen juist tests
die op zich minder valide zijn, maar die een beroep doen op unieke eigenschappen, toch een
bijdrage aan de voorspelling leveren.

66
Q

Voor het feit dat veel validiteitscoëfficiënten zo laag zijn, zijn vijf redenen te noemen. Welke 5?

A
  1. Geringe betrouwbaarheid van het criterium
  2. Miskenning van niet-lineaire relatie tussen predictor en criterium
  3. Negeren van de complexe samenstelling van groepen
  4. Negeren van de variabele betekenis van het criterium in verschillende organisaties
  5. Onterechte vereenvoudiging van het criterium
67
Q

Vaak wordt uitgegaan van een te eenvoudig beeld van het criterium. Een meer gedifferentieerde benadering is dan nodig om tot betere voorspellingen te komen. Hiervoor zijn twee
mogelijkheden te noemen. Welke 2?

A
  1. Ten eerste wordt complex criteriumgedrag nogal eens samengevat
    in een globale criteriummaat, waardoor nuance verloren gaat en een goede voorspelling lastig
    wordt. De achtergrond hiervan is dat conceptuele criteria uitgaan van globale typeringen, die
    complexe begrippen betreffen. Deze begrippen dienen op zorgvuldige wijze te worden geoperationaliseerd en meetbaar te worden gemaakt.
  2. Ten tweede is criteriumgedrag aan het
    moment van de vaststelling en meting gebonden en niet zonder meer generaliseerbaar in de
    tijd. Het is dus van belang dat naast de inhoud ook het moment van meting van het criterium
    in ogenschouw wordt genomen. Een andere mogelijkheid is dat men zich niet richt op een
    momentopname, maar op de veranderingen die optreden tussen twee of meer momenten.
68
Q

Een relevante vraag is in hoeverre tests en criteria inwisselbaar zijn. Wordt deze vraag bevestigend beantwoord, waar gaan we dan van uit?

A

Dat er geen nieuw validiteitsonderzoek nodig is.

69
Q

. Er
wordt vaak van uitgegaan dat de predictieve validiteit varieert over wisselende combinaties
van voorspellende test en te voorspellen criterium. De verwachting is dat de predictieve validiteit sterk varieert over verschillende criteria. Die opvatting heeft aanleiding gegeven tot
duizenden valideringsonderzoeken. Hierdoor worden slechts moeizaam generaliseerbare valideringsresultaten verkregen. De vragen die naar aanleiding hiervan gesteld kunnen worden
zijn:

A
  1. in hoeverre predictieve validiteit daadwerkelijk situatiespecifiek is
  2. in hoeverre gebleken validiteit kan worden gegeneraliseerd naar nieuwe voorspellingssituaties.
70
Q
  1. in hoeverre predictieve validiteit daadwerkelijk situatiespecifiek is

Met een methode van Schmidt en Hunter kan deze vraag worden onderzocht. Hoe?

A

. Voor
de beantwoording van de vraag naar situatiespecificiteit wordt eerst een verzameling gevormd van tests die ongeveer dezelfde eigenschap meten, en van functies die uit een bredere
verzameling van gelijksoortige functies afkomstig zijn. Voor alle combinaties van een specifieke test en specifiek functiegedrag worden vervolgens de beschikbare validiteitscoëfficiënten verzameld. Daarna worden deze coëfficiënten opgevat als de waarden van een variabele, en wordt van deze waarden de standaarddeviatie bepaald. Deze standaarddeviatie geeft
de variatie in gevonden validiteitscoëfficiënten van een bepaald type test over praktische toepassingen. Deze variatie is deels het gevolg van methodologische fouten en niet van
inhoudelijke verschillen. Deze methodologische fouten betreffen volgens Schmidt en Hunter
steekproeffouten, onbetrouwbaarheid van predictoren en criteria, en beperking van de variatiebreedte. De crux van de methode is dat de standaarddeviatie wordt gecorrigeerd voor de
methodologische fouten. Wanneer na de correctie de standaarddeviatie gelijk is aan nul, betekent dit dat de hypothese van situatiespecificiteit kan worden verworpen. Uit onderzoek
hiernaar blijkt dat validiteitscoëfficiënten in veel gevallen niet of maar weinig situatiespecifiek
zijn en dat generalisatie mogelijk is

71
Q
  1. in hoeverre gebleken validiteit kan worden gegeneraliseerd naar nieuwe voorspellingssituaties

Met een methode van Schmidt en Hunter kan deze vraag worden onderzocht. Hoe?

A

Voor de beantwoording van de vraag in hoeverre gebleken validiteit kan worden gegeneraliseerd naar nieuwe voorspellingssituaties, wordt een schatting gemaakt van de, wederom voor
methodologische fouten gecorrigeerde, effectiviteit. Deze effectiviteit kan worden opgevat als
de representatieve validiteit binnen een specifieke categorie van tests en functies. Mocht de
standaarddeviatie van de validiteitscoëfficiënten na correctie niet gelijk zijn aan nul, dan
wordt een betrouwbaarheidsinterval berekend waarvan het tiende percentiel doorgaans
wordt beschouwd als een ondergrens voor de validiteit. Op basis van zowel effectiviteit als
ondergrens kunnen uitspraken worden gedaan over te verwachten validiteiten in toekomstige
selectiesituaties. Op basis van empirisch onderzoek blijkt dat de effectiviteit groot genoeg en
de resterende variantie klein genoeg is om in 90 à 95% van de nieuwe toepassingen een positieve validiteit te verwachten. De beschreven methode heeft naast veel weerklank overigens
ook veel kritiek ondervonden

72
Q

Het begrip construct validity is ingevoerd om de testpsychologie te redden uit het slop van
inhoudsloze correlatierekening. Begripsvalidering is een onmisbaar onderdeel van testconstructie. Wat men hier doet is door middel van empirisch onderzoek achterhalen wat de test
precies meet. Ook voor een psycholoog is dit van belang, om verschillende redenen. Waarom? 4x

A
  1. Ten eerste leidt, zoals gezegd, het blind toepassen van een test ter voorspelling van een criterium,
    zonder zich af te vragen waarom de voorspelling werkt, niet tot noodzakelijk inzicht.
  2. Ten
    tweede impliceert het blind afgaan op de grootste correlaties, dat men eigenlijk alle mogelijke
    predictoren zou moeten onderzoeken op hun geschiktheid voor de voorspelling. Praktisch
    gezien is dit onbegonnen werk. In de praktijk wordt wel degelijk een keuze gemaakt voor een
    beperkt aantal tests, op basis van een meer of minder expliciete inhoudelijke analyse van het
    criterium en de test.
  3. Ten derde kan er sprake zijn van een unieke of zeldzame situatie, waarvoor niet of nauwelijks een criterium valt vast te stellen. Er bestaat dan weinig houvast voor
    voorspellingen. Als een psycholoog wel inzicht heeft in de psychologische betekenis van het
    testgedrag zelf, kunnen er wel enkele hypothesen worden geformuleerd over de mogelijke
    samenhang met belangrijke aspecten van de functie.
  4. Ten vierde kan de psycholoog die zonder
    theorie te werk gaat in de knel komen bij de vraag de onderzochte te beschrijven.
  5. Ten vijfde
    bieden betekenisanalyse en begripsvaliditeit een mogelijkheid om het ‘onaantastbare’ criterium van zijn voetstuk te halen en te analyseren.

De conclusie is dat de predictieve validiteit een onmisbaar begrip is voor de praktijk van het
voorspellend testgebruik, maar dat een test pas een werkelijk nuttige functie krijgt als met de
empirische correlaties tevens een begripsanalyse gepaard gaat

73
Q

De beantwoording van de vraag
wat een test of de items kunnen betekenen, kent eerst een creatieve fase, waarin wordt geprobeerd een theorie te vinden of op te stellen die het testgedrag kan verklaren. Om die
theorie te bevestigen dient een concrete en ondubbelzinnige voorspelling te worden geformuleerd. Als dat tot een positief resultaat leidt is dit een versterking van de theorie, een
negatief resultaat is een verzwakking van de theorie. Welke 4 punten zijn hierbij van belang?

A

Ten eerste is de eerste fase creatief. Hierbij zijn
de procedure en de methode niet voorgeschreven en bindend.

Ten tweede moet de voorspelling ondubbelzinnig te onderzoeken zijn, zodat de uitslag van het onderzoek naar de relatie
tussen test en criterium niet voor discussie vatbaar is.

Ten derde kan nooit definitief worden
bewezen of een test al of niet een bepaalde theoretische betekenis heeft.

Ten vierde is het
evenzeer van belang alternatieve hypothesen te kunnen verwerpen

74
Q

Wat is het verschil tussen begripsanalyse en begripsvalidering?

A

Het gaat in de betekenisanalyse dus om het vinden van een theorie of een theoretisch begrip
als verklaring voor het testgedrag, terwijl het bij begripsvalidering gaat om het empirisch bevestigen van deze verklaring

75
Q

Welke soorten begripsvalideringen zijn er?

Is het verschil gradueel of principieel?

A
  1. Bij ▌trekvalidering is de vraag aan de orde in hoeverre testgedrag verklaard
    kan worden met behulp van een persoonlijkheidstrek of een geschiktheid, en gaat het niet
    noodzakelijk om een theorie.
  2. Bij ▌nomologische validering is dit wel het geval, en wordt testgedrag verklaard uit een psychologische theorie. Op die manier wordt een theoretisch kader
    geïntroduceerd, met daarin een ▌nomologisch netwerk, een complex van begrippen en relaties tussen deze begrippen.

Gradueel

76
Q

Is eenmaal een trek of een nomologisch netwerk gekozen als potentiële verklaring van het
testgedrag, dan start de fase van de begripsvalidering. In deze fase dienen voorspellingen te
worden geformuleerd om te toetsen of de vermoedens over de test juist zijn.

Welke 2 vormen van begripsvalidering zijn er?

Hoe vindt het plaats?

A

confirmerende validering, waarbij de voorspelling dient om de oorspronkelijke
hypothese te bevestigen, en de ▌discriminante validering, om alternatieve hypothesen te verwerpen

door middel van correlationeel onderzoek, maar
ook door experimenteel onderzoek. Dat gebeurt volgens strikte methodologische spelregels,
in tegenstelling tot het proces van het opwerpen van ideeën en hypothesen inzake de testbetekenis en alternatieve betekenissen. Hieraan is de volgende paragraaf gewijd.

77
Q

Er zijn twee manieren waarop een analyse van de structuurkenmerken van een test kan leiden
tot een hypothetisch inzicht in de betekenis van het testgedrag. (=betekenisanalyse).

Welke 2?

A

Ten eerste door psychologische analyse van de inhoud van de items. Deze werkwijze leidt tot iets wat veel lijkt op
indrukvaliditeit, maar het verschil is dat uit deze analyse slechts veronderstellingen voortkomen. Indien een veronderstelling onjuist is, blijkt dit wel in de toetsingsfase. Toetsing is nodig,
omdat er nogal eens uit naar voren komt dat tests iets anders meten dan werd gedacht.

  1. Ten
    tweede door de analyse van de formele kenmerken van de test, zoals het verschil tussen keuzeantwoorden en vrije antwoorden, de mate waarin de test een snelheidskarakter heeft, en
    of de bedoeling van de test voor de onderzochte te doorzien valt.
78
Q

Relatieonderzoek
Relatieonderzoek ter ondersteuning van de testbetekenis, dus als bron van ideeën of hypothesen, kent vier vormen. Welke 4?

A
  1. Spreiding en normen
    De onderzoeker kan gegevens over de spreiding en de normen verzamelen en in verschillende
    groepen bestuderen. Dit levert vaak bruikbare indicaties op van wat de test meet.
  2. Experimenteel onderzoek
    Een bron voor suggesties over de betekenis van het testgedrag is ook experimenteel onderzoek, bijvoorbeeld door de test voor te leggen onder meer of minder strenge tijdcondities
  3. Factoranalyse
  4. Wat kan de test voorspellen?
    Een belangrijk aanknopingspunt voor de vraag wat een test meet, is gelegen in het onderzoek
    van wat de test kan voorspellen. Er is dan ook sprake van wisselwerking tussen betekenisanalyse en predictieve validiteit.
79
Q

Wat is factoranalyse?

A

Met ▌factoranalyse wordt informatie die in een groot aantal variabelen is vervat, samengevat
in een geringer aantal variabelen, die factoren worden genoemd. De zin daarvan is dat zo een
grotere mate van inzichtelijkheid wordt verkregen. Inzicht kan dan leiden tot hypothesen over
de eigenschappen die aan de antwoorden of reacties ten grondslag liggen. Een factor is een
gewogen som van item- of testscores. De gewichten worden zodanig bepaald, dat de gewogen
somscore – de factorscore – zo veel mogelijk inzicht verschaft in de afzonderlijke items of test.
Bij het beantwoorden van de vraag wat tests gemeen hebben en waarin ze verschillen, wordt Met ▌factoranalyse wordt informatie die in een groot aantal variabelen is vervat, samengevat
in een geringer aantal variabelen, die factoren worden genoemd. De zin daarvan is dat zo een
grotere mate van inzichtelijkheid wordt verkregen. Inzicht kan dan leiden tot hypothesen over
de eigenschappen die aan de antwoorden of reacties ten grondslag liggen. Een factor is een
gewogen som van item- of testscores. De gewichten worden zodanig bepaald, dat de gewogen
somscore – de factorscore – zo veel mogelijk inzicht verschaft in de afzonderlijke items of test.
Bij het beantwoorden van de vraag wat tests gemeen hebben en waarin ze verschillen, wordt

80
Q

Meestal worden drie soorten factoren onderscheiden. Welke 3?

A

Algemene factoren, waarmee vrijwel
alle tests samenhangen, groepsfactoren, die meestal een kleiner deel van de tests vertegenwoordigen, en specifieke factoren, die gekoppeld zijn aan één test of enkele items eruit

81
Q

De waarde van factoranalyse wordt soms wat overtrokken. Het resultaat ervan is afhankelijk
van voorwaarden en uitgangspunten, waarvan er hier enkele genoemd worden. Welke 4?

A

a. De soort en de hoeveelheid van de variabelen die men in de analyse opneemt. Als men een
test in relatie tot andere tests onderzoekt, dan vormen de andere testscores gezamenlijk
het referentiekader waarmee de onderzochte test wordt vergeleken.

b. De steekproef waarop de analyse is uitgevoerd. Naarmate de steekproef meer variatie vertoont, worden hogere correlaties tussen de testscores gevonden. Daarmee kan het contrast tussen relatief hoge en relatief lage correlaties toenemen.

c. Enkele wiskundige en technische vooronderstellingen, die vaak een sterk arbitrair karakter
hebben. Keuzen die gemaakt worden hebben direct invloed op het resultaat en komen
voort uit soms expliciete, maar vaak ook impliciete vooronderstellingen.

d. De interpretatie van de resultaten van factoranalyse. Deze komt neer op een weloverwogen naamgeving van factoren op basis van niet veel meer dan een subjectieve inhoudsanalyse van de test zelf.

Wanneer men rekening houdt met de beperkingen, kan factoranalyse een belangrijk hulpmiddel zijn om inzicht te krijgen in de psychologische betekenis van tests.

82
Q

Begripsvalidering vindt zowel plaats door een bevestiging van de oorspronkelijke hypothese,
als door het verwerpen van concurrerende hypothesen die alternatieve verklaringen voor het
testgedrag geven. Dit komt er vaak op neer dat de test die wordt verondersteld eigenschap A
te meten, geen relatie mag vertonen met tests of variabelen die eigenschap B meten.
De waarde van het verwerpen van alternatieve verklaringen is niet steeds even groot. Waarom niet?

A

Ten eerste hangt dit af van de precisie van de experimentele opzet. Door een onjuiste opzet kan
ten onrechte een alternatieve verklaring worden verworpen.

Ten tweede hangt de waarde af
van de plausibiliteit van de alternatieve verklaring. Hier speelt in het bijzonder de wisselwerking tussen test en inhoudelijke theorie een rol.

83
Q

Van enkele alternatieve verklaringen is het verstandig ze
altijd te controleren bij begripsvalidering. Welke 3?

A
  1. Samenhang met intelligentie
    Ten eerste is het verstandig zowel tests voor prestatieniveau als tests voor gedragswijze te
    correleren met een intelligentietest, die wat de formele kenmerken betreft zo veel mogelijk
    op de onderzochte test lijkt.
  2. Sociale wenselijkheid als onbedoelde eigenschap
    Ten tweede kan men bij het zoeken naar plausibele alternatieve verklaringen denken aan de
    sociale wenselijkheid, die vooral bij persoonlijkheidsvragenlijsten een probleem kan vormen.
  3. Antwoordtendenties
84
Q

Welke 2 vormen van sociale wenselijkheid zijn er?

A

Bij individuele sociale wenselijkheid is sprake van een per individu variërende opvatting over wat sociaal wenselijke opvattingen zijn. Deze individuele vorm wordt
ook wel test attitude genoemd. Het gaat om een lastig te registreren fenomeen, omdat iemands opvattingen over wat sociaal wenselijke meningen en ervaringen zijn, kunnen
samenvallen met die meningen en ervaringen zelf.

In algemene sociale wenselijkheid komt
een algemeen aanvaarde opvatting over wat sociaal wenselijke antwoorden zijn naar voren.
Hoewel dit een veel voorkomend verschijnsel is, hebben de meeste goede vragenlijsten toch
een bruikbare correlatie met externe criteria, doordat de neiging tot het geven van sociaal
wenselijke antwoorden voor de voorspelling van allerlei ander gedrag relevant kan zijn. Niettemin kan het gewenst zijn de gevoeligheid van een test voor sociale wenselijkheid te reduceren. Lastige interpretaties zijn dan niet nodig. In het algemeen wordt reductie bevorderd
door een grotere subtiliteit van de opzet van de vragenlijst en de procedure van afneming.

85
Q

Ten derde moet bij het opwerpen van alternatieve verklaringen zeker gedacht worden aan
mogelijke beïnvloeding van het testgedrag door ▌antwoordtendenties of ▌response sets. Een
antwoordtendentie is een neiging tot een consistent keuzepatroon in het antwoordgedrag,
los van de inhoud van de vragen. Ter illustratie hieronder enkele voorbeelden. 8x

A
  1. Instemtendentie
    Onder de instemtendentie of acquiescence-set verstaan we het overmatig instemmen met de
    richting van de vraag. Bij de tendentie tot ontkennen is juist het omgekeerde het geval.
  2. Positievoorkeur
    Positievoorkeur houdt in dat sommige posities bij de antwoordmogelijkheden worden geprefereerd boven andere. Zo komt voorkeur voor de neutrale middenpositie voor antwoordschalen veel voor.
  3. Semantische interpretatie
    Antwoordtendenties kunnen ook gebaseerd zijn op verschillen in semantische interpretaties
    van de keuze- of beoordelingscategorieën, zoals ‘soms’ of ‘zelden’.
  4. Sequentietendentie
    Onder sequentietendentie verstaan we de neiging tot het kiezen van een bepaalde verdeling
    over de keuzemogelijkheden, of tot bepaalde regels in de opeenvolging van keuzes.
  5. Snelheidstendentie versus precisietendentie
    De tendentie om snelheid of precisie te benadrukken resulteert in uiteenlopende prestaties.
  6. Uitvoerigheidstendentie
    De tendentie tot uitvoerigheid of inclusiveness komt vooral voor bij vrije-antwoordentests en
    tests waarbij het aantal te geven antwoorden of oplossingen aan de proefpersoon wordt overgelaten, maar wel belangrijk is.
  7. Gistendentie
    De tendentie tot gissen varieert over personen. We hebben al gezien dat raden, zelfs als er
    voor gecorrigeerd wordt, over het algemeen toch tot een betere testscore leidt.
  8. Voorkeur voor formele kenmerken
    De tendentie om af te gaan op formele kenmerken van de keuzemogelijkheden uit zich bijvoorbeeld in de neiging de langste optie te kiezen, of in de voorkeur voor opties met technische op wetenschappelijke termen.
86
Q

Antwoordtendenties komen vooral door wat tot stand?

En sociale wenselijkheid?

A

de vorm van de vraag tot stand

Sociale wenselijkheid
wordt vooral door de inhoud van de vraag bepaald, en valt daarom niet onder de definitie van
antwoordtendentie. Er valt pas rekening te houden met antwoordtendenties als ze een zekere
mate van consistentie vertonen.

87
Q

Samenvatting: Het onderscheid tussen betrouwbaarheid en validiteit is al eerder beschreven. De betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare testscore uit de klassieke testtheorie en de persoonsparameter uit de item-responstheorie. Dit
interval geeft een indicatie van de nauwkeurigheid van de meting. Los daarvan staat de vraag
wat een test meet. Elke meting kan met verschillende graden van betrouwbaarheid gebeuren.
Een lage betrouwbaarheid houdt in dat een test wel een eigenschap meet, maar dit doet met
veel ruis. In deze zin is een dergelijke test nauwelijks valide te noemen. Een grote meetfout
betekent ook dat de test laag correleert met andere variabelen. De predictieve validiteit kan
dan ook niet anders dan gering zijn.

A
88
Q

In dit kader is het verhelderend een methode voor de evaluatie van tests in de context van
het onderzoek naar betrouwbaarheid en validiteit te bespreken. Campbell en Fiske voeren
een pleidooi voor evaluatie van tests met behulp van de ▌multitrek-multimethodebenadering,
die resulteert in een multitrek-multimethodematrix. Wat is belangrijk hierbij?

A

Belangrijk is hier het idee dat een test
voor een bepaalde eigenschap zou kunnen worden vervangen door een andere test. Iedere
test is in deze opvatting een trek-methode-eenheid, en de variantie van de testscore wordt
bepaald door zowel variantie in de gemeten trek als variantie in de methode (de test). Bij deze
benadering wordt dan geschat in hoeverre de variantie van de testscore wordt bepaald door
de variantie in de bedoelde trek, en juist niet door variantie ten gevolge van de gebruikte
methode of de variantie in de niet-bedoelde trekken. Om dit vast te stellen, dient de evaluatieprocedure van de test de meting van diverse trekken en het meten met verschillende methoden te omvatten.

89
Q

De multitrek-multimethodematrix bevat de correlaties die uit alle
combinaties van trekken en methoden ontstaan. WElke 4?

A

› b-waarden: de correlaties voor dezelfde trekken en dezelfde methoden (monotrek-monomethode-overlap). Dit is de betrouwbaarheid.

› v-waarden: de correlaties voor dezelfde trekken, maar gemeten met verschillende methoden (monotrek-heteromethode-overlap). Dit is de confirmerende validiteit.

› m-waarden: de correlaties voor dezelfde methode en verschillende trekken (heterotrekmonomethode-overlap). Dit is een indicatie van de methodevariantie.

› d-waarden: de correlaties voor verschillende trekken en verschillende methoden (heterotrek-heteromethode-overlap).

90
Q

Met betrekking tot de validiteit zijn vier overwegingen van belang bij de multitrek-multimethodematrix. Welke 4?

A
  1. De v-waarden moeten significant van nul verschillen en voldoende hoog zijn om het verder
    werken met de test te rechtvaardigen (confirmerende validiteit).
  2. De v-waarden moeten hoger zijn dan de d-waarden. Dit houdt immers in dat de validiteit
    van een variabele hoger is dan de correlatie tussen die variabele en iedere andere, die
    noch wat betreft inhoud noch wat betreft methode iets met de variabele gemeen heeft.
  3. De v-waarden moeten hoger zijn dan de m-waarden. Dit betekent dat twee onafhankelijke
    maten van dezelfde trek hoger moeten correleren dan twee verschillende trekken die met
    dezelfde methode zijn gemeten.
  4. Correlatiepatronen van m-waarden en d-waarden moeten ongeveer gelijk zijn.

De laatste drie verwachtingen vormen de basis voor een eventueel vast te stellen discriminante validiteit. Ze geven aan dat de test, los van de vraag of de v-waarden hoog genoeg zijn,
niet met andere trekken ongewenst hoog correleert, en dat de methode als zodanig niet voor
de hoge v-waarden verantwoordelijk is. Met de multitrek-multimethodebenadering wordt
een model geboden om in één ontwerp enerzijds de betrouwbaarheid en anderzijds zowel
confirmerende als discriminante validiteit van een test te onderzoeken.

91
Q

Wanneer de predictive validity laag is, kan men het criterium opsplitsen in enkele deelcriteria en de correlatie tussen de testscores en de deelcriteria bepalen.

In een dergelijk onderzoek is men geïnteresseerd in de….

A

synthetische validiteit

92
Q

Wanneer deskundigen het erover eens zijn dat een nieuwe test het begrip ‘neuroticisme’ beter meet dan een bestaande test, heeft de nieuwe test een grotere…

A

begripsvaliditeit.

93
Q

Een intelligentietest correleert slechts 0.10 met een criterium.

Hieruit kan worden geconcludeerd dat…..

A

Deze vraag is niet te beantwoorden zonder verdere gegevens.

94
Q

Kritiek op de validiteitsgeneralisatie van Schmidt en Hunter betreft voornamelijk het gebruik van…

A

te globale criteria.

95
Q

Kritiek op de validiteitsgeneralisatie van Schmidt en Hunter betreft voornamelijk het gebruik van…

A

te globale criteria.

96
Q

Volgens critici van de validiteitsgeneralisatie van Schmidt en Hunter wordt de gezamenlijke invloed van artefacten….

A

overschat.

97
Q

Het begrip ‘effectiviteit’ heeft betrekking op…

A

de representatieve correlatie tussen een bepaalde categorie tests en criteria.