H8: Validiteit Flashcards

Question

Geconstateerd wordt dat validiteitscoëfficiënten vaak laag zijn (gesuggereerd wordt lager dan 0.45). Hoe kunnen deze lage waarden worden verklaard?

Answer 1

Afgezien van een lage betrouwbaarheid van de test(s) zijn een of meer van de volgende factoren verantwoordelijk voor lage validiteitscoëfficiënten: a lage betrouwbaarheid van het criterium b afwijkingen van lineariteit van het verband tussen test- en criteriumscore c gebrek aan homogeniteit van de onderzochte groep (voor sommige groepen kan de validiteit hoger zijn dan voor andere groepen) d externe variabelen die er de oorzaak van zijn dat het criterium in de ene situatie een andere lading dekt dan in een andere situatie e test- en criteriumscore die in tijd ruim van elkaar verwijderd zijn. Als voorbeeld kan genoemd worden de validiteit van een IQ, gemeten op twaalfjarige leeftijd, voor de voorspelling van de eindexamencijfers vwo, die op ongeveer achttienjarige leeftijd worden verkregen. In de eerste plaats wordt de hoogte van de eindexamencijfers beïnvloed door meer factoren dan de intelligentie alleen. In de tweede plaats is de intelligentie wel in hoge mate betrouwbaar als tussen twee metingen één tot twee jaar ligt, maar iets minder betrouwbaar wanneer er ongeveer zes jaar tussen ligt. Het is goed denkbaar dat op achttienjarige leeftijd een beroep wordt gedaan op intelligentiefactoren die op twaalfjarige leeftijd niet of nauwelijks aan bod zijn gekomen.

Answer 2

Het begrip validiteit heeft betrekking op de vraag of de sprong van het testgedrag naar iets anders verantwoord is. Het proces van het verzamelen van evidentie voor deze rechtvaardiging is het valideringsproces, en de mate waarin die rechtvaardiging is gevonden wordt aangegeven met de term validiteit

Answer 3

We spreken van ▌predictie (toekomst), ▌paradictie (heden) en ▌postdictie (verleden).

Answer 4

Al bestaat er een aantoonbare relatie tussen twee begrippen, als de test geen goede operationalisering van deze begrippen is, dan heeft de voorspelling weinig kans van slagen.

Answer 5

Al bestaat er een aantoonbare relatie tussen twee begrippen, als de test geen goede operationalisering van deze begrippen is, dan heeft de voorspelling weinig kans van slagen.

Answer 6

de sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein. Die laatste score is in de praktijk niet beschikbaar. Daarom moet de score op een steekproef van items gebruikt worden. Deze definitie komt neer op het bepalen van de samenhang tussen de scores op twee tests die verondersteld worden equivalent te zijn. De correlatie is dan een schatting van de betrouwbaarheid van de afzonderlijke tests. De inhoudsvaliditeit is vervolgens alleen maar vast te stellen door een subjectieve beoordeling van de representativiteit van beide tests

Answer 7

Ten eerste het uitvinden welke eigenschappen een verklaring zouden kunnen geven van de testprestatie. Ten tweede het afleiden van toetsbare hypothesen uit die theorie die het construct verklaart. Ten derde het uitvoeren van een empirisch onderzoek om deze hypothesen te toetsen

Answer 8

Betekenisanalyse (verder besproken vanaf pagina 89) impliceert voor een belangrijk deel exploratief onderzoek, en bevat ook onderzoek naar de begripsvaliditeit, maar is breder. De definitie van begripsvaliditeit is enger dan die van construct validity.

Answer 9

selectie- en beroepskeuzepsychologie

Answer 10

Het is doorgaans niet de bedoeling testprestaties te voorspellen, maar vast te stellen in hoeverre een nieuwe test een bepaalde eigenschap meet. Het gaat hier om een onderdeel van het begripsvalideringsproces

Answer 11

Veel tests zijn jarenlang in gebruik geweest omdat ze indrukvaliditeit bezaten. Die ogenschijnlijke evidentie vormde zelfs een obstakel voor een werkelijk validiteitsonderzoek. Dit betekent niet dat een test geen indrukvaliditeit mag bezitten, integendeel zelfs

Answer 12

1. Testgegevens (predictor) 2. Criteriumgegevens Relatie tussen test en criterium vaststellen

Answer 13

1. Het ▌uiteindelijke criterium betreft het alomvattende doel van een concrete procedure. Dit abstracte criterium is zelden beschikbaar. 2. Daarom kiest men vaak een ▌tussentijds criterium 3. of een meer ▌onmiddellijk criterium.

Answer 14

1. Ten eerst wat betreft de tijd. Het uiteindelijke criterium ligt in de tijd ver verwijderd van het tijdstip van testen, terwijl tussentijds en onmiddellijk criterium dichterbij liggen. 2. Ten tweede de vraag in hoeverre het criterium beschikbaar is, kan worden geoperationaliseerd, of kan worden gekwantificeerd. Deze twee dimensies, tijd en abstractieniveau van de doelstelling, worden vaak onvoldoende gescheiden

Answer 15

een concretisering van het organisatiedoel in termen van zichtbare resultaten. Criteriummaat: een expliciete, ondubbelzinnige uitspraak of score, die betrekking heeft op criteriumgedrag of -prestaties. Dit bedoelden we tot nu toe impliciet met de term criterium. Het criteriumgedrag of de criteriumprestatie is waarneembaar en registreerbaar, en is relevant voor het conceptuele criterium.

Answer 16

welke criteriummaat het meest relevant is. Belangrijk is dus dat de meting van een criterium aan dezelfde eisen van betrouwbaarheid en validiteit moet voldoen als de test waarmee dit criterium wordt voorspeld

Answer 17

Predictieve validiteit

Answer 18

at de betrouwbaarheid van de maten hiervoor vaak omgekeerd evenredig is aan hun relevantie. Met moet trachten criteriummaten te vinden die nog zo betrouwbaar zijn dat ze de test niet op voorhand invalideren, maar niet zo irrelevant dat ze het conceptuele criterium niet meer weerspiegelen.

Answer 19

Fase 1: Operationalisering van het criterium Fase 2: Keuze en constructie van tests Fase 3: Proefafneming van bestaande of nieuwe tests Fase 4: Validatie van de testprocedure Fase 5: Samenstelling van de predictorbatterij Fase 6: Kruisvalidering

Answer 20

De eerste fase bestaat uit het operationeel maken van het criteriumgedrag, zoals beschreven in de vorige paragraaf

Answer 21

De tweede fase bestaat uit de keuze van mogelijk geschikte tests danwel de keuze of constructie van mogelijk geschikte items waaruit een of meer tests kunnen worden samengesteld. Deze keuze kan in meer of mindere mate gebaseerd zijn op een psychologische analyse van het criteriumgedrag en van de eisen die daarin gesteld worden.

Answer 22

De derde fase wordt gevormd door proefafnemingen van de bestaande of nieuw te construeren tests op diverse groepen proefpersonen uit de populatie waarvoor de testprocedure wordt ontworpen. Bij een bestaande test is een proefafneming alleen nodig als de procedure plaatsvindt in een populatie die afwijkt van de populatie waarvoor de test oorspronkelijk is geconstrueerd.

Answer 23

Een steekproef dient een zo getrouw mogelijke afspiegeling te zijn van de populatie waarvoor de test uiteindelijk wordt gebruikt. Representativiteit van de steekproef kan beter worden gegarandeerd indien men vooraf rekening houdt met de samenstelling van de populatie naar voor de test belangrijke demografische en persoonlijke variabelen, bijvoorbeeld door gebruik te maken van een gestratificeerde steekproef. Stratificeren is niet nodig als men een grote steekproef aselect uit een steekproef kan trekken, maar dan moet wel iedereen dezelfde kans hebben om in de steekproef te komen. Tot slot moet onderscheid worden gemaakt tussen het vooronderzoek en het hoofdonderzoek (zie hiervoor pagina 32). Het vooronderzoek dient als grove zeef om na te gaan of de proefpersonen begrijpen wat van hen wordt verlangd, of de items niet veel te moeilijk of gemakkelijk zijn, en of de testtijd realistisch is

Answer 24

Als de tests nog moeten worden geconstrueerd, en voor het vooronderzoek een steekproef wordt gebruikt, kan het vooronderzoek behalve voor de hiervoor genoemde doelen ook voor het verzamelen van informatie voor een itemanalyse worden gebruikt. In deze itemanalyse kunnen diverse aspecten van de testitems worden geëvalueerd, zoals de moeilijkheidsgraad en de item-restcorrelatie (zie hiervoor pagina 53)

Answer 25

als de test in de populatie de gehele schaal van de eigenschap dient te bestrijken. In het algemeen worden items niet alleen op basis van hun moeilijkheid in een test opgenomen, omdat dit het risico inhoudt dat er een test ontstaat die inhoudelijk heterogeen is of waarvan de score onbetrouwbaar is.

Answer 26

Een homogene test verkrijgt men door bijvoorbeeld factoranalyse (zie hiervoor pagina 89). Een andere mogelijkheid is dat de onderzoeker zelf items rechtstreeks in dezelfde test selecteert op basis van hun onderlinge correlaties, dus met hoge item-restcorrelaties. Hiermee wordt een relatief betrouwbare testscore verkregen, wat vooral goed te zien is aan Cronbachs alfa..

Answer 27

In de vierde fase heeft de daadwerkelijke validatie van de test plaats.

Answer 28

Als het om een in de toekomst liggend criterium gaat, is dit onderzoek veel moeilijker praktisch uitvoerbaar, omdat er soms jaren moeten liggen tussen het moment van testen en het moment waarop het criteriumgedrag wordt beoordeeld. Vaak ziet de onderzoeker zich dan gedwongen om het onderzoek uit te voeren op proefpersonen van wie de criteriumscores al beschikbaar of gemakkelijk te verzamelen zijn, in de hoop de gegevens te kunnen generaliseren naar het voorspellingsmodel. Die hoop is echter niet altijd terecht

Answer 29

1. Door de lange duur van het onderzoek is het kostbaar. 2. Ook is het de vraag van hoeveel proefpersonen uiteindelijk de criteriumscores ter beschikking komen. Uit de geselecteerde groep kunnen personen verdwijnen, waardoor sprake kan zijn van variatiebeperking. Hierdoor kunnen betrouwbaarheid en validiteit te laag worden ingeschat. 2. Een laatste probleem is dat de testuitslagen mogelijk bij een latere beoordelaar bekend raken. Als die zijn oordeel door deze kennis laat beïnvloeden, zijn testscore en criteriumscore niet meer onafhankelijk vastgesteld.

Answer 30

De testuitslagen raken mogelijk bij een latere beoordelaar bekend. Als die zijn oordeel door deze kennis laat beïnvloeden, zijn testscore en criteriumscore niet meer onafhankelijk vastgesteld. Dit verschijnsel heet ▌contaminatie van het criterium. Als hiervan sprake is, valt de correlatie tussen test- en criteriumscore kunstmatig hoog uit.

Answer 31

De genoemde correlatie tussen test- en criteriumscore is een aanduiding van de validiteit en wordt daarom de ▌validiteitscoëfficiënt genoemd.

Answer 32

1. kromlijnige relatie: en lage testscore gaat gepaard met een lage criteriumscore, een hogere testscore met een hoge criteriumscore, maar een zeer hoge testscore weer met een lage criteriumscore. 2. heteroscedastische relatie. val bestaat er wel een verband tussen de lagere waarden van test- en criteriumscore, maar niet voor de hogere waarden. Het is zelfs zo dat, naarmate X toeneemt, de spreiding van mogelijke waarden van Y toeneemt. n beide situaties geldt dat toepassing van de product-momentcorrelatie op test en criterium een lage waarde oplevert, terwijl wel degelijk sprake is van een interessante relatie tussen beide variabelen. Het kritiekloos gebruik van de product-momentcorrelatie is dan ook onverstandig

Answer 33

Stel, we hebben twee testscores X1 en X2 en een criteriumscore Y. We nemen aan dat X1 en Y positief correleren, en X2 en Y nul. De twee testscores correleren positief. Als we afgaan op de beide validiteitscoëfficiënten lijkt het alsof X1 wel nuttig is voor de voorspelling van Y en X2 niet. Vanwege de positieve correlatie tussen beide testscores is die conclusie niet terecht. Kennelijk is het zo dat X2 met een deel van X1 correleert dat zelf niet met Y correleert. Wanneer we nu met behulp van X2 dit deel uit X1 verwijderen, dan blijft een voor X2 gecorrigeerde variabele 𝑋1 ′over, die sterker met Y correleert dan de ongecorrigeerde X1. In dit geval is X2 de suppressorvariabele. Door bijvoorbeeld de scores op een rekentoets X1 te corrigeren voor taalvaardigheid X2, die op zich irrelevant is voor een voorspelling van Y, kan een betere voorspelling worden verkregen.

Answer 34

Dit is een variabele die zelf niet of nauwelijks hoeft te correleren met een criteriumscore Y, maar die wel de relatie van andere variabelen met Y beïnvloedt. In valideringsonderzoek kan het zeer de moeite waard zijn met moderatoren rekening te houden. Niet alleen verduidelijken die de relatie tussen test en criterium, zij maken ook duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een populatie bruikbaar zijn om een criterium te voorspellen.

Answer 35

Dan wordt de correlatie met het criterium daardoor nog extra verhoogd.

Answer 36

De tests waarvoor een goede validiteit is gevonden, worden vervolgens gecombineerd in een maximaal voorspellende testbatterij. Meervoudige regressie. n het regressiemodel worden testscores gewogen en vervolgens opgeteld tot een voorspelling van de criteriumscore. Bij m tests met scores Xg en gewichten bg kan het model worden weergegeven als 𝑌̂ = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2 + ⋯ + 𝑏𝑚𝑋𝑚. Een gewicht is relatief groot als de test hoog correleert met criterium Y en laag met andere tests. Ideaal is daarom een batterij van tests die weinig overlap vertonen en alle een uniek aspect van Y verklaren. Zinloze redundantie wordt in het regressiemodel afgestraft met lage gewichten voor diverse van deze tests.

Answer 37

In de multipele correlatie. Dit is de correlatie van de gewogen voorspelling 𝑌̂ op basis van de hele testbatterij, met het geobserveerde criterium Y.

Answer 38

Kruisvalidering of ▌cross validation houdt in dat het statistische voorspellingsmodel dat is gevonden op basis van de steekproefgegevens, wordt gecontroleerd op een nieuwe, representatieve steekproef, afkomstig uit dezelfde populatie

Answer 39

De reden voor de kruisvalidatie is dat een uiteindelijk gekozen regressiemodel vaak tot stand komt na het uitproberen van een groot aantal varianten. Naarmate de steekproef kleiner is, leunt dit proberen sterker op de toevallige samenstelling ervan, en worden beslissingen over tussentijdse wijzigingen van het model genomen op basis van steeds onnauwkeuriger geschatte regressiegewichten. Als gevolg daarvan worden behalve goede ook foute beslissingen genomen, en als men veel modellen probeert stapelen die fouten zich op. Er treedt dan ▌kanskapitalisatie op, en het gevonden model past dan eigenlijk te goed bij deze toevallige steekproef, maar niet meer bij de populatie

Answer 40

Kruisvalidering is van groot belang in vrijwel elk onderzoek waarin een effect of een relatie wordt geschat. Het is daarom des te opmerkelijker dat het zo weinig gebeurt. Overigens is de vraag of het uiteindelijke model ook daadwerkelijk leidt tot betere beslissingen, belangrijker dan een succesvolle kruisvalidatie. Duidelijk is wel dat een robuust model meer kans maakt om tot juiste beslissingen te leiden.

Answer 41

Dit hangt ervan af of er voorafgaand aan de voorspelling al relevante informatie beschikbaar was. Als dat het geval is, kunnen juist tests die op zich minder valide zijn, maar die een beroep doen op unieke eigenschappen, toch een bijdrage aan de voorspelling leveren.

Answer 42

1. Geringe betrouwbaarheid van het criterium 2. Miskenning van niet-lineaire relatie tussen predictor en criterium 3. Negeren van de complexe samenstelling van groepen 4. Negeren van de variabele betekenis van het criterium in verschillende organisaties 5. Onterechte vereenvoudiging van het criterium

Answer 43

1. Ten eerste wordt complex criteriumgedrag nogal eens samengevat in een globale criteriummaat, waardoor nuance verloren gaat en een goede voorspelling lastig wordt. De achtergrond hiervan is dat conceptuele criteria uitgaan van globale typeringen, die complexe begrippen betreffen. Deze begrippen dienen op zorgvuldige wijze te worden geoperationaliseerd en meetbaar te worden gemaakt. 2. Ten tweede is criteriumgedrag aan het moment van de vaststelling en meting gebonden en niet zonder meer generaliseerbaar in de tijd. Het is dus van belang dat naast de inhoud ook het moment van meting van het criterium in ogenschouw wordt genomen. Een andere mogelijkheid is dat men zich niet richt op een momentopname, maar op de veranderingen die optreden tussen twee of meer momenten.

Answer 44

Dat er geen nieuw validiteitsonderzoek nodig is.

Answer 45

1. in hoeverre predictieve validiteit daadwerkelijk situatiespecifiek is 2. in hoeverre gebleken validiteit kan worden gegeneraliseerd naar nieuwe voorspellingssituaties.

Answer 46

. Voor de beantwoording van de vraag naar situatiespecificiteit wordt eerst een verzameling gevormd van tests die ongeveer dezelfde eigenschap meten, en van functies die uit een bredere verzameling van gelijksoortige functies afkomstig zijn. Voor alle combinaties van een specifieke test en specifiek functiegedrag worden vervolgens de beschikbare validiteitscoëfficiënten verzameld. Daarna worden deze coëfficiënten opgevat als de waarden van een variabele, en wordt van deze waarden de standaarddeviatie bepaald. Deze standaarddeviatie geeft de variatie in gevonden validiteitscoëfficiënten van een bepaald type test over praktische toepassingen. Deze variatie is deels het gevolg van methodologische fouten en niet van inhoudelijke verschillen. Deze methodologische fouten betreffen volgens Schmidt en Hunter steekproeffouten, onbetrouwbaarheid van predictoren en criteria, en beperking van de variatiebreedte. De crux van de methode is dat de standaarddeviatie wordt gecorrigeerd voor de methodologische fouten. Wanneer na de correctie de standaarddeviatie gelijk is aan nul, betekent dit dat de hypothese van situatiespecificiteit kan worden verworpen. Uit onderzoek hiernaar blijkt dat validiteitscoëfficiënten in veel gevallen niet of maar weinig situatiespecifiek zijn en dat generalisatie mogelijk is

Answer 47

Voor de beantwoording van de vraag in hoeverre gebleken validiteit kan worden gegeneraliseerd naar nieuwe voorspellingssituaties, wordt een schatting gemaakt van de, wederom voor methodologische fouten gecorrigeerde, effectiviteit. Deze effectiviteit kan worden opgevat als de representatieve validiteit binnen een specifieke categorie van tests en functies. Mocht de standaarddeviatie van de validiteitscoëfficiënten na correctie niet gelijk zijn aan nul, dan wordt een betrouwbaarheidsinterval berekend waarvan het tiende percentiel doorgaans wordt beschouwd als een ondergrens voor de validiteit. Op basis van zowel effectiviteit als ondergrens kunnen uitspraken worden gedaan over te verwachten validiteiten in toekomstige selectiesituaties. Op basis van empirisch onderzoek blijkt dat de effectiviteit groot genoeg en de resterende variantie klein genoeg is om in 90 à 95% van de nieuwe toepassingen een positieve validiteit te verwachten. De beschreven methode heeft naast veel weerklank overigens ook veel kritiek ondervonden

Answer 48

1. Ten eerste leidt, zoals gezegd, het blind toepassen van een test ter voorspelling van een criterium, zonder zich af te vragen waarom de voorspelling werkt, niet tot noodzakelijk inzicht. 2. Ten tweede impliceert het blind afgaan op de grootste correlaties, dat men eigenlijk alle mogelijke predictoren zou moeten onderzoeken op hun geschiktheid voor de voorspelling. Praktisch gezien is dit onbegonnen werk. In de praktijk wordt wel degelijk een keuze gemaakt voor een beperkt aantal tests, op basis van een meer of minder expliciete inhoudelijke analyse van het criterium en de test. 3. Ten derde kan er sprake zijn van een unieke of zeldzame situatie, waarvoor niet of nauwelijks een criterium valt vast te stellen. Er bestaat dan weinig houvast voor voorspellingen. Als een psycholoog wel inzicht heeft in de psychologische betekenis van het testgedrag zelf, kunnen er wel enkele hypothesen worden geformuleerd over de mogelijke samenhang met belangrijke aspecten van de functie. 4. Ten vierde kan de psycholoog die zonder theorie te werk gaat in de knel komen bij de vraag de onderzochte te beschrijven. 5. Ten vijfde bieden betekenisanalyse en begripsvaliditeit een mogelijkheid om het ‘onaantastbare’ criterium van zijn voetstuk te halen en te analyseren. De conclusie is dat de predictieve validiteit een onmisbaar begrip is voor de praktijk van het voorspellend testgebruik, maar dat een test pas een werkelijk nuttige functie krijgt als met de empirische correlaties tevens een begripsanalyse gepaard gaat

Answer 49

Ten eerste is de eerste fase creatief. Hierbij zijn de procedure en de methode niet voorgeschreven en bindend. Ten tweede moet de voorspelling ondubbelzinnig te onderzoeken zijn, zodat de uitslag van het onderzoek naar de relatie tussen test en criterium niet voor discussie vatbaar is. Ten derde kan nooit definitief worden bewezen of een test al of niet een bepaalde theoretische betekenis heeft. Ten vierde is het evenzeer van belang alternatieve hypothesen te kunnen verwerpen

Answer 50

Het gaat in de betekenisanalyse dus om het vinden van een theorie of een theoretisch begrip als verklaring voor het testgedrag, terwijl het bij begripsvalidering gaat om het empirisch bevestigen van deze verklaring

Answer 51

1. Bij ▌trekvalidering is de vraag aan de orde in hoeverre testgedrag verklaard kan worden met behulp van een persoonlijkheidstrek of een geschiktheid, en gaat het niet noodzakelijk om een theorie. 2. Bij ▌nomologische validering is dit wel het geval, en wordt testgedrag verklaard uit een psychologische theorie. Op die manier wordt een theoretisch kader geïntroduceerd, met daarin een ▌nomologisch netwerk, een complex van begrippen en relaties tussen deze begrippen. Gradueel

Answer 52

confirmerende validering, waarbij de voorspelling dient om de oorspronkelijke hypothese te bevestigen, en de ▌discriminante validering, om alternatieve hypothesen te verwerpen door middel van correlationeel onderzoek, maar ook door experimenteel onderzoek. Dat gebeurt volgens strikte methodologische spelregels, in tegenstelling tot het proces van het opwerpen van ideeën en hypothesen inzake de testbetekenis en alternatieve betekenissen. Hieraan is de volgende paragraaf gewijd.

Answer 53

Ten eerste door psychologische analyse van de inhoud van de items. Deze werkwijze leidt tot iets wat veel lijkt op indrukvaliditeit, maar het verschil is dat uit deze analyse slechts veronderstellingen voortkomen. Indien een veronderstelling onjuist is, blijkt dit wel in de toetsingsfase. Toetsing is nodig, omdat er nogal eens uit naar voren komt dat tests iets anders meten dan werd gedacht. 2. Ten tweede door de analyse van de formele kenmerken van de test, zoals het verschil tussen keuzeantwoorden en vrije antwoorden, de mate waarin de test een snelheidskarakter heeft, en of de bedoeling van de test voor de onderzochte te doorzien valt.

Answer 54

1. Spreiding en normen De onderzoeker kan gegevens over de spreiding en de normen verzamelen en in verschillende groepen bestuderen. Dit levert vaak bruikbare indicaties op van wat de test meet. 2. Experimenteel onderzoek Een bron voor suggesties over de betekenis van het testgedrag is ook experimenteel onderzoek, bijvoorbeeld door de test voor te leggen onder meer of minder strenge tijdcondities 3. Factoranalyse 4. Wat kan de test voorspellen? Een belangrijk aanknopingspunt voor de vraag wat een test meet, is gelegen in het onderzoek van wat de test kan voorspellen. Er is dan ook sprake van wisselwerking tussen betekenisanalyse en predictieve validiteit.

Answer 55

Met ▌factoranalyse wordt informatie die in een groot aantal variabelen is vervat, samengevat in een geringer aantal variabelen, die factoren worden genoemd. De zin daarvan is dat zo een grotere mate van inzichtelijkheid wordt verkregen. Inzicht kan dan leiden tot hypothesen over de eigenschappen die aan de antwoorden of reacties ten grondslag liggen. Een factor is een gewogen som van item- of testscores. De gewichten worden zodanig bepaald, dat de gewogen somscore – de factorscore – zo veel mogelijk inzicht verschaft in de afzonderlijke items of test. Bij het beantwoorden van de vraag wat tests gemeen hebben en waarin ze verschillen, wordt Met ▌factoranalyse wordt informatie die in een groot aantal variabelen is vervat, samengevat in een geringer aantal variabelen, die factoren worden genoemd. De zin daarvan is dat zo een grotere mate van inzichtelijkheid wordt verkregen. Inzicht kan dan leiden tot hypothesen over de eigenschappen die aan de antwoorden of reacties ten grondslag liggen. Een factor is een gewogen som van item- of testscores. De gewichten worden zodanig bepaald, dat de gewogen somscore – de factorscore – zo veel mogelijk inzicht verschaft in de afzonderlijke items of test. Bij het beantwoorden van de vraag wat tests gemeen hebben en waarin ze verschillen, wordt

Answer 56

Algemene factoren, waarmee vrijwel alle tests samenhangen, groepsfactoren, die meestal een kleiner deel van de tests vertegenwoordigen, en specifieke factoren, die gekoppeld zijn aan één test of enkele items eruit

Answer 57

a. De soort en de hoeveelheid van de variabelen die men in de analyse opneemt. Als men een test in relatie tot andere tests onderzoekt, dan vormen de andere testscores gezamenlijk het referentiekader waarmee de onderzochte test wordt vergeleken. b. De steekproef waarop de analyse is uitgevoerd. Naarmate de steekproef meer variatie vertoont, worden hogere correlaties tussen de testscores gevonden. Daarmee kan het contrast tussen relatief hoge en relatief lage correlaties toenemen. c. Enkele wiskundige en technische vooronderstellingen, die vaak een sterk arbitrair karakter hebben. Keuzen die gemaakt worden hebben direct invloed op het resultaat en komen voort uit soms expliciete, maar vaak ook impliciete vooronderstellingen. d. De interpretatie van de resultaten van factoranalyse. Deze komt neer op een weloverwogen naamgeving van factoren op basis van niet veel meer dan een subjectieve inhoudsanalyse van de test zelf. Wanneer men rekening houdt met de beperkingen, kan factoranalyse een belangrijk hulpmiddel zijn om inzicht te krijgen in de psychologische betekenis van tests.

Answer 58

Ten eerste hangt dit af van de precisie van de experimentele opzet. Door een onjuiste opzet kan ten onrechte een alternatieve verklaring worden verworpen. Ten tweede hangt de waarde af van de plausibiliteit van de alternatieve verklaring. Hier speelt in het bijzonder de wisselwerking tussen test en inhoudelijke theorie een rol.

Answer 59

1. Samenhang met intelligentie Ten eerste is het verstandig zowel tests voor prestatieniveau als tests voor gedragswijze te correleren met een intelligentietest, die wat de formele kenmerken betreft zo veel mogelijk op de onderzochte test lijkt. 2. Sociale wenselijkheid als onbedoelde eigenschap Ten tweede kan men bij het zoeken naar plausibele alternatieve verklaringen denken aan de sociale wenselijkheid, die vooral bij persoonlijkheidsvragenlijsten een probleem kan vormen. 3. Antwoordtendenties

Answer 60

Bij individuele sociale wenselijkheid is sprake van een per individu variërende opvatting over wat sociaal wenselijke opvattingen zijn. Deze individuele vorm wordt ook wel test attitude genoemd. Het gaat om een lastig te registreren fenomeen, omdat iemands opvattingen over wat sociaal wenselijke meningen en ervaringen zijn, kunnen samenvallen met die meningen en ervaringen zelf. In algemene sociale wenselijkheid komt een algemeen aanvaarde opvatting over wat sociaal wenselijke antwoorden zijn naar voren. Hoewel dit een veel voorkomend verschijnsel is, hebben de meeste goede vragenlijsten toch een bruikbare correlatie met externe criteria, doordat de neiging tot het geven van sociaal wenselijke antwoorden voor de voorspelling van allerlei ander gedrag relevant kan zijn. Niettemin kan het gewenst zijn de gevoeligheid van een test voor sociale wenselijkheid te reduceren. Lastige interpretaties zijn dan niet nodig. In het algemeen wordt reductie bevorderd door een grotere subtiliteit van de opzet van de vragenlijst en de procedure van afneming.

Answer 61

1. Instemtendentie Onder de instemtendentie of acquiescence-set verstaan we het overmatig instemmen met de richting van de vraag. Bij de tendentie tot ontkennen is juist het omgekeerde het geval. 2. Positievoorkeur Positievoorkeur houdt in dat sommige posities bij de antwoordmogelijkheden worden geprefereerd boven andere. Zo komt voorkeur voor de neutrale middenpositie voor antwoordschalen veel voor. 3. Semantische interpretatie Antwoordtendenties kunnen ook gebaseerd zijn op verschillen in semantische interpretaties van de keuze- of beoordelingscategorieën, zoals ‘soms’ of ‘zelden’. 4. Sequentietendentie Onder sequentietendentie verstaan we de neiging tot het kiezen van een bepaalde verdeling over de keuzemogelijkheden, of tot bepaalde regels in de opeenvolging van keuzes. 5. Snelheidstendentie versus precisietendentie De tendentie om snelheid of precisie te benadrukken resulteert in uiteenlopende prestaties. 6. Uitvoerigheidstendentie De tendentie tot uitvoerigheid of inclusiveness komt vooral voor bij vrije-antwoordentests en tests waarbij het aantal te geven antwoorden of oplossingen aan de proefpersoon wordt overgelaten, maar wel belangrijk is. 7. Gistendentie De tendentie tot gissen varieert over personen. We hebben al gezien dat raden, zelfs als er voor gecorrigeerd wordt, over het algemeen toch tot een betere testscore leidt. 8. Voorkeur voor formele kenmerken De tendentie om af te gaan op formele kenmerken van de keuzemogelijkheden uit zich bijvoorbeeld in de neiging de langste optie te kiezen, of in de voorkeur voor opties met technische op wetenschappelijke termen.

Answer 62

de vorm van de vraag tot stand Sociale wenselijkheid wordt vooral door de inhoud van de vraag bepaald, en valt daarom niet onder de definitie van antwoordtendentie. Er valt pas rekening te houden met antwoordtendenties als ze een zekere mate van consistentie vertonen.

Answer 63

Belangrijk is hier het idee dat een test voor een bepaalde eigenschap zou kunnen worden vervangen door een andere test. Iedere test is in deze opvatting een trek-methode-eenheid, en de variantie van de testscore wordt bepaald door zowel variantie in de gemeten trek als variantie in de methode (de test). Bij deze benadering wordt dan geschat in hoeverre de variantie van de testscore wordt bepaald door de variantie in de bedoelde trek, en juist niet door variantie ten gevolge van de gebruikte methode of de variantie in de niet-bedoelde trekken. Om dit vast te stellen, dient de evaluatieprocedure van de test de meting van diverse trekken en het meten met verschillende methoden te omvatten.

Answer 64

› b-waarden: de correlaties voor dezelfde trekken en dezelfde methoden (monotrek-monomethode-overlap). Dit is de betrouwbaarheid. › v-waarden: de correlaties voor dezelfde trekken, maar gemeten met verschillende methoden (monotrek-heteromethode-overlap). Dit is de confirmerende validiteit. › m-waarden: de correlaties voor dezelfde methode en verschillende trekken (heterotrekmonomethode-overlap). Dit is een indicatie van de methodevariantie. › d-waarden: de correlaties voor verschillende trekken en verschillende methoden (heterotrek-heteromethode-overlap).

Answer 65

1. De v-waarden moeten significant van nul verschillen en voldoende hoog zijn om het verder werken met de test te rechtvaardigen (confirmerende validiteit). 2. De v-waarden moeten hoger zijn dan de d-waarden. Dit houdt immers in dat de validiteit van een variabele hoger is dan de correlatie tussen die variabele en iedere andere, die noch wat betreft inhoud noch wat betreft methode iets met de variabele gemeen heeft. 3. De v-waarden moeten hoger zijn dan de m-waarden. Dit betekent dat twee onafhankelijke maten van dezelfde trek hoger moeten correleren dan twee verschillende trekken die met dezelfde methode zijn gemeten. 4. Correlatiepatronen van m-waarden en d-waarden moeten ongeveer gelijk zijn. De laatste drie verwachtingen vormen de basis voor een eventueel vast te stellen discriminante validiteit. Ze geven aan dat de test, los van de vraag of de v-waarden hoog genoeg zijn, niet met andere trekken ongewenst hoog correleert, en dat de methode als zodanig niet voor de hoge v-waarden verantwoordelijk is. Met de multitrek-multimethodebenadering wordt een model geboden om in één ontwerp enerzijds de betrouwbaarheid en anderzijds zowel confirmerende als discriminante validiteit van een test te onderzoeken.

Answer 66

synthetische validiteit

Answer 67

begripsvaliditeit.

Answer 68

Deze vraag is niet te beantwoorden zonder verdere gegevens.

Answer 69

te globale criteria.

Answer 70

te globale criteria.

Answer 71

overschat.

Answer 72

de representatieve correlatie tussen een bepaalde categorie tests en criteria.

H8: Validiteit Flashcards

(97 cards)