Hoofdstuk 8. Validiteit Flashcards
Validiteit
De mate waarin de test aan zijn doel beantwoordt. Het kan dus zo zijn dat een test voor het ene doel zeer valide is en voor de andere helemaal niet. De vaststelling van de validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of tests die alle zijn op te vatten als operationaliseringen van hypothetische begrippen. Validiteit wordt ook wel gedefinieerd als de mate waarin evidentie en theorie de interpretatie van de testscores ondersteunen bij het gebruik van de test.
Valideringsproces
Het proces van het verzamelen van de (evidentie) hoogste zekerheid voor de rechtvaardiging van de sprong van het testgedrag naar ‘iets anders’.
Twee mogelijke doelen voor validiteit
- De test als voorspeller van ander gedrag. Voorspelling wordt opgevat als het doen van een uitspraak over feiten waarvoor we geen directe evidentie hebben, maar waarover we een conclusie formuleren op basis van de kennis van gegevens. Hierbij wordt gesproken over predictie (toekomst) paradictie (heden) en Postdictie (verleden). Er moet natuurlijk wel een aantoonbare relatie zijn tussen de begrippen en er moet sprake zijn van een zinvolle operationalisering.
- De test als operationalisering van een psychologisch begrip. Het gaat expliciet om het theoretische begrip zelf. Het gaat om de vraag naar capaciteit, persoonlijkheidstrek of attitude die verantwoordelijk zullen zijn voor testscore. Relaties met operationaliseringen van andere psychologische begrippen worden betrokken.
Predictie methodologisch
Een term die gebruikt wordt voor het doen van een uitspraak over niet waargenomen gedrag buiten de testsituatie.
Predictieve validiteit (PV) v.s. Begripsvaliditeit (BV)
Predictief: Maakt de test daadwerkelijk een juiste voorspelling mogelijk?
Begrip: In hoeverre dekt de test het bedoelde psychologische begrip? Meet de test de
eigenschap?
Beide hebben aanrakingsvlakken. Een test voor diagnostiek staat nooit op zichzelf. Je wilt altijd weten wat er speelt en welke behandeling dan mogelijk is.
8 verschillende vormen van validiteit
- Predictive validity wordt vastgesteld door na te gaan in welke mate de voorspellingen, gedaan op basis van testprestatie, worden bevestigd door gegevens of observaties verzameld op een later moment. VB. schoolkeuze. (PV)
- Concurrent validity wordt beoordeeld door na te gaan hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Dus niet in de toekomst zoals bij predictive maar gelijk.
- Content validity (inhoudsvaliditeit). De sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein. VB. Kennistoetsen. Empirisch onderzoek ontbreekt vaak dus het is subjectief. (BV)
- Construct validity. Onderzoek naar welke psychologische eigenschappen worden door de test gemeten. Deze eigenschappen zijn hypothetische constructs. Construct validity heeft drie onderdelen. 1. Uitvinden welke eigenschap een verklaring kan zijn voor de prestatie. 2. Afleiden van toetsbare hypothesen. 3. Uitvoeren van empirisch onderzoek. (neigt naar BV)
- Synthetische validiteit. Gericht op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag ipv complex criterium. B.v. elementen uit criterium leiderschap. (BV)
- Congruent validity. Soortgenootvaliditeit, geeft de mate aan waarin een test correleert met een andere test die dezelfde eigenschap meet. VB testen vergelijken (onderdeel van BV).
- Face validity. Indrukvaliditeit. De betekenis v.d. test of de relatie tussen test en criterium lijkt zonder meer duidelijk, gemeten naar de subjectieve indruk van de leek of psycholoog zelf. Dit hoeft niet empirisch gesteund te worden (BV verwant)
- Incremental validity. Verbetering van de voorspeling m.b.v. een test ten opzichte van voorspellingen die worden gedaan op basis van reeds aanwezig informatie. VB levensloopgeschiedenis.
Validiteit als eenledig concept
Verschillende terminologie rond validiteit kan het moeilijk maken om eenduidige uitspraken te doen over de validiteit van een specifieke toepassing van een test in een specifieke context. Want wat is je uiteindelijke oordeel over de validiteit van een test als deze goed scoort op validiteit A, minder op validiteit B enz. Als reactie daarop wordt in de Standards for Educational and Psychological Testing simpelweg gesproken over ‘validiteit’ als eenledig concept waarmee wordt benadrukt dat de validiteit van test altijd een geïntegreerd oordeel is op basis van heel veel stukjes informatie die elk bijdragen aan een antwoord op de vraag naar validiteit. De verschillende soort validiteit worden gezien als verschillende aspecten.
Predictieve validiteit
Bij de predictieve validiteit gaat het om de vraag hoe goed een criterium valt te voorspellen. De criteriuminformatie moet geschat worden vanuit kennis van de predictor. Het schatten van de testprestaties gebeurt bijvoorbeeld door in de regressieformule informatie te gebruiken over de relatie tussen test- en criteriumscore, verkregen in een eerder onderzoek.
Drie typen criterium
- Uiteindelijk (ultimate) criterium. Het alomvattende, uiteindelijke doel van een concrete procedure. Dit is zeer abstract en dus kan een test deze doelstelling zelden of nooit voorspellen (b.v. latere beroepsprestaties).
- Tussentijds (intermediate) criterium. B.v. prestaties op eindexamen.
- Onmiddellijk (immerdiate) criterium. B.v. totaal behaalde ECD na jaar 1.
Conceptuele criterium
Het conceptuele criterium is een concretisering van het uiteindelijke doel van de testgebruiker in termen van zichtbare resultaten. Van het conceptuele criterium wordt een criteriummaat of -score afgeleid. Een criteriummaat is een expliciete, ondubbelzinnige uitspraak of score die betrekking heeft op het criteriumgedrag of de criteriumprestatie. Deze is waarneembaar en registreerbaar en relevant voor het conceptuele criterium. De meting van een criterium moet aan dezelfde eisen van betrouwbaarheid en validiteit voldoen als de test waarmee dit criterium wordt voorspeld. De relatie tussen criteriumgedrag (of –scores) en het erachter liggende conceptuele criterium (en uiteindelijke doel) is niet voor empirisch onderzoek toegankelijk, dus moet rationeel beoordeeld worden. In de praktijk wil men ook weten wat de relatie is tussen twee criteriummaten. (Dichtbij; opleidingscriterium en later: prestatiecriterium) Deze blijkt nogal eens zwak.
Opzet van een test(batterij) met predictieve validiteit
- Operationalisering van het criterium. Een zo exact mogelijke criteriummaat.
- Keuze en constructie van tests of mogelijk geschikte items. Deze keuze kan gebaseerd zijn op een psychologische analyse van het criteriumgedrag en de eisen die daarin gesteld worden.
- Proefafneming van bestaande of nieuwe tests op diverse groepen poefpersonen uit de populatie. Bij een bestaande test is dit alleen nodig als de test plaatsvindt in een populatie die afwijkt van de populatie waarvoor de test oorspronkelijk bedoeld was. Heeft de test in de nieuwe populatie een goede rxx’ en validiteit? Er wordt onderscheid gemaakt tussen vooronderzoek en hoofdonderzoek.
- Validatie van de testprocedure. Nagegaan wordt in hoeverre de test het criterium kan voorspellen. Indien de criteriumscores van de proefpersonen niet beschikbaar zijn, dienen zij uiteraard (alsnog of in de loop van de tijd) verzameld te worden bij dezelfde personen als van wie de predictorscores verkregen zijn.
- Samenstelling van de predictorbatterij. Hierin worden, als verscheidene tests zijn gekozen of samengesteld, de tests waarvoor men een bruikbare validiteit heeft gevonden, gecombineerd in een maximaal voorspellende testbatterij.
- Kruisvalidering. In een tweede onderzoek op een onafhankelijke, vergelijkbare steekproef dient het onderzoek te worden gerepliceerd om de in de eerste validatie gevonden correlaties of verschillen te onderzoeken op hun robuustheid.
Populatie en steekproef (fase 3)
Een steekproef waarop items en tests worden beoordeeld moet een zo getrouw mogelijke afspiegeling zijn van de populatie. Betrouwbaarheid en validiteit zijn gevoelig voor variatie in de spreiding maar niet gevoelig voor variatie in het gemiddelde. Afwijkingen in gemiddelde is dus minder erg dan afwijkingen in spreiding. Wanneer in de populatie een bepaalde doelgroep oververtegenwoordigd is, dan is een gestratificeerde steekproef passend.
Itemanalyse (fase 3)
Diverse aspecten van de testitems worden geëvalueerd. Zoals moeilijkheidsgraad en correlatie van elk item met de totaalscore (item-restcorrelatie). De moeilijkheid op zich heeft niets te maken met wat het item meet of de betrouwbaarheid hiervan. Een homogene test verkrijgt men b.v. door factoranalyse of door het selecteren van items op basis van een hoge itemrestcorrelatie. Een hoge correlatie betekent dat een item veel gemeen heeft met de andere items en dus in dezelfde test past. Aan de Cronbachs alfa zien we vervolgens dat hiermee een relatief hoge rxx’ wordt verkregen.
Validatie van de testprocedure (fase 4)
Concurrent validity is minder tijdrovend dan wanneer het criterium in de toekomst ligt. Samenhang die in experimenteel onderzoek wordt gevonden kan niet één op één gegeneraliseerd worden omdat er vaak een verschil zit in attitude en motivatie van de
proefpersonen in vergelijking met de populatie. Door uitval van proefpersonen, soms doordat bv een bepaalde functie te moeilijk blijkt, soms doordat ze doorstromen naar een hogere functie, treedt variatiebeperking op zowel voor de predictor-als op de criteriumvariabele. Hierdoor verschilt de uiteindelijke groep dus van de aanvankelijke onderzoeksgroep. Als gevolg van de variatiebeperking zullen betrouwbaarheid en validiteit te laag worden geschat.
contaminatie van het criterium
Als hiervan sprake is, valt de correlatie tussen test- en criteriumscore kunstmatig hoog uit omdat de beoordelaar zelf de criteriumscore (onbewust) in overeenstemming brengt met de testscores die als voorspeller dienden. B.v. als een leidinggevende zijn oordelen door de kennis van de testuitslagen laat beïnvloeden.
Validiteitscoëfficiënt
Correlatie tussen testscore en criteriumscore. Dit is een aanduiding voor validiteit.
Multipele correlatie
Het succes van de gehele testbatterij voor de voorspelling van Y.
Vaststellen van validiteit (fase 4)
Door van de validiteitscoëfficiënt de product-momentcorrelatie te nemen wordt aangenomen dat het verband tussen predictor en criterium rechtlijnig is. Dit klopt vaak wel maar niet altijd. Bij twee bekende uitzonderingen levert toepassing van de product-momentcorrelatie een lage waarde op terwijl er wel degelijk een interessante relatie tussen beide variabelen bestaat. Dit betekent dat de correlatie hier geen goede indruk van de relatie geeft.
• Kromlijnige relatie. Bv tussen motivatie(X) en prestatie(Y): hogere motivatie geeft betere prestatie, maar een te sterke motivatie geeft zoveel spanning dat dit negatief werkt op prestatie. De correlatieratio, η, is een maat wat onafhankelijk is van de vorm (dus niet rechtlijnig zoals product-momentcorrelatie)
• Heteroscedastische relatie. Er is wel een verband tussen lagere waarden van variabelen X en Y maar niet op hogere waarden. Naarmate X toeneemt, neemt de spreiding van Y toe. Dit betekent dat hoe hoger X wordt, hoe minder informatie over Y beschikbaar wordt. Bv. Intelligentie (X) met studieprestatie (Y). Een lage intelligentie leidt tot lage studprestatie maar een hoge intelligentie leidt niet automatisch tot hoge studieprestatie. Voor heteroscedastische verbanden
bestaat correlatiecoëfficiënt θ die gemiddelde relatie over de verschillende niveaus van testscore geeft.