Hoofdstuk 8. Validiteit Flashcards

1
Q

Validiteit

A

De mate waarin de test aan zijn doel beantwoordt. Het kan dus zo zijn dat een test voor het ene doel zeer valide is en voor de andere helemaal niet. De vaststelling van de validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of tests die alle zijn op te vatten als operationaliseringen van hypothetische begrippen. Validiteit wordt ook wel gedefinieerd als de mate waarin evidentie en theorie de interpretatie van de testscores ondersteunen bij het gebruik van de test.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Valideringsproces

A

Het proces van het verzamelen van de (evidentie) hoogste zekerheid voor de rechtvaardiging van de sprong van het testgedrag naar ‘iets anders’.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Twee mogelijke doelen voor validiteit

A
  • De test als voorspeller van ander gedrag. Voorspelling wordt opgevat als het doen van een uitspraak over feiten waarvoor we geen directe evidentie hebben, maar waarover we een conclusie formuleren op basis van de kennis van gegevens. Hierbij wordt gesproken over predictie (toekomst) paradictie (heden) en Postdictie (verleden). Er moet natuurlijk wel een aantoonbare relatie zijn tussen de begrippen en er moet sprake zijn van een zinvolle operationalisering.
  • De test als operationalisering van een psychologisch begrip. Het gaat expliciet om het theoretische begrip zelf. Het gaat om de vraag naar capaciteit, persoonlijkheidstrek of attitude die verantwoordelijk zullen zijn voor testscore. Relaties met operationaliseringen van andere psychologische begrippen worden betrokken.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Predictie methodologisch

A

Een term die gebruikt wordt voor het doen van een uitspraak over niet waargenomen gedrag buiten de testsituatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Predictieve validiteit (PV) v.s. Begripsvaliditeit (BV)

A

Predictief: Maakt de test daadwerkelijk een juiste voorspelling mogelijk?
Begrip: In hoeverre dekt de test het bedoelde psychologische begrip? Meet de test de
eigenschap?
Beide hebben aanrakingsvlakken. Een test voor diagnostiek staat nooit op zichzelf. Je wilt altijd weten wat er speelt en welke behandeling dan mogelijk is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

8 verschillende vormen van validiteit

A
  • Predictive validity wordt vastgesteld door na te gaan in welke mate de voorspellingen, gedaan op basis van testprestatie, worden bevestigd door gegevens of observaties verzameld op een later moment. VB. schoolkeuze. (PV)
  • Concurrent validity wordt beoordeeld door na te gaan hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Dus niet in de toekomst zoals bij predictive maar gelijk.
  • Content validity (inhoudsvaliditeit). De sterkte van de samenhang tussen de testscore en de totaalscore op het gehele itemdomein. VB. Kennistoetsen. Empirisch onderzoek ontbreekt vaak dus het is subjectief. (BV)
  • Construct validity. Onderzoek naar welke psychologische eigenschappen worden door de test gemeten. Deze eigenschappen zijn hypothetische constructs. Construct validity heeft drie onderdelen. 1. Uitvinden welke eigenschap een verklaring kan zijn voor de prestatie. 2. Afleiden van toetsbare hypothesen. 3. Uitvoeren van empirisch onderzoek. (neigt naar BV)
  • Synthetische validiteit. Gericht op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag ipv complex criterium. B.v. elementen uit criterium leiderschap. (BV)
  • Congruent validity. Soortgenootvaliditeit, geeft de mate aan waarin een test correleert met een andere test die dezelfde eigenschap meet. VB testen vergelijken (onderdeel van BV).
  • Face validity. Indrukvaliditeit. De betekenis v.d. test of de relatie tussen test en criterium lijkt zonder meer duidelijk, gemeten naar de subjectieve indruk van de leek of psycholoog zelf. Dit hoeft niet empirisch gesteund te worden (BV verwant)
  • Incremental validity. Verbetering van de voorspeling m.b.v. een test ten opzichte van voorspellingen die worden gedaan op basis van reeds aanwezig informatie. VB levensloopgeschiedenis.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Validiteit als eenledig concept

A

Verschillende terminologie rond validiteit kan het moeilijk maken om eenduidige uitspraken te doen over de validiteit van een specifieke toepassing van een test in een specifieke context. Want wat is je uiteindelijke oordeel over de validiteit van een test als deze goed scoort op validiteit A, minder op validiteit B enz. Als reactie daarop wordt in de Standards for Educational and Psychological Testing simpelweg gesproken over ‘validiteit’ als eenledig concept waarmee wordt benadrukt dat de validiteit van test altijd een geïntegreerd oordeel is op basis van heel veel stukjes informatie die elk bijdragen aan een antwoord op de vraag naar validiteit. De verschillende soort validiteit worden gezien als verschillende aspecten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Predictieve validiteit

A

Bij de predictieve validiteit gaat het om de vraag hoe goed een criterium valt te voorspellen. De criteriuminformatie moet geschat worden vanuit kennis van de predictor. Het schatten van de testprestaties gebeurt bijvoorbeeld door in de regressieformule informatie te gebruiken over de relatie tussen test- en criteriumscore, verkregen in een eerder onderzoek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Drie typen criterium

A
  • Uiteindelijk (ultimate) criterium. Het alomvattende, uiteindelijke doel van een concrete procedure. Dit is zeer abstract en dus kan een test deze doelstelling zelden of nooit voorspellen (b.v. latere beroepsprestaties).
  • Tussentijds (intermediate) criterium. B.v. prestaties op eindexamen.
  • Onmiddellijk (immerdiate) criterium. B.v. totaal behaalde ECD na jaar 1.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Conceptuele criterium

A

Het conceptuele criterium is een concretisering van het uiteindelijke doel van de testgebruiker in termen van zichtbare resultaten. Van het conceptuele criterium wordt een criteriummaat of -score afgeleid. Een criteriummaat is een expliciete, ondubbelzinnige uitspraak of score die betrekking heeft op het criteriumgedrag of de criteriumprestatie. Deze is waarneembaar en registreerbaar en relevant voor het conceptuele criterium. De meting van een criterium moet aan dezelfde eisen van betrouwbaarheid en validiteit voldoen als de test waarmee dit criterium wordt voorspeld. De relatie tussen criteriumgedrag (of –scores) en het erachter liggende conceptuele criterium (en uiteindelijke doel) is niet voor empirisch onderzoek toegankelijk, dus moet rationeel beoordeeld worden. In de praktijk wil men ook weten wat de relatie is tussen twee criteriummaten. (Dichtbij; opleidingscriterium en later: prestatiecriterium) Deze blijkt nogal eens zwak.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Opzet van een test(batterij) met predictieve validiteit

A
  1. Operationalisering van het criterium. Een zo exact mogelijke criteriummaat.
  2. Keuze en constructie van tests of mogelijk geschikte items. Deze keuze kan gebaseerd zijn op een psychologische analyse van het criteriumgedrag en de eisen die daarin gesteld worden.
  3. Proefafneming van bestaande of nieuwe tests op diverse groepen poefpersonen uit de populatie. Bij een bestaande test is dit alleen nodig als de test plaatsvindt in een populatie die afwijkt van de populatie waarvoor de test oorspronkelijk bedoeld was. Heeft de test in de nieuwe populatie een goede rxx’ en validiteit? Er wordt onderscheid gemaakt tussen vooronderzoek en hoofdonderzoek.
  4. Validatie van de testprocedure. Nagegaan wordt in hoeverre de test het criterium kan voorspellen. Indien de criteriumscores van de proefpersonen niet beschikbaar zijn, dienen zij uiteraard (alsnog of in de loop van de tijd) verzameld te worden bij dezelfde personen als van wie de predictorscores verkregen zijn.
  5. Samenstelling van de predictorbatterij. Hierin worden, als verscheidene tests zijn gekozen of samengesteld, de tests waarvoor men een bruikbare validiteit heeft gevonden, gecombineerd in een maximaal voorspellende testbatterij.
  6. Kruisvalidering. In een tweede onderzoek op een onafhankelijke, vergelijkbare steekproef dient het onderzoek te worden gerepliceerd om de in de eerste validatie gevonden correlaties of verschillen te onderzoeken op hun robuustheid.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Populatie en steekproef (fase 3)

A

Een steekproef waarop items en tests worden beoordeeld moet een zo getrouw mogelijke afspiegeling zijn van de populatie. Betrouwbaarheid en validiteit zijn gevoelig voor variatie in de spreiding maar niet gevoelig voor variatie in het gemiddelde. Afwijkingen in gemiddelde is dus minder erg dan afwijkingen in spreiding. Wanneer in de populatie een bepaalde doelgroep oververtegenwoordigd is, dan is een gestratificeerde steekproef passend.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Itemanalyse (fase 3)

A

Diverse aspecten van de testitems worden geëvalueerd. Zoals moeilijkheidsgraad en correlatie van elk item met de totaalscore (item-restcorrelatie). De moeilijkheid op zich heeft niets te maken met wat het item meet of de betrouwbaarheid hiervan. Een homogene test verkrijgt men b.v. door factoranalyse of door het selecteren van items op basis van een hoge itemrestcorrelatie. Een hoge correlatie betekent dat een item veel gemeen heeft met de andere items en dus in dezelfde test past. Aan de Cronbachs alfa zien we vervolgens dat hiermee een relatief hoge rxx’ wordt verkregen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Validatie van de testprocedure (fase 4)

A

Concurrent validity is minder tijdrovend dan wanneer het criterium in de toekomst ligt. Samenhang die in experimenteel onderzoek wordt gevonden kan niet één op één gegeneraliseerd worden omdat er vaak een verschil zit in attitude en motivatie van de
proefpersonen in vergelijking met de populatie. Door uitval van proefpersonen, soms doordat bv een bepaalde functie te moeilijk blijkt, soms doordat ze doorstromen naar een hogere functie, treedt variatiebeperking op zowel voor de predictor-als op de criteriumvariabele. Hierdoor verschilt de uiteindelijke groep dus van de aanvankelijke onderzoeksgroep. Als gevolg van de variatiebeperking zullen betrouwbaarheid en validiteit te laag worden geschat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

contaminatie van het criterium

A

Als hiervan sprake is, valt de correlatie tussen test- en criteriumscore kunstmatig hoog uit omdat de beoordelaar zelf de criteriumscore (onbewust) in overeenstemming brengt met de testscores die als voorspeller dienden. B.v. als een leidinggevende zijn oordelen door de kennis van de testuitslagen laat beïnvloeden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Validiteitscoëfficiënt

A

Correlatie tussen testscore en criteriumscore. Dit is een aanduiding voor validiteit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Multipele correlatie

A

Het succes van de gehele testbatterij voor de voorspelling van Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vaststellen van validiteit (fase 4)

A

Door van de validiteitscoëfficiënt de product-momentcorrelatie te nemen wordt aangenomen dat het verband tussen predictor en criterium rechtlijnig is. Dit klopt vaak wel maar niet altijd. Bij twee bekende uitzonderingen levert toepassing van de product-momentcorrelatie een lage waarde op terwijl er wel degelijk een interessante relatie tussen beide variabelen bestaat. Dit betekent dat de correlatie hier geen goede indruk van de relatie geeft.
• Kromlijnige relatie. Bv tussen motivatie(X) en prestatie(Y): hogere motivatie geeft betere prestatie, maar een te sterke motivatie geeft zoveel spanning dat dit negatief werkt op prestatie. De correlatieratio, η, is een maat wat onafhankelijk is van de vorm (dus niet rechtlijnig zoals product-momentcorrelatie)
• Heteroscedastische relatie. Er is wel een verband tussen lagere waarden van variabelen X en Y maar niet op hogere waarden. Naarmate X toeneemt, neemt de spreiding van Y toe. Dit betekent dat hoe hoger X wordt, hoe minder informatie over Y beschikbaar wordt. Bv. Intelligentie (X) met studieprestatie (Y). Een lage intelligentie leidt tot lage studprestatie maar een hoge intelligentie leidt niet automatisch tot hoge studieprestatie. Voor heteroscedastische verbanden
bestaat correlatiecoëfficiënt θ die gemiddelde relatie over de verschillende niveaus van testscore geeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Homoscedastische relaties

A

Relaties die overal even sterk zijn. Gegeven X is de spreiding van Y overal gelijk.

20
Q

Supressor variabele

A

Tests kunnen voor voorspelling soms nuttig zijn als suppressor variabele. Dit komt niet heel vaak voor. Stel: r(X1,Y) > 0, r(X2, Y) = 0, r(X1,X2) > 0. Het lijkt of X1 wel nuttig is voor de voorspelling van Y en X2 niet. Maar door de correlatie tussen beide testscores kunnen we dit niet concluderen want kennelijk correleert X2 voor een deel met X1 wat niet meer Y correleert. Als we m.b.v. X2 dat deel uit X1 verwijderen, dan blijft een voor X2 gecorrigeerde variabele over die sterker met Y correleert dan de ongecorrigeerde X1. X2 maakt het mogelijk dat X1 beter functioneert als voorspeller van Y. X2 is dus de suppressor. B.v. taalvaardigheid X2 die ondersteunend werkt bij rekenvaardigheid X1.

21
Q

Moderator variabele

A

Een variabele die zelf niet of nauwelijks hoeft te correleren met een criteriumscore Y, maar die wel de relatie van andere variabelen met Y beïnvloedt. B.v. een testscore correleert wel voor manen met y, maar niet voor vrouwen. De correlatie voor een gemengde populatie is dan matig. Sekse is dan een moderatorvariabele m.b.t. de correlatie tussen test en criterium. Dit kunnen ook psychologische variabelen zijn.

22
Q

Moderated regression

A

Twee variabelen correleren apart met een criteriumvariabele Y en hebben een interactie-effect op Y. Als beide variabelen tegelijkertijd een hoge score laten zien, wordt de correlatie met het criterium nog extra verhoogd.

23
Q

Kruisvalidering

A

De rede voor controle is nodig omdat het gekozen regressiemodel vaak tot stand komt na veel trial and error. Hoe kleiner de steekproef, hoe onnauwkeuriger de geschatte regressiegewichten. Er treedt dan meer kanskapitalisatie op. Men moet voorkomen om veel modellen te proberen op basis van theorie over de te bestuderen verschijnselen. Is dit niet voorhanden dan kan een rationele analyse helpen. Een model dat na kruisvalidering overeind blijft en dus algemeen in de populatie toepasbaar is, wordt robuust genoemd. Kruisvalidering kan door:
• Een nieuwe steekproef uit de populatie trekken, die even groot is als de eerste steekproef. Dit is echter duur en tijdroven.
• Mits de steekproef groot genoeg is kan deze aselect gesplitst worden in twee even grote deelsteekproeven. Men probeert kansrijke voorspellingsmodellen in de ene deelsteekproef en doet kruisvalidering in de andere. Hierdoor wordt een multipele correlatie verkregen op basis van het model.

24
Q

Waarom zijn veel validiteitscoëfficiënten zo laag?

A

Ook al zijn de regels voor testconstructie en validering goed in acht genomen, waar zijn de resultaten niet best. Meestal zijn de validiteitscoëfficiënten niet hoger dan 0.4.
• Geringe betrouwbaarheid van het criterium. Criteriummaten worden vaak beschouwt als onveranderlijk gegeven terwijl de criteriumscore vaak uit meetfouten bestaat. Constructie van criteriummaat moet in zorgvuldigheid
• Miskenning van een niet-lineaire relatie tussen predictor en criterium. Via gebruik van een scatterplot kan gekeken worden of er sprake is van lineariteit of heteroscedasticiteit.
• Negeren van de complexe samenstelling van groepen. Er kunnen voorspellingsfouten worden gemaakt als variatie in deelgroepen wordt genegeerd.
• Negeren van de variabele betekenis van het criterium in verschillende organisaties. Hetzelfde criterium kan in verschillende organisaties verschillende betekenissen hebben. B.v. verpleegster in een verzorgingshuis of een ziekenhuis.
• Onterechte vereenvoudiging van het criterium. Gevarieerd en complex criteriumgedrag wordt nogal eens samengevat in een globale criteriummaat. Daarnaast is criteriumgedrag aan het moment van de vaststelling en meting gebonden niet zonder meer generaliseerbaar in tijd.

25
Q

Validiteitsgeneralisatie

A

In hoeverre heb je met tests met dezelfde voorspellingssituatie te maken? Wanneer dit wordt bevestigd heb je geen nieuw validiteitsonderzoek nodig. De opvatting is dat predictieve validiteit in hoge mate situatie specifiek is. Er is echter een methode voor.
• Voor alle combinaties van een specifieke test en gedragingen in een specifieke functie worden validiteitcoëfficiënten verzameld.
• Deze worden opgevat als waarden en omgezet naar standaarddeviatie. Deze geeft de variatie in gevonden validiteit-coëfficiënten weer.
• De standaarddeviatie wordt gecorrigeerd voor veronderstelde methodologische fouten: steekproeffouten, onbetrouwbaarheid van predictoren en criteria en beperking van de variatiebreedte. Als gevolg van steekproeffouten worden validiteitcoëfficiënten te hoog of te laag geschat. De invloed van kleine steekproeven is groter dan de effecten van meetfouten en variatiebeperking.
• Door nu te corrigeren voor dit soort effecten, wordt een meer realistische schatting van de validiteits-coëfficiënt verkregen. Wanneer na correctie de resulterende standaarddeviatie van validiteitcoëfficiënt gelijk is aan nul, dan betekent dit dat de validiteit van de tests niet verschilt over deelsituaties.
• Uit onderzoek blijkt: de validiteitcoëfficiënten zijn vaak weinig situatie specifiek, dus generalisatie is mogelijk over organisatie, geografische gebieden, functies, tijd

26
Q

Effectiviteit en validiteit (vorm van

validiteit generalisatie)

A

Effectiviteit mag worden opgevat als de representatieve validiteit binnen een specifieke categorie van tests en functies. Is de standaarddeviatie van de validiteitscoëfficiënten na correctie voor fouten niet gelijk aan nul (dan is er dus wel sprake van situatiespecificiteit), dan wordt een BI berekend waarvan het tiende percentiel wordt beschouwd als ondergrens voor validiteit. Op basis van zowel effectiviteit als deze ondergrens worden uitspraken gedaan over te verwachten validiteit in toekomstige selectiesituaties. Ligt de effectiviteit en de ondergrens relatief dicht bij elkaar dan kan worden gesteld dat generalisatie mogelijk is.

27
Q

Kritiek op methode validiteitsgeneralisatie

A
  • Ingewikkelde criteria als beroepssucces zijn op veel te eenvoudige manier gemeten( te globaal). Slecht geoperationaliseerde criteria leidt tot te lage validiteit met te weinig spreiding. Dus als wel goed was gemeten, zou de mogelijkheid van situatiespecificiteit niet verworpen worden.
  • Correctie van standaarddeviatie validiteitscoëfficiënten is vaak te groot.
28
Q

Beperkingen predictieve validiteit

A

Het onderzoek naar de predictieve validiteit houdt zich bezig met de selectie van de voor de voorspelling beste predictoren. Wat de beste predictoren zijn kan b.v. worden vastgesteld m.b.v. regressieanalyse. Predictoren die hoog correleren met het criterium en laag met andere predictoren krijgen een zwaar gewicht. Construct validity is belangrijk omdat:
• Het blind toepassen van een test ter voorspelling van een criterium, zonder je af te vragen waarom de voorspelling ‘werkt’, leidt niet tot noodzakelijk inzicht.
• Het blind afgaan op de grootste correlaties impliceert dat men eigenlijk alle mogelijk predictoren zou moeten onderzoeken. Dit is geen doen.
• Er kan sprake zijn van een unieke of zeldzame situatie waarvoor niet of nauwelijks een criterium valt vast te stellen. Hypothesen kunnen wel geformuleerd.
• Zonder theorie komt de psycholoog in de knel bij het beschrijven van de onderzochte.
• Betekenisanalyse en begripsvaliditeit bieden de mogelijkheid criterium van zijn voetstuk te halen en te analyseren.
Conclusie: predictieve validiteit is onmisbaar voor voorspellend testgebruik. Begripsanalyse is onmisbaar voor wetenschappelijk inzicht en praktisch gebruik.

29
Q

Begripsvalidering

A

Aan begripsvalidering gaat meestal een proces van betekenisanalyse vooraf. Dit is het vinden van een theorie als verklaring voor het testgedrag. Deze verklaring is hypothetisch. Bij begripsvalidering gaat het om de theorie empirisch te bevestigen. Na keuze voor trekvalidering of nomologisch netwerk start de fase van begripsvalidering. Er dienen voorspellingen te worden geformuleerd om te toetsen of de vermoedens over de test juist zijn. De uitkomsten leveren de basis voor conclusies over juistheid van deze verklaring.

30
Q

Belangrijke punten bij betekenisanalyse

A
  • De eerste fase is creatief. Er wordt gezocht naar plausibele verklaringen.
  • De voorspelling moet ondubbelzinnig te onderzoeken zijn
  • Er kan nooit definitief worden bewezen of een test al of niet een bepaalde theoretische betekenis heeft. De voorspelling kan alleen de theorie verstevigen of verzwakken.
  • Alternatieve hypothesen moeten kunnen worden verworpen, oorspronkelijke hypothese moet kunnen worden geaccepteerd.
31
Q

Trekvalidering v.s. nomologische validering

A

Bij trekvalidering is de vraag in hoeverre testgedrag verklaard kan worden m.b.v. een persoonlijkheidstrek of een geschiktheid. Het gaat niet noodzakelijk om een theorie. Bij de nomologische validering wordt het testgedrag wel verklaard uit een psychologische theorie. De mogelijkheid om testgedrag te relateren aan een nomologisch netwerk is groter naarmate de psychologie als wetenschap verder vordert en er meer nomologische netwerken ontstaan. Testgedrag wordt doorgaans gevalideerd in termen van trekvaliditeit.

32
Q

Confirmerende validering v.s. discriminante validering

A

Er worden twee soorten voorspellingen bij begripsvalidering onderscheiden. Confirmerende validering zijn voorspelingen die kunnen dienen om de oorspronkelijke hypothese te bevestigen. Discriminante validering zijn voorspellingen die alternatieve hypothesen verwerpen.

33
Q

Betekenisanalyse: structuuronderzoek v.s. relatieonderzoek

A

Vermoeden en verwachtingen vormen de basis voor theorievorming over testgedrag. Maar wat als de onderzoeker nog helemaal niets weet over het testgedrag? Er zijn dan twee suggesties voor het analyseren van testgedrag.
• Structuuronderzoek. Hoe kan een analyse van de structuurkenmerken van de test leiden tot hypothetisch inzicht in de betekenis van testgedrag? Dit kan door een psychologische analyse van de inhoud van de items (leidt tot iets wat lijkt op indrukvaliditeit behalve dat er geen definitieve vaststellingen volgen) of door een analyse van de formele kenmerken van de test.
• Relatie onderzoek. Deze kent vier vormen.
Zowel het structuuronderzoek als het relatieonderzoek dragen bij tot een voorlopige formulering van een antwoord op de betekenisvraag.

34
Q

Relatie onderzoek

A
  • Spreiding en normen. Onderzoeker verzameld gegevens over spreiding en normen en bestudeerd deze in verschillende groepen. Dit soort informatie levert bruikbare indicaties op van wat de test meet.
  • Experimenteel onderzoek. Onderzoeken wat de effecten van verschillende condities zijn.
  • Factoranalyse. Nagegaan kan worden met welke factoren een test hoog en met welke laag correleert. Op basis van psychologische interpretatie van factoren kan de betekenis van testgedrag worden verduidelijkt. B.v. RAKIT die verbale en performale intelligentie meet.
  • Wat kan de test voorspellen. Er is een wisselwerking tussen betekenisanalyse en predictieve validiteit. De voorspellingen geven aanleiding tot zinvolle veronderstellingen over de testbetekenis.
35
Q

Factoranalyse

A

Een explorerende methode om informatie die in een groot aantal variabelen is vervat, samen te vatten in een geringer aantal nieuw te construeren variabelen. Deze nieuwe variabelen heten dan factoren. Doel: samenvatting van informatie waarbij een vereenvoudiging van gegevens wordt verkregen en een grotere mate van inzichtelijkheid. Hierbij gaat informatie verloren maar men streeft ernaar dit verlies te beperken.
Een factor is een gewogen som van itemscores of testscores. De gewichten worden zo bepaald dat de factorscore (gewogen somscore) zoveel mogelijk inzicht verschaft in de afzonderlijke items of tests.
Zijn de correlaties tussen testscores 0, dan zijn de testprestaties onafhankelijk van elkaar. De tests meten dan een andere eigenschap en hebben weinig gemeen. Dit betekent ook dat een kleiner aantal factoren de test niet kan samenvatten. Zijn de correlaties heel hoog dan is er veel overlap en wordt dezelfde eigenschap gemeten. De werkelijkheid ligt hier ergens tussenin.

36
Q

Overeenkomst en verschil regressie analyse en factor analyse

A

Factoranalyse heeft wel wat weg van de meervoudige regressieanalyse ter voorspelling van een criterium. Bij beide worden testscores met verschillende gewichten bij elkaar opgeteld wat resulteert in een optimale voorspelling. Bij beide speelt ook de correlatie tussen de test een rol bij de keuze van de gewichten. Verschil: Bij RA worden de gewichten zo gekozen dat het criterium zo goed mogelijk wordt voorspeld. Bij FA worden de gewichten zo gekozen dat de informatie in de testscores zo goed mogelijk wordt samengevat.

37
Q

Drie soorten factoren

A
  • Algemene factoren. Waarmee vrijwel alle test minder of meer samenhangen.
  • Groepsfactoren. Vertegenwoordigen meestal een kleiner gedeelte van de tests.
  • Specifieke factoren. Zijn gekoppeld aan één test of slecht enkele items.
38
Q

Voorwaarden en uitgangspunten factoranalyse

A

Het resultaat van factoranalyse is afhankelijk van voorwaarden en uitgangspunten:
• Soort en hoeveelheid van de variabelen die men in de analyse opneemt. Er kan niets uit de analyse komen wat er niet eerst is ingestopt.
• De steekproef waarop de analyse is uitgevoerd. Hoe meer variatie de steekproef vertoont, hoe hoger de correlaties tussen testscores. Het contrast tussen hoge en lage correlaties neemt toe.
• Enkele wiskundige en technische vooronderstellingen, die vaak een arbitrair karakter hebben.
• Interpretatie van de resultaten van factoranalyse.
Als rekening wordt gehouden met de beperkingen kan factoranalyse zeer helpend zijn om inzicht te krijgen in psychologische betekenis van tests.

39
Q

Verschil begripsvalidering

en predictieve validiteit

A

Begripsvalidering vindt zowel plaats door bevestiging van oorspronkelijke hypothese als verwerpen van concurrerende hypothesen. Dus een test die zegt A te meten, mag geen relatie vertonen met tests die B meten waarvan wordt verondersteld dat ze niet samenhangt met A. een lage correlatie tussen en test en eigenschap A kan even belangrijk zijn als een hoge correlatie tussen dezelfde test en eigenschap B. Bij predictieve validiteit is lage correlatie altijd ongewenst (suppressorvariabelen uitgezonderd)

40
Q

waarde verwerpen van alternatieve verklaringen

A

De waarde van het verwerpen van alternatieve verklaringen is niet steeds even groot. Dit hangt af van:
• Precisie van de experimentele opzet. Door onjuiste of slordige opzet kan ten onrechte een alternatieve verklaring worden verworpen.
• Plausibiliteit van de alternatieve verklaring. Hierin speelt de wisselwerking tussen test en theorie een rol.

41
Q

Alternatieve verklaringen waarvan het verstandig ze

vrijwel altijd te controleren

A
  • Samenhang met intelligentie. Zinvol om zowel tests voor prestatieniveau als tests voor gedragswijze te correleren met een intelligentietest, die wat de formele kenmerken betreft zo veel mogelijk op de onderzochte test lijkt.
  • Sociale wenselijkheid als onbedoelde eigenschap. Dit speelt vooral bij persoonlijkheidsvragenlijsten een probleem. Wanneer een test in sterke mate sociale wenselijkheid meet, kan worden gesteld dat de test niet goed functioneert
  • Antwoordtendenties. Een neiging tot een consistent keuzepatroon in het antwoordgedrag op tests, los van inhoud van vragen.
42
Q

Voorbeelden antwoordtendenties

A
  • Instemtendentie. Het overmatig instemmen met de richting van de vraag.
  • Positievoorkeur. B.v. voorkeur voor neutrale middenpositie op ratingscale.
  • Semantische interpretatie. Interpretatie van woorden zoals ‘altijd’ of ‘vaak’
  • Sequentietendentie. Tendentie tot kiezen van bepaalde verdeling
  • Snelheidstendentie. Zo snel mogelijk. Belangrijke bron van verschil in prestatie.
  • Precisietendentie. Zo precies mogelijk.
  • Uitvoerigheidtendentie bij vrije antwoordmogelijkheden.
  • Gistendentie.
  • Voorkeur voor formele kenmerken. B.v. langste optie of met vreemde termen.
43
Q

Multitrek- multimethode- benadering

A

In essentie komt deze benadering erop neer dat het correlatiepatroon dat ontstaat bij de afname van verschillende tests voor meer dan één eigenschap, geanalyseerd wordt op consistentie. Het is een methode voor evaluatie van test waarbij zowel betrouwbaarheid als validiteit kan worden onderzocht. Het idee is dat een test voor een bepaalde eigenschap kan worden vervangen voor een andere test die dezelfde eigenschap pretendeert te meten. Dit lukt niet perfect waardoor variatie in de testresultaten voor een deel is toe te schrijven aan variatie van de onderzochte groep op de bedoelde eigenschap, maar ook aan de specifieke eigenschappen van de verschillende meetinstrumenten. Bij deze benadering wordt geschat in hoeverre de variantie van de testscore wordt bepaald door de variantie in de bedoelde trek en juist niet door variantie t.g.v. gebruikte methode of variantie in niet-bedoelde trekken. De multitrek-multimethodematrix bevat de correlaties die op deze wijze uit alle combinaties van methoden en trekken ontstaan. De in de matrix staan:
• B. waarden: de correlaties voor dezelfde trekken en dezelfde methoden (monotrek-monomethode overlap. Dit is de betrouwbaarheid.
• V. waarden. De correlaties voor dezelfde trekken maar verschillende methoden. Monotrek-heteromethode-overlap. Dit is confirmerende validiteit.
• M. waarden: correlaties voor dezelfde methoden, verschillende trekken. Indicatie van methodevariantie.
• D. waarden: correlaties voor verschillende trekken, verschillende methoden.

44
Q

Vier overwegingen m.b.t. de validiteit bij multitrek matrix

A

De voornaamste eis is dat twee tests die dezelfde eigenschap pretenderen te meten, hoger met elkaar correleren dan twee tests die verschillende eigenschappen pretenderen te meten Er dient sprake te zijn van zowel confirmerende validiteit en discriminante validiteit
• V waarden moeten significant van 0 verschillen en voldoende hoog zijn om het verder werken met de tests te rechtvaardigen.
• V waarden moeten hoger zijn dan de D waarden. Dit betekent dat validiteit van variabele hoger is dan correlatie tussen variabelen.
• V waarden moeten hoger zijn dan M waarden. Twee onafhankelijke maten van dezelfde trek moeten dus hoger correleren dan twee verschillende trekken met
dezelfde methode.
• In de M driehoeken en de D driehoeken moeten ongeveer gelijke patronen van correlaties gevonden worden.
De laatste drie vormen de basis voor eventuele discriminante validiteit.

45
Q

Voorbeelden multitrek matrix

A
  • Test-hertest = categorie dezelfde meting (methode), zelfde eigenschap (trek). De b-waarden zeggen dan iets over de herhaalbaarheid van de meting.
  • Paralleltest. De b-waarde is de correlatie tussen twee paralleltests. In praktijk kan sprake zijn van zelfde trek, verschillende test. Dan is correlatie v-waarde.
46
Q

Taxonomieën

A

Parallel aan de ontstane mening over validiteit als eenledig begrip zijn ook diverse taxonomieën van validiteit voorgesteld die aangeven hoe verschillende vormen/aspecten van validiteit zich tot elkaar verhouden.
• COSMIN-taxonomie. Deze taxonomie beschrijft drie kwaliteitsdomeinen van testen, namelijk betrouwbaarheid, validiteit en reactievermogen. Elk domein bevat een of meer meeteigenschappen (bijvoorbeeld bij het domein validiteit: content validity, criterion validity en construct validity; verder te verdelen in structural validity, hypothesetoetsing en cross-cultural validity)
• Taxonomie door de Von. Die heeft construct validiteit opgedeeld in translational validiteit (en dan face/content) en criterion validity (en dan concurrent, predictive, convergent en discriminant)