7. NIeuwe ontwikkelingen in testtheorie en testconstructie Flashcards
Verschillen tussen klassieke en moderne testtheorie?
Populatieafhankelijkheid, selectie van items, flexibiliteit, inhoud/ informatie, betrouwbaarheid, empirische controle, complexiteit.
- MTT: populatieonafhankelijk (test van 6 jarige kan vergeleken worden met test van 12 jarige die veel moeilijkere test doet).
KTT: populatieafhankelijk - MTT: willekeurige selectie van items.
In KTT interpretatie van testscore alleen van toepassing op gehele collectie of samenstelling van items van de test. - Flexibiliteit: MTT: adaptieve test (kan aangepast worden aan doelgroep).
KTT niet. - Inhoud/informatie van items: MTT: ieder item is op unieke wijze informatief.
KTT: gelijk per item. Sterk afwijkende items worden niet meegenomen. - Betrouwbaarheid:
MTT: afhankelijk van geselecteerde items. (hoe hoger de Ө tetta-waarde hoe beter).
KTT: afhankelijk van hoeveelheid items (hoe meer hoe beter). - Empirische controle
MTT is empirisch toetsbaar dus of het model bij de data past.
KTT: niet over te zeggen. - Complexiteit:
KTT wordt toegepast omdat het minder ingewikkeld is en beter aansluit bij grotere groep onderzoekers.
Itemresponstheorie, welke itemkarakteristieken/ itemparameters staan hierin centraal? αδy?
- α = (alpha) het discriminerend of onderscheidend vermogen. Een vraag waarvan de functie (de s vorm in de Tetta-grafiek) steiler loopt discrimineert beter. Deze persoon hoeft de vaardigheid een beetje beter te beheersen om meer kans te hebben op het juiste antwoord of andersom. Links en rechts van steile stuk is onderscheid maken niet goed mogelijk. Zelfs niet wanneer personen sterk verschillende Ө-waarde hebben.
- δ: (delta) de moeilijkheidsparameter. Geeft aan op de schaal van Tetha welk niveau iemand moet bezitten om 50% kans te hebben om een item goed te hebben.
- у = (pseudokansniveau-gamma)
de kans dat iemand het juiste antwoord geeft door te gokken. De kans is dan hoger dan 0 (er is altijd een kans dat iemand het juiste antwoord geeft). Bv: 5 keuzemogelijkheden = 1 op 5 dus y begint dan op 0.2 in het logistisch model.
Het Birnbaummodel, succeskans per deelpopulatie?
- Minder streng dan Rasch-model.
- Anders dan Rasch mogen testen verschillen in α (hoeven dus niet allemaal van zelfde kwaliteit te zijn). Is α gelijk aan 1 dan krijgen we het Raschmodel.
- Hoe hoger de discriminatieparameter (bijvoorbeeld α=3) hoe steiler de S-vorm en hoe beter het onderscheidend vermogen tussen mensen die wel of niet de vaardigheid bezitten.
- tweeparameters αδ. у = nvt.
- Ordening van succeskans varieert per deelpopulatie (dus moeilijkheids- en discriminerende parameter zijn populatieafhankelijk). Alleen personen, maar niet items kunnen populatie-onafhankelijk gemeten worden.
het Drie-parametermodel van Birnbaum αδy. Hoe is Populatie-onafhankelijkheid te bepalen?
- Moeilijkheid δ en α varieert. y = ongelijk aan 0 en varieert. Te herkennen aan intercept die y-as snijdt >0.
- Populatie-onafhankelijkheid is te bepalen wanneer de populatie-afhankelijke itemparameters bekend zijn.
het Rasch-model αδy, populatie-onafhankelijkheid? Vergelijken van personen en items? Interferentie van vaardigheid en itemmoeilijkheid?
- Eenvoudigste model waarin enkel de moeilijkheid δ van items varieert. α blijft gelijk. y = 0. ( Dus niet geschikt om giskans te berekenen).
- populatie-onafhankelijk: Geen sprake van interactie tussen personen en items. Model weet deze juist van elkaar te scheiden en daarmee personen te vergelijken los van hun moeilijkheidsniveau.
- Strengste model.
- Adaptief testen: Proefpersoon met makkelijke test kan worden vergeleken met een proefpersoon met moeilijke test.
- Kent probleem van interferentie van vaardigheid en itemmoeilijkheid niet (hogere score omdat test te makkelijk is of omdat vaardigheid groter is)
Mokken-model van monotone homogeniteit, welk meetniveau, hoe geordend en wat betekent monotoon? En wat betreft de IRF? En wat betreft het schatten van Ө? Vergelijkbaarheid van X en p-waarde? Personen en items vergelijken?
- Meest zwakke model; gaat er van uit dat over psychologische eigenschappen zo weinig kennis bestaat dat gebruik van strenge testen niet gerechtvaardigd is.
- Forceert (door veel eisen aan het model op te leggen) een monotone stijging door bv het meetniveau te wijzigen of volgorde van antwoordcategorieën te schuiven.
- Meetniveau is ordinaal (personen en items worden afzonderlijk van elkaar geordend) en ook geordend volgens de ware (true) T score. Ordening van personen is populatie-onafhankelijk, niet van items.
- De IR-functie is monotoon wanneer deze stijgt of stilstaat (denk aan de s vorm) maar nooit daalt. Het mag niet zo zijn dat de succeskans van iemand met hoger niveau lager ligt dan iemand met een lager niveau.
- Het mokken model kent geen specifieke IRF. De anderen wel.
- Ө kan niet geschat worden. Wel de p-waarde. Hoe groter de p-waarde hoe makkelijker of populairder het item.
- X en p-waarde itt Ө en δ niet vergelijkbaar. Wel is duidelijk dat bv X=18 een hogere Ө-waarde aangeeft dan X=9 en Pg = 0.45 moeilijk is dan Ph =0.82.
Personen en items kunnen dus niet onderling op dezelfde schaal met elkaar vergeleken worden of op een schaal worden weergegeven.
wat is Ө ? En hoe beter interpreteerbaar? Variëren van de standaardmeetfout
- Ө= Tetha-waarde: kans of vaardigheidsniveau om een item goed te beantwoorden (latente kenmerk of vaardigheid)
Beter interpreteerbaar wanneer bv omgerekend naar cijfer op schoolrapport (1-10), ruwe scores of percentielen.
Itt klassieke testtheorie variëert de standaardmeetfout per Ө-waarde.
Wat is volgens de itemresponstheorie de kans op het juiste antwoord? (De itemresponsfunctie)
De itemresponsfunctie: de functie van vaardigheid en itemkarakteristieken (αδy). Als we de itemkarakteristieken kennen kan uit het antwoordenpatroon de vaardigheid afgeleid worden.
meeteigenschappen van IRT onderdeel van?
- Hoe controleren of model juiste beschrijving heeft van scores? Itt KTT?
- Meeteigenschappen zijn onderdeel van het model.
- Via statistiek controleren of het model een goede beschrijving geeft van de scores. klassiek veronderstelt de correcte meeteigenschappen soms wel en soms niet.
Wat is de Item-responsfunctie of trace-line? Ligt op welke schaal? Te vergelijken met? hoe ook wel genoemd?
En hoe wordt de vorm en locatie bepaald?
De kans op een positief antwoord. Ligt op de schaal van Ө. (Een meetlat voor psychologische eigenschappen). Ook wel item-karakteristieke functie of curve genoemd.
De vorm en locatie wordt bepaald door kenmerken van het item zoals αδ.
Strenge vs zwakke (item-respons)modellen, wat betekent dit? en Spanningsveld tussen beiden?
- Strenge: leggen meer beperkingen aan het ‘gedrag’, meer structuur aan antwoorden van personen en patronen van itemscores.
Past vaak minder goed bij gegevens, maar als het past impliceert het wel mooie meeteigenschappen zoals intervalniveau. - Zwakke; zwak in term van veronderstelling. Laten antwoordgedrag en daarmee structuur meer vrij. Vaak ordinaal niveau.
- van zwak (mokken-model) naar streng (Rasch-model).
- Spanningsveld tussen praktische toepassing en kwaliteit van resultaten.
Item-domein
De gehele itempopulatie waaruit verschillende test geconstrueerd kunnen worden voor verschillende deelpopulaties. Bv test van 6 en 12 jarige.
Wanneer spreken we van populatie-onanfhankelijke meting in relatie tot Ө-waarde en moeilijkheid (δ)?
Wat meestal aan de hand als meeting niet onafhankelijk is?
Onafhankelijk voor welke populatie?
Wanneer personen van verschillend niveau met elkaar vergeleken kunnen worden. Ө-waarde is onafhankelijke van moeilijkheid (δ).
Wanneer niet onafhankelijk en dus wanneer vergelijking van personen afhankelijk is van items, dan is er zeer waarschijnlijk sprake van meting van twee of meer vaardigheden of eigenschappen.
Bv. de atleet die niet meer hoog springt door een blessure (tweede eigenschap).
Alleen onafhankelijk van populatie waar test voor geldt bv 6 tot 12 jarige. Dus niet voor andere leeftijden.
Model van dubbele monotonie. populatie-onafhankelijk?
Net als Mokken-model echter mogen, anders dan Mokken, mogen de functie van items elkaar niet snijden (fig 7.6).
Hierdoor wel populatie-onafhankelijk voor items en personen.
Wat betekent lokale betrouwbaarheid binnen de IRT? Ivm KTT? Verhelpen van lokale onbetrouwbaarheid?
- De test voor sommige Ө-waarde is informatiever/ betrouwbaarder dan voor andere.
Meetinstrument en te meten object passen niet bij elkaar.
Bijvoorbeeld wanneer een te makkelijke of te moeilijke test aan iemand wordt voorgelegd. Het enige wat we weten is de onder- of bovengrens van iemands kennisniveau.
Een test voor Jan kan geschikter/ betrouwbaarder zijn dan voor Marieke. - IRT is een verfijning van de KTT omdat IRT meer rekening houdt met dat de ene waarde meer betrouwbaarder is dan de andere.
- Verhelpen van lokale onbetrouwbaarheid: door juist items te kiezen die aan de hoge moeilijkheidskant nauwkeurig meten.