7. NIeuwe ontwikkelingen in testtheorie en testconstructie Flashcards

1
Q

Verschillen tussen klassieke en moderne testtheorie?

Populatieafhankelijkheid, selectie van items, flexibiliteit, inhoud/ informatie, betrouwbaarheid, empirische controle, complexiteit.

A
  1. MTT: populatieonafhankelijk (test van 6 jarige kan vergeleken worden met test van 12 jarige die veel moeilijkere test doet).
    KTT: populatieafhankelijk
  2. MTT: willekeurige selectie van items.
    In KTT interpretatie van testscore alleen van toepassing op gehele collectie of samenstelling van items van de test.
  3. Flexibiliteit: MTT: adaptieve test (kan aangepast worden aan doelgroep).
    KTT niet.
  4. Inhoud/informatie van items: MTT: ieder item is op unieke wijze informatief.
    KTT: gelijk per item. Sterk afwijkende items worden niet meegenomen.
  5. Betrouwbaarheid:
    MTT: afhankelijk van geselecteerde items. (hoe hoger de Ө tetta-waarde hoe beter).
    KTT: afhankelijk van hoeveelheid items (hoe meer hoe beter).
  6. Empirische controle
    MTT is empirisch toetsbaar dus of het model bij de data past.
    KTT: niet over te zeggen.
  7. Complexiteit:
    KTT wordt toegepast omdat het minder ingewikkeld is en beter aansluit bij grotere groep onderzoekers.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Itemresponstheorie, welke itemkarakteristieken/ itemparameters staan hierin centraal? αδy?

A
  • α = (alpha) het discriminerend of onderscheidend vermogen. Een vraag waarvan de functie (de s vorm in de Tetta-grafiek) steiler loopt discrimineert beter. Deze persoon hoeft de vaardigheid een beetje beter te beheersen om meer kans te hebben op het juiste antwoord of andersom. Links en rechts van steile stuk is onderscheid maken niet goed mogelijk. Zelfs niet wanneer personen sterk verschillende Ө-waarde hebben.
  • δ: (delta) de moeilijkheidsparameter. Geeft aan op de schaal van Tetha welk niveau iemand moet bezitten om 50% kans te hebben om een item goed te hebben.
  • у = (pseudokansniveau-gamma)
    de kans dat iemand het juiste antwoord geeft door te gokken. De kans is dan hoger dan 0 (er is altijd een kans dat iemand het juiste antwoord geeft). Bv: 5 keuzemogelijkheden = 1 op 5 dus y begint dan op 0.2 in het logistisch model.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Het Birnbaummodel, succeskans per deelpopulatie?

A
  • Minder streng dan Rasch-model.
  • Anders dan Rasch mogen testen verschillen in α (hoeven dus niet allemaal van zelfde kwaliteit te zijn). Is α gelijk aan 1 dan krijgen we het Raschmodel.
  • Hoe hoger de discriminatieparameter (bijvoorbeeld α=3) hoe steiler de S-vorm en hoe beter het onderscheidend vermogen tussen mensen die wel of niet de vaardigheid bezitten.
  • tweeparameters αδ. у = nvt.
  • Ordening van succeskans varieert per deelpopulatie (dus moeilijkheids- en discriminerende parameter zijn populatieafhankelijk). Alleen personen, maar niet items kunnen populatie-onafhankelijk gemeten worden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

het Drie-parametermodel van Birnbaum αδy. Hoe is Populatie-onafhankelijkheid te bepalen?

A
  • Moeilijkheid δ en α varieert. y = ongelijk aan 0 en varieert. Te herkennen aan intercept die y-as snijdt >0.
  • Populatie-onafhankelijkheid is te bepalen wanneer de populatie-afhankelijke itemparameters bekend zijn.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

het Rasch-model αδy, populatie-onafhankelijkheid? Vergelijken van personen en items? Interferentie van vaardigheid en itemmoeilijkheid?

A
  • Eenvoudigste model waarin enkel de moeilijkheid δ van items varieert. α blijft gelijk. y = 0. ( Dus niet geschikt om giskans te berekenen).
  • populatie-onafhankelijk: Geen sprake van interactie tussen personen en items. Model weet deze juist van elkaar te scheiden en daarmee personen te vergelijken los van hun moeilijkheidsniveau.
  • Strengste model.
  • Adaptief testen: Proefpersoon met makkelijke test kan worden vergeleken met een proefpersoon met moeilijke test.
  • Kent probleem van interferentie van vaardigheid en itemmoeilijkheid niet (hogere score omdat test te makkelijk is of omdat vaardigheid groter is)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mokken-model van monotone homogeniteit, welk meetniveau, hoe geordend en wat betekent monotoon? En wat betreft de IRF? En wat betreft het schatten van Ө? Vergelijkbaarheid van X en p-waarde? Personen en items vergelijken?

A
  • Meest zwakke model; gaat er van uit dat over psychologische eigenschappen zo weinig kennis bestaat dat gebruik van strenge testen niet gerechtvaardigd is.
  • Forceert (door veel eisen aan het model op te leggen) een monotone stijging door bv het meetniveau te wijzigen of volgorde van antwoordcategorieën te schuiven.
  • Meetniveau is ordinaal (personen en items worden afzonderlijk van elkaar geordend) en ook geordend volgens de ware (true) T score. Ordening van personen is populatie-onafhankelijk, niet van items.
  • De IR-functie is monotoon wanneer deze stijgt of stilstaat (denk aan de s vorm) maar nooit daalt. Het mag niet zo zijn dat de succeskans van iemand met hoger niveau lager ligt dan iemand met een lager niveau.
  • Het mokken model kent geen specifieke IRF. De anderen wel.
  • Ө kan niet geschat worden. Wel de p-waarde. Hoe groter de p-waarde hoe makkelijker of populairder het item.
  • X en p-waarde itt Ө en δ niet vergelijkbaar. Wel is duidelijk dat bv X=18 een hogere Ө-waarde aangeeft dan X=9 en Pg = 0.45 moeilijk is dan Ph =0.82.
    Personen en items kunnen dus niet onderling op dezelfde schaal met elkaar vergeleken worden of op een schaal worden weergegeven.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

wat is Ө ? En hoe beter interpreteerbaar? Variëren van de standaardmeetfout

A
  • Ө= Tetha-waarde: kans of vaardigheidsniveau om een item goed te beantwoorden (latente kenmerk of vaardigheid)
    Beter interpreteerbaar wanneer bv omgerekend naar cijfer op schoolrapport (1-10), ruwe scores of percentielen.

Itt klassieke testtheorie variëert de standaardmeetfout per Ө-waarde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is volgens de itemresponstheorie de kans op het juiste antwoord? (De itemresponsfunctie)

A

De itemresponsfunctie: de functie van vaardigheid en itemkarakteristieken (αδy). Als we de itemkarakteristieken kennen kan uit het antwoordenpatroon de vaardigheid afgeleid worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

meeteigenschappen van IRT onderdeel van?

- Hoe controleren of model juiste beschrijving heeft van scores? Itt KTT?

A
  • Meeteigenschappen zijn onderdeel van het model.
  • Via statistiek controleren of het model een goede beschrijving geeft van de scores. klassiek veronderstelt de correcte meeteigenschappen soms wel en soms niet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is de Item-responsfunctie of trace-line? Ligt op welke schaal? Te vergelijken met? hoe ook wel genoemd?
En hoe wordt de vorm en locatie bepaald?

A

De kans op een positief antwoord. Ligt op de schaal van Ө. (Een meetlat voor psychologische eigenschappen). Ook wel item-karakteristieke functie of curve genoemd.

De vorm en locatie wordt bepaald door kenmerken van het item zoals αδ.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Strenge vs zwakke (item-respons)modellen, wat betekent dit? en Spanningsveld tussen beiden?

A
  • Strenge: leggen meer beperkingen aan het ‘gedrag’, meer structuur aan antwoorden van personen en patronen van itemscores.
    Past vaak minder goed bij gegevens, maar als het past impliceert het wel mooie meeteigenschappen zoals intervalniveau.
  • Zwakke; zwak in term van veronderstelling. Laten antwoordgedrag en daarmee structuur meer vrij. Vaak ordinaal niveau.
  • van zwak (mokken-model) naar streng (Rasch-model).
  • Spanningsveld tussen praktische toepassing en kwaliteit van resultaten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Item-domein

A

De gehele itempopulatie waaruit verschillende test geconstrueerd kunnen worden voor verschillende deelpopulaties. Bv test van 6 en 12 jarige.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wanneer spreken we van populatie-onanfhankelijke meting in relatie tot Ө-waarde en moeilijkheid (δ)?
Wat meestal aan de hand als meeting niet onafhankelijk is?
Onafhankelijk voor welke populatie?

A

Wanneer personen van verschillend niveau met elkaar vergeleken kunnen worden. Ө-waarde is onafhankelijke van moeilijkheid (δ).

Wanneer niet onafhankelijk en dus wanneer vergelijking van personen afhankelijk is van items, dan is er zeer waarschijnlijk sprake van meting van twee of meer vaardigheden of eigenschappen.
Bv. de atleet die niet meer hoog springt door een blessure (tweede eigenschap).
Alleen onafhankelijk van populatie waar test voor geldt bv 6 tot 12 jarige. Dus niet voor andere leeftijden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Model van dubbele monotonie. populatie-onafhankelijk?

A

Net als Mokken-model echter mogen, anders dan Mokken, mogen de functie van items elkaar niet snijden (fig 7.6).
Hierdoor wel populatie-onafhankelijk voor items en personen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat betekent lokale betrouwbaarheid binnen de IRT? Ivm KTT? Verhelpen van lokale onbetrouwbaarheid?

A
  • De test voor sommige Ө-waarde is informatiever/ betrouwbaarder dan voor andere.
    Meetinstrument en te meten object passen niet bij elkaar.
    Bijvoorbeeld wanneer een te makkelijke of te moeilijke test aan iemand wordt voorgelegd. Het enige wat we weten is de onder- of bovengrens van iemands kennisniveau.
    Een test voor Jan kan geschikter/ betrouwbaarder zijn dan voor Marieke.
  • IRT is een verfijning van de KTT omdat IRT meer rekening houdt met dat de ene waarde meer betrouwbaarder is dan de andere.
  • Verhelpen van lokale onbetrouwbaarheid: door juist items te kiezen die aan de hoge moeilijkheidskant nauwkeurig meten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Informatiefunctie en testconstructie, doelinformatiefunctie, efficiëntieoverwegingen, en hoe zit dit voor mokken-modellen? maximale informatie voor waarde van Ө bij het Rasch- en Birnbaum-model?

A

Geeft de nauwkeurigheid van de meting aan (fig. 7.8 p. 293). Hoe hoger de informatiefunctie hoe nauwkeuriger de meting. Ieder item uit de test levert een onafhankelijke bijdrage aan nauwkeurigheid van de test van een persoon.

  • Doelinformatiefunctie; de na te streven informatiefunctie. Bijvoorbeeld als Ө0 de aftestgrens/ cesuur is voor een toets (5 of 6). Aangezien het belangrijkst is om te weten of je geslaagd bent moet hier de informatiefunctie het hoogst zijn (figuur 7.9). Het doel is dus om zo nauwkeurig mogelijk te meten op de aftestgrens.
    De testinstructeur selecteert alleen items met een informatiefunctie boven de doelinformatiefunctie bv Ө1.
    Items opnemen weerszijden van Ө0 verhoogd de nauwkeurigheid of iemand een 7 of 8 heeft, maar maakt test ook weer (onrechtvaardig) langer. Dus keuzes maken.
    Uit efficiëntieoverwegingen wordt de kleinste verzameling items geselecteerd waarvan de testinformatiefunctie voor alle waarde van Ө ten minste even groot is als de doelinformatiefunctie.
  • Niet bekend voor Mokken-modellen omdat de persoonsparameters (Ө) en itemparameter (δ) niet beschikbaar zijn. Mokken gebruikt om die reden de klassieke betrouwbaarheid met aanpassingen aan item-responstheorie.
  • maximale informatie voor de waarde van Ө voor Rasch en Birnbauw valt samen met de moeilijkheid δ (principes van adaptief testen . De succeskans voor beide modellen is op dat punt 0.5).
17
Q

het ‘Moderne-complex’ vs het ‘klassieke-complex’ Van der Linden (1983)

A
  • ‘Moderne-complex’; combinatie van itembank en itemrespons-theorie.
  • ‘klassieke-complex’; standaardtest en klassieke testtheorie.
18
Q

Calibreren en equivaleren van itemkenmerken

A

Calibreren; afbeelden van verzameling items op een schaal en toekennen van meetwaarden.
- Equivaleren van itemkenmerken; op gemeenschappelijke schaal afbeelden van gecalibreerde items uit verschillende tests die hetzelfde psychologisch begrip meten.

19
Q

Adaptieve test: Two-stage-testing, Lord (1980). Wat doet het, waarvoor gebruikte en nauwkeurigheid?

A
  • Eerste stadia; alle respondenten krijgen dezelfde korte test van middelmatige moeilijkheid.
  • Tweede stadium; diverse test met uiteenlopende moeilijkheid,

Handig om respondenten aan laag, middel of hoog niveau toe te willen wijzen.

  • Leidt tot minder nauwkeurige meting dan item-voor-item aanpak.
20
Q

Vraagonzuiverheid/-partijdigheid of item-bias. Wanneer sprake van zuiverheid? Strategieën om vraagonzuiverheid tegen te gaan?

A

Wanneer tests wordt gebruikt voor populatie waar deze niet voor bedoeld is. Personen met zelfde Ө-waarde hebben verschillende kans om vraag goed te beantwoorden. Bv wanneer bij sommen jongensonderwerpen als treinen of auto’s worden betrokken, meisjes in het nadeel zijn (verborgen meerdimentionaliteit).

  • Sprake van zuiver item wanneer item-responsfunctie in beide groepen gelijk is.

Strategie 1; inspectie van partijdige items naar opvallende kenmerken (Neiging tot speculatie).
Strategie 2; vergelijken van partijdige item vs onpartijdige items.
Strategie 3; experimentele strategie door te onderzoeken wat vervangen van moeilijke items doet met makkelijke.

21
Q

Wat is de item-responstheorie en gunstige eigenschap? Waarom belangrijk? Meten bij implicatie/ implicat measurement en meten bij fiat?

A

item-responstheorie: moderne testtheorie. Gunstige eigenschap is dat de item-responstheorie meeteigenschappen heeft die onderdeel zijn van die modellen. Sommige hebben een ordinaal en andere een intervalmeetniveau. Statistisch kan worden berekend of deze modellen een goede beschrijving geven van de scores van een groep.
Belangrijk om dat gebruik van test impirisch wordt gefundeerd, maar ook kan blijken dat bij een niet-passend model sommige items niet in de test thuishoren omdat ze wat anders meten.

  • Meten bij implicatie: de schaaleigenschappen volgen uit het item-responsmodel. Aangezien onderzocht kan worden of een model een adquate verklaring geeft van de testgegevens. Wanneer een model een goede beschrijving geeft van de meeteigenschappen dan geldt dit ook voor de praktische toepassing van de test.
  • Meten bij fiat: tegenovergestelde van ‘meten bij implicatie’: eigenschappen van een test moeten worden aangenomen en houdt dus geen rekening meet schaaleigenschappen van testgegevens.
22
Q

Wat wordt bedoeld met kans op een specifieke respons? Hoe ook wel genoemd? En hoe zit dit met andere personen met gelijke Ө-waarde?

A

kans op een specifieke respons: Jan heeft met een kans van 0.70 op item 15. Dus in 70% van de replicaties geeft Jan het goede antwoord.
Andere personen met gelijke Ө-waarde als Jan betekent dat 70% van personen het goede antwoord geven. Ook wel succeskans genoemd. Jan heeft hierin een kans van 1 of 0.

23
Q

Wat zijn odds en voorbeeld?

A
  • Odds: de verhouding tussen de kans op een positief antwoord en negatief antwoord.
    Vb wanneer persoon a: 1 punt heeft op een score en persoon b: 2 punten heeft persoon 2 een tweemaal zo grote odds op succes. Is dus niet 2x slimmer, sterker, sneller, etc.
24
Q

4 Bezwaren tegen standaardtests in het onderwijs

A
  1. Niet representatief voor inhoudelijk kennis- en vaardigheidsdomein (inhoudsvaliditeit).
  2. Standaardtests veronderstellen ten onrechte het bestaan van standaardpopulaties.
  3. Werkt niet als evaluatiemiddel van kennisniveau: niet iedereen is op een gegeven moment even ver gevorderd.
  4. Gevaar van vloer- en plafondeffect. Het ware niveau is dan niet bekend.
25
Q

Adaptief testen: wat veronderstelt het IR-model met aantal te meten eigenschappen? moeilijk construeren voor? en hoe worden items geselecteerd bij Rasch, Birnbaum en 3-parameters modellen?

A
  • IR-modellen veronderstellen dat alle items hetzelfde meten itt het idee dat een test breed opgezet moet worden. Kan dus maar 1 aspect van eigenschap aan bod komen. Moeilijkst om items te construeren voor persoonlijkheids- en attitudemetingen die voldoende verschillen dat persoon niet het idee heeft dat hem steeds hetzelfde wordt gevraagd.

Bij selectie door computer van items:

  • Rasch en Birnbaum: item dat gekozen wordt ligt het dichtst bij geschatte Ө-waarde.
  • 3-parameters: afhankelijk van combinatie itemkenmerken: αδy