H7: Itemresponstheorie Flashcards

1
Q

Dit hoofdstuk moet u goed doorlezen. Het zal eenvoudig worden getentamineerd, in die zin dat uitsluitend de hoofdgedachte gevraagd wordt. Er worden geen berekeningen gevraagd en u hoeft de formules in het hoofdstuk niet te kunnen repliceren. De bespreking in deze introductie moet u wel goed bestuderen. Het is belangrijk om voor een goed begrip van de kern van de boodschap eerst de volgende verduidelijkende instructiefilm te bekijken.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat zijn de 3 modellen van item-responstesttheorie?

A
  1. Raschmodel
  2. Birnbaummodel
  3. Drie-parameter logistisch model
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn de verschillen tussen de moderne testtheorie en klassieke testtheorie?

A
  1. De klassieke testtheorie geeft geen antwoord op de vraag hoe gegevens die verschillen in moeilijkheidgraad gecombineerd kunnen worden.
  2. Bij de moderne testtheorie wordt er ook gesproken over een niet direct observeerbare variabelen namelijk latente variabelen. Bij de moderne testtheorie wordt niet de term ‘meetfout’ gebruikt.
  3. Men spreekt niet van een ware score, maar bekijkt men de meetwaarde op een onbegrensd continuüm.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat zijn latente variabelen?

A

Niet direct observeerbare variabelen.
Deze term hoort bij de moderne testtheorie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat vertegenwoordigen afzonderlijke punten op het meetwaarde continuum bij de moderne testtheorie?

A

Deze komen overeen met het kennis of vaardigheidsniveau dat nodig is om een specifiek item van een test juist te beantwoorden.
Links: simpeler
Rechts: moeilijker

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat vertegenwoordigen de punten op de Guttman-scalogram bij het continuum van de moderne testtheorie?

A

Afzonderelijke personen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is de centrale vraag bij de moderne testtheorie?

Wat is een wiskundige vertaling van deze vraag?

A

Hoe verhoudt zich de meetwaarde van de persoon tot de meetwaarde die nodig is voor het beantwoorden van de testvraag?

Wat is de kans dat iemand beter is dan de moeilijkheid van de testvraag?
De kans loop van 0 (vraag wordt nooit juist beantwoord) naar 1 (vraag wordt altijd juist beantwoord).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat zegt het Raschmodel?

Als een item moeilijk is, verschuift de functie dan naar links of naar rechts?

A

Functie voor het beschrijven van de item-responsfunctie op basis van de logistische functieregel.

Rechts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat betekent het als een functie stijler loopt?

Welk model beschrijft dit?

Wat als alfa = 1? (alfa is de discriminatieparameter)

A

Dat het item beter discrimineert: men hoeft de vaardigheid slechts een beetje beter te beheersen om het goede antwoord te geven.

Het Birnbaummodel

Dan is het Birnbaummodel gelijk aan het Raschmodel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat als de discriminatieparameter hoger is, bijv. 2 of 3?

A

De stijlheid van de functie vertaalt zich in onderscheidend vermogen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is het drie-parameter logistisch model?

Wat gebeurt er als gramma = 0?

A

Hierbij krijgt het Birnbaummodel een 3e parameter: het pseudo kansniveau gamma.

Er is een kans dat iemand door te gokken het juiste antwoord geeft. Bijv. bij 5 antwoordopties, is de kans op het geven van het juiste antwoord 1/5 = 0.2 . Gamma begint dan bij 0.2, en niet bij 0.

Het drie-parameter logistisch model is dan gelijk aan het birnbaummodel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

De moeilijkheidsgraad (delta), het discriminatievermogen (alfa) en het kansniveau (gamma) zijn de drie karakteristieken die centraal staan in de item-responstheorie.

Wat zegt deze theorie?(

A

De kans op het juiste antwoord is de functie van vaardigheid en itemkarakteristieken.

Als we de itemkarakteristieken kennen, kunnen we uit iemands antwoordpatroon (respons) de vaardigheid afleiden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat zijn Mokkenmodellen?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat zijn 2 voorbeelden van mokkenmodellen?

A
  1. Model van monotone homogeniteit
  2. Model van dubbele homogenie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hoe verschillen de mokkenmodellen van het Raschmodel, Birnbaummodel en het Drie-parameter logistisch model?

A

Bij het Raschmodel, Birnbaummodel en het Drie-parameter logistisch model kunnen de items en testscores op dezelfde schaal afgebeeld worden.

Bij mokkenmodellen niet: hierbij is er sprake van ordinale metingen. Dus testscores en items moeten apart van elkaar afgebeeld worden. Er is geen glijdende schaal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om de interpretatie van de persoonlijke score? 2x

A
  1. Klassiek: afhankelijk van testsamenstelling
    Modern: per item of willekeurige selectie van items
  2. Klassiek: populatieafhankelijk
    Modern: populatieonafhankelijk
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om itemparameters?

A

Klassiek: populatieafhankelijk
Modern: populatieonafhankelijk (Rachmodel) of -afhankelijk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om flexibiliteit?

A

Klassiek: niet adaptief testen
Modern: adaptief testen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om informatie (inhoud)?

A

Klassiek: gelijk per item
Modern: uniek per item

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om betrouwbaarheid?

A

Klassiek: meer items = nauwkeuriger
Modern: verschilt per score/item

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om empirische controle testprestatie?

A

Klassiek: geen uitspraken
Modern: empirisch toetsbaar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om complexiteit?

A

Klassiek: laag
Modern: hoog

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Het gaat in hoofdstuk 7 om itemresponsmodellen (IR-modellen) en dan met name voor dichotome items. Wat houdt dichotome items in?

A

items met twee uitkomsten. Dit kan letterlijk zijn (bijvoorbeeld een ja-neevraag), maar kan ook slaan op meerkeuzevragen, zolang er maar één respons ‘goed’ is, en de overige ‘fout’, zoals bij een meerkeuzetentamenvraag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wat stelt de itemresponstheorie?

A

In de itemresponstheorie (IRT) heeft een persoon i met een meetwaarde (of vaardigheid) θi (θ is de Griekse letter theta) een bepaalde kans om item g goed te beantwoorden. Deze kans (de succeskans) wordt behalve door θi ook bepaald door drie itemparameters: δg (de moeilijkheid van item g), αg (de discriminatiewaarde van item g) en γg (pseudokansniveau van item g).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

De kans om het item goed te maken is in de IRT een wiskundige functie van θ (het veronderstelde, latente kenmerk of vaardigheid) en van δg, αg en γg.

Hoe heet de wiskundige functie die hierbij hoort?

A

Itemresponsfunctie

De IRF is in principe een monotoon niet-dalende functie van θ; de vorm wordt bepaald door de drie itemparameters. Belangrijk is om te onthouden dat de IRF ervan uitgaat dat de onderliggende data zich als een monotoon niet-dalende functie laat uitdrukken. Later in het hoofdstuk zal besproken worden dat deze aanname niet zondermeer opgaat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Er worden in het hoofdstuk vijf IR-modellen onderscheiden die hieronder worden besproken. De bouwstenen van deze modellen worden hier kort samengevat.

Een IR-model bestaat potentieel uit de volgende bouwstenen. 3x

A
  1. Moeilijkheid δ: de moeilijkheid (voor modellen met een dichotome uitkomst; §7.2), of locatie (voor modellen met polytome uitkomsten; §7.5.1) is de vaardigheid die iemand moet bezitten om 50 procent kans te hebben om het item (of de categorie) ‘goed’ te hebben.
  2. Discriminatiewaarde α: de steilheid van de IRF is een indicatie hoe scherp het item rond een gegeven moeilijkheid onderscheid kan maken. De hoger de discriminatiewaarde, des te steiler loopt de functie, des te sneller en scherper loopt de functie van 0 naar 1.
  3. Pseudokans γ: Er is altijd een baselinekans dat een item goed beantwoord wordt, puur op basis van gokken. Deze kans kan per item verschillen en de pseudokansparameter kan daarom per item variëren. Op een meerkeuzetentamen met vier antwoordopties zijn er bijvoorbeeld vragen waar 25 procent kans is om het juiste antwoord te gokken, maar als er vragen tussen zitten met twee absurde antwoordopties en twee die een ‘educated guess’ goed mogelijk maken, dan kan de kans zelfs oplopen tot 50 procent. Tegenwoordig zijn er weinig IR-modellen die pseudokansparameters schatten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Wat is het Rasch-model?

A

Dit is het eenvoudigste model waarin enkel de moeilijkheid (δ) van de items varieert; de discriminatiewaarden (α) van de items worden gelijk geacht. Tevens is het pseudokansniveau γ = 0.Er zijn twee formuleringen van het Rasch-model (zie formule 7.1: verschilschaal en formule 7.4: ratioschaal). De kans op het goed maken van het item komt voor beide formuleringen op hetzelfde neer (dat is, beide formuleringen geven dezelfde succeskans).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Wat is het twee-parametermodel van Birnbaum?

A

In een Birnbaum-model varieert naast de moeilijkheid (δ) ook de discriminatiewaarde (α) van de items. De discriminatiewaarden van alle items worden nu vrij geschat, dus de α’s mogen nu ongelijk zijn. Net als in een Rasch-model is het pseudokansniveau van alle items γ = 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Wat is het drie-parametermodel van Birnbaum ?

A

Hetzelfde model als het twee-parametermodel, alleen het pseudokansniveau γ is nu ongelijk aan nul. Het pseudokansniveau mag per item variëren. Een IR-model met een pseudokansniveau dat ongelijk is aan 0 is te herkennen aan een intercept dat de y-as snijdt op een punt >0. Niet besproken in het boek is een vier-parametermodel; men kan zich voorstellen dat als de hoogte van de ‘start’ van de lijnfunctie (dat is, het intercept) kan variëren (zie het drie-parametermodel), ook de hoogte van de ‘stop’ van de lijnfunctie kan worden gevarieerd. Bij de hierboven besproken modellen liep de lijnfunctie door tot 1. Dit betekent dat mensen met een oneindig hoge latente trekwaarde (theta) een kans van 1 hebben om het item goed te maken. In het vier-parametermodel wordt zelfs voor personen met de hoogste thetawaarden nog een foutenkans toegedicht, waardoor de lijnfunctie niet doorloopt tot 1. Dit aspect wordt in een ander type model besproken (het Mokken-model) in paragraaf 7.2.3.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Wat is het het Mokken-model van monotone homogeniteit?

A

Een centraal concept in het model van Mokken is ‘monotonie’. De monotonie betreft hier de vorm van de IR-functie. Een IR-functie is monotoon stijgend wanneer de functie over waarden van x alleen toeneemt of stilstaat, maar nooit ergens daalt. Dit is een belangrijke eigenschap van een IR-functie, want de succeskans moet alleen oplopen wanneer de vaardigheid toeneemt. Het mag eigenlijk niet zo zijn dat de succeskans voor een bepaald item voor mensen met een hoger vaardigheidsniveau lager ligt ten opzichte van mensen met een lager vaardigheidsniveau.
Het probleem met de eerder genoemde modellen is dat deze monotone stijging niet altijd in de praktijk gegarandeerd kan worden. De oplossing in de Mokken-modellen is om veel eisen aan het model op te leggen, zodat er altijd een monotoon stijgende functie kan worden gecreëerd. Dit kan bijvoorbeeld worden gedaan door met het meetniveau van de schaal te spelen (deze bijvoorbeeld ordinaal te maken). In sommige instanties wordt er zelfs met de volgorde van antwoordcategorieën geschoven om een monotone stijging te forceren.

In het Mokken-model van monotone homogeniteit is de enige restrictie aan de IRF dat deze monotoon niet-dalend is. Het meetniveau is ordinaal. Men ordent de personen op de (onbekende) θ-schaal met behulp van de ware (betrouwbare) scores T die op de gewone manier geschat kunnen worden (zie hoofdstuk 6). De ordening van de items naar hun moeilijkheid is wél populatieafhankelijk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Wat is het Mokken-model van dubbele monotonie?

A

Ook in dit model zijn de IRF’s monotoon niet-dalend, maar nu mogen de IRF’s van afzonderlijke items elkaar niet snijden. De meting is ook hier op ordinaal niveau. Dit model leidt tot populatieonafhankelijke ordeningen van zowel personen als van items.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

In de IRT is de schatting van de meetwaarden een functie van de specifieke θ-waarde. Een test meet dus niet op de hele θ-schaal even nauwkeurig maar is voor sommige θ-waarden informatiever dan voor andere. De informatiefunctie van een item of van een test bereikt bij een bepaalde waarde van θ een maximum en in dat punt meet een item of de test het nauwkeurigst (zie paragraaf 7.3.2).

Wat als men op een bepaalde plaats op de θ-schaal zéér nauwkeurig wil meten?

A

Dan neemt met de items die in dat punt de grootste informatiewaarden hebben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Wat is het principe van adaptief testen?

A

Het voorleggen van items die qua moeilijkheid zo goed mogelijk overeenkomen met het niveau van de persoon. De computer biedt willekeurig een item aan met een willekeurige moeilijkheid. Afhankelijk van het antwoordpatroon probeert de computer een inschatting van de testafnemers θ te maken en blijft items aanbieden totdat nieuwe antwoorden geen relevante informatie meer opleveren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Wat is een itembank in de IRT?

A

een verzameling van een groot aantal items die aan een bepaald IR-model voldoen. anneer de items in de itembank voldoen aan de eisen van een IR-model, maakt het in principe niet uit welke items we aan een persoon voorleggen; het schatten van een populatieonafhankelijke meetwaarde is dan mogelijk. Echter, de nauwkeurigheid van de schatting is niet populatieonafhankelijk; voor de nauwkeurigheid van de meting maakt het wél uit welke items men selecteert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Wanneer spreekt men van een zuiver item in de IRT?

A

Als de IRF in twee groepen identiek is, want personen uit verschillende populaties maar met eenzelfde θ-waarde moeten dezelfde succeskans op een bepaald item hebben. Zijn die succeskansen verschillend, dan zijn er meerdere eigenschappen in het spel. Wat de ene eigenschap betreft zijn de personen qua niveau vergelijkbaar (zelfde θ-waarde), terwijl ze op de andere eigenschap verschillen. Vraagonzuiverheid is vaak een kwestie van verborgen meerdimensionaliteit. Statistisch gebleken vraagonzuiverheid moet ook inhoudelijk geïnterpreteerd worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Wanneer spreekt men in de IRT van een afwijkende scorepatroon?

A

Wanneer het vaak voorkomt dat items foutief beantwoord worden door een persoon die op basis van zijn/haar θ een grote succeskans zou moeten hebben en items goed beantwoord worden waarop hij of zij een lage succeskans heeft, dan spreekt men in de IRT van een afwijkend scorepatroon (zie paragraaf 7.4.5). Ook afwijkende scorepatronen moeten inhoudelijk geïnterpreteerd kunnen worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Noem vier voordelen van de itemresponstheorie in vergelijking met de klassieke testtheorie.

A

Voordelen van de itemresponstheorie zijn:
– adaptief testen
– controlemogelijkheid of het IR-model past bij de testgegevens
– het meetniveau is afleidbaar uit de theorie
– mogelijkheid tot populatieonafhankelijk meten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Wat is populatieonafhankelijk meten?

A

Populatieonafhankelijk meten betekent dat iemands meetniveau vastgesteld kan worden onafhankelijk van de moeilijkheid van de items. Dus als items en personen voldoen aan een IR-model, verkrijgen we voor een willekeurige deelpopulatie dezelfde meetwaarden, ongeacht welke deelpopulatie items aan de personen voorgelegd wordt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Wat is een succeskans?

A

De succeskans is de kans op een goed antwoord op een item bij een gegeven meetwaarde (θ). Notatie: P(Xg = +1|θ). De succeskans is een wiskundige functie van θ en van de drie itemparameters: αg (discriminatiewaarde), δg (moeilijkheid) en γg (pseudokansniveau).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Wat is een itemresponsfunctie (IRF)?

A

Een itemresponsfuntie (IRF) is een wiskundige functie die enerzijds θ, α, δ en γ verbindt aan de succeskans (P) anderzijds.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Welke drie itemkenmerken bepalen de vorm van de IRF?

A

De vorm van de IRF wordt bepaald door de drie itemparameters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Aan welke twee voorwaarden moet het Rasch-model voldoen?

A

Voor de items die aan het Rasch-model voldoen, geldt:
– het pseudokansniveau is gelijk aan 0: γg = 0;
– de discriminatiewaarden zijn gelijk: αg = αh.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Welke transformaties zijn in het algemeen toegestaan?

A

In het algemeen zijn díe transformaties toegestaan die de succeskans niet veranderen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Welke transformatie is op de θ-schaal in het Rasch-model toegestaan?

A

In het Rasch-model zijn op de θ-schaal de volgende transformaties toegestaan: θ* = θ + b en δ* = δ + b (b is een constante).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Welke transformatie is op de ξ-schaal in het Rasch-model toegestaan?

A

In het Rasch-model zijn op de ξ-schaal de volgende transformaties toegestaan: ξ* = aξ en ε* = aε.

46
Q

Wat is het belangrijkste verschil tussen het Rasch-model enerzijds en de twee Birnbaum-modellen anderzijds?

A

In het Rasch-model hebben de items gelijke discriminatiewaarden; in de Birnbaum-modellen mogen de discriminatiewaarden ongelijk zijn.

47
Q

Wat is het belangrijkste verschil tussen het Rasch-model en de twee Birnbaum-modellen enerzijds en de twee Mokken-modellen anderzijds?

A

De Mokken-modellen kennen geen specifieke IRF, terwijl dat in het Rasch-model en de twee Birnbaum-modellen wél het geval is.

48
Q

Wat is tussen de twee Mokken-modellen het belangrijkste verschil?

A

In het Mokken-model van de dubbele monotonie kunnen de IRF’s elkaar niet snijden; in het model van de monotone homogeniteit kunnen de IRF’s elkaar wél snijden.

49
Q

Geef de definitie van het begrip ‘odds’.

A

Odds: de verhouding van de kans op een positief antwoord en de kans op een negatief antwoord op hetzelfde item voor een vaste meetwaarde ξ: P(Xg = 1|ξ)/P(Xg = 0|ξ).

50
Q

Beschrijf het verschil tussen de klassieke testtheorie en de itemresponstheorie in nauwkeurigheid van een meting.

A

In de klassieke testtheorie wordt de nauwkeurigheid van de meting uitgedrukt in de standaardmeetfout, die voor de gehele test geldt. In de item-responstheorie is een test niet op de hele θ-schaal even nauwkeurig: de test is voor sommige θ-waarden informatiever dan voor andere.

51
Q

Wat is een itembank?

A

Een itembank is een verzameling van een groot aantal gemakkelijk toegankelijke testvragen die aan een bepaald IR-model voldoen. De persoons- en itemparameters zijn bekend (geschat) en worden op een gemeenschappelijke schaal afgebeeld (calibreren, equivaleren)..

52
Q

Men wil rondom θo zeer nauwkeurig meten. Beschrijf globaal in termen van informatiefuncties hoe men dan te werk moet gaan.

A

Wanneer men rondom θo nauwkeurig wil meten, neemt men die items waarvan de informatiefuncties rondom θo hun hoogste waarden bereiken.

53
Q

Wat is adaptief testen in termen van de itemresponstheorie?

A

Adaptief testen in de IRT is het voorleggen van een item aan een persoon en op grond van het antwoord wordt het volgende item gekozen. Dit gaat zo door tot de schatting van de meetwaarde een bepaalde mate van nauwkeurigheid heeft bereikt. Verschillende personen kunnen dus verschillende items voorgelegd krijgen.

54
Q

Wat verstaat men in de itemresponstheorie onder vraagonzuiverheid?

A

In de IRT is een item zuiver wanneer de IRF van het item in twee verschillende groepen identiek is. Dus vraagonzuiverheid betekent dat personen uit verschillende groepen maar met eenzelfde meetwaarde (θ), een verschillende succeskans hebben.

55
Q

Beschrijf de drie strategieën die men kan volgen bij statistisch gebleken vraagonzuiverheid van een of meer vragen.

A

De drie strategieën zijn:
– inspectie van de ‘onzuivere’ items op opvallende kenmerken
– het zoeken naar relaties tussen eigenschappen van personen enerzijds en kritische kenmerken van de items anderzijds
– experimenteel onderzoek, bijvoorbeeld het vervangen van een moeilijk woord om te kijken of het verschil tussen de twee groepen dan verdwijnt.

56
Q

Omschrijf het begrip ‘afwijkend scorepatroon’.

A

In de IRT spreekt men van een ‘afwijkend scorepatroon’ wanneer de kans op dit patroon, gegeven de meetwaarde en de itemkenmerken, zeer laag is.

57
Q

Vergelijk de klassieke testtheorie en de itemresponstheorie in termen van betrouwbaarheid, meerdimensionaliteit en toetsbaarheid.

A

In de klassieke testtheorie (KTT) wordt de test voor elke testscore even betrouwbaar geacht; in de IRT is de test voor sommige meetwaarden betrouwbaarder dan voor andere. In de KTT wordt geen aanname gedaan over de dimensionaliteit van de test (over hoeveel factoren er aan de testprestatie ten grondslag liggen), in de IRT worden de items die aan een bepaald IR-model voldoen, geacht één begrip te meten (eendimensionaliteit). De KTT is gebaseerd op aannamen die in het algemeen niet toetsbaar zijn, in de IRT zijn de aannamen wél toetsbaar (kan men toetsen of de testgegevens passen bij een bepaald IR-model).

58
Q

Wat houdt de verzamelnaam item-responstheorie in?

A

De verzamelnaam ▌item-responstheorie verenigt een klasse van verwante testmodellen,
waaronder de modellen voorgesteld door Lord, Rasch en Birnbaum.

59
Q

Veel tests worden overigens nog steeds geconstrueerd volgens de principes van de klassieke testtheorie. Toch begint
het gebruik van modellen uit de item-responstheorie terrein te winnen. Wat is de reden daarvoor?

A

De reden daarvoor
ligt voor een deel in de gebruiksmogelijkheden, zoals die van adaptief testen.

60
Q

Wat houdt meten bij implicatie (oftewel implicit measurement) in?

A

Een gunstige eigenschap van item-responsmodellen is dat zij meeteigenschappen hebben die
onderdeel zijn van die modellen. Een voorbeeld is de schaal die in sommige modellen ordinaal
meetniveau en in andere intervalmeetniveau heeft. Als na controle met statistische methoden
blijkt dat een model een goede beschrijving geeft, dan volgt daaruit dat de meeteigenschappen ervan ook in concrete toepassingen van de test gelden.

61
Q

Wat houdt meten bij fiat in?

A

Het klassieke testmodel gaat uit van meeteigenschappen die soms
terecht en soms niet terecht worden verondersteld. Er kan maar ten dele worden gecontroleerd of in een concreet geval de vooronderstellingen van de theorie in overeenstemming zijn
met empirisch verkregen testgegevens. Dit wordt ▌meten bij fiat genoemd: aangenomen
wordt dat bepaalde eigenschappen geldig zijn, zonder dat dit kan worden aangetoond.

62
Q

Een andere eigenschap van item-responsmodellen is ▌populatie-onafhankelijk meten. Wat houdt dit in?

A

In de
klassieke testtheorie is meten populatie-afhankelijk: de betrouwbare score, en daarmee ook
de totaalscore, zijn afhankelijk van het moeilijkheidsniveau van de gebruikte test. Om iemands
testprestatie te kunnen begrijpen, dient deze dus gerelateerd te worden aan het niveau van
de test. Het probleem is dat het niveau van de proefpersoon niet gescheiden kan worden van
het niveau van de test. Als we over een grote verzameling items beschikken, die alle dezelfde
eigenschap meten, en als we veronderstellen dat in eerder onderzoek is vastgesteld dat de
gegevens die met de items zijn verzameld met een item-responsmodel kunnen worden beschreven, kunnen we naar believen tests voor de bedoelde eigenschap samenstellen. Die tests
kunnen verschillen in niveau, en zijn daarmee populatie-onafhankelijk. Voor het Rasch-model
komt populatie-onafhankelijkheid erop neer dat iemands meetwaarde, verkregen met een
gemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijker
test heeft gemaakt. Voor de vergelijkbaarheid van de meetwaarden maakt het niet uit wat het
niveau van de tests was. Hierin is de gedachte van adaptief testen te herkennen.

63
Q

Wat zijn de kansen op een positief en een negatief antwoord bij een vaste waarde van θ?

A

De kansen zijn samen 1.

64
Q

Hoe wordt de kans op een positief antwoord ook wel genoemd?

A

Succeskans

65
Q

Er zijn drie kenmerken van items die de exacte vorm van de functie in een bepaalde klasse van
item-responsmodellen bepalen. Welke 3?

A
  1. Ten eerste is in de figuur te zien dat personen met lage θwaarden een succeskans hebben die duidelijk groter is dan 0. Dat is bijvoorbeeld plausibel in
    het geval van meerkeuze-items in prestatietests, omdat personen die weinig weten blind kunnen gissen. Als het aantal alternatieven A is, is de giskans 1/A. Dit is in theorie de kleinst
    mogelijke succeskans op dit item. In de praktijk worden zowel lagere als hogere giskansen
    gevonden. De exacte giskans hangt niet alleen af van het aantal alternatieven, maar ook van
    inhoudelijke kenmerken van het item. We spreken daarom van het ▌pseudokansniveau, en
    niet van de giskans. Het pseudokansniveau wordt aangegeven op de verticale as van de grafiek. Het is de kans dat op item g het goede antwoord wordt gegeven door mensen met een
    zeer lage meetwaarde θ. Deze wordt aangegeven met P(Xg = 1|θ) = γg. Het itemkenmerk ▌γg
    wordt de ▌pseudokansniveauparameter genoemd.
  2. Ten tweede is te zien dat de curve een specifieke locatie op de θ-schaal heeft. Dit is meestal
    het punt op de schaal waarvoor de succeskans gelijk is aan (1 + γg)/2: de kans die halverwege
    ligt tussen het pseudokansniveau γg en de maximale succeskans van 1. Het punt op de θ-schaal
    dat geassocieerd wordt met deze succeskans wordt aangeduid als de ▌locatieparameter, ▌δg.
    Wanneer de item-responsfunctie naar rechts verschuift, neemt voor iedere respondent de
    succeskans af. Het item is dan moeilijker geworden, wat tot uiting komt in een grotere waarde
    van δ. Deze parameter wordt daarom ook de ▌moeilijkheidsparameter genoemd
  3. Het derde itemkenmerk betreft de steilheid van de functie in het kritische gebied. Naarmate
    de curve in dit gebied steiler is, wordt de verdeling van de personen op de θ-schaal scherper
    in tweeën gedeeld. Binnen het kritische gebied hebben zeer kleine veranderingen in θ grote
    veranderingen in de succeskans tot gevolg. Het ▌discriminerend vermogen van het item is een
    functie van de richtingscoëfficiënt a/b van de raaklijn aan de item-responsfunctie in het punt
    (δg, (1 + γg)/2). Het discriminerend vermogen van item g wordt aangeduid als ▌αg, de zogenaamde ▌discriminatieparameter.

Zijn de itemkenmerken bekend, dan is het mogelijk om voor een specifieke meetwaarde θ de
succeskans op het item te bepalen. Het schatten van de itemparameters en de θ-waarde van
een bepaald persoon valt buiten het bestek van dit boek.

66
Q

Welk model is het strengst van de item-responsmodellen?

A

Rasch-model

66
Q

Welk model is het strengst van de item-responsmodellen?

A

Rasch-model

67
Q

Wat is het verschil tussen een streng en zwak model?

A

Een strenger model laat bijvoorbeeld niet toe dat respondenten gissen naar het goede antwoord. Dit komt tot uiting in een pseudokansniveauparameter γg = 0 voor alle items in de test. Of respondenten zich hiernaar gedragen is maar
de vraag, maar het model gaat er wel van uit. Zwakkere modellen laten het antwoordgedrag en de daarmee corresponderende gegevensstructuur meer vrijheid. Gevolg hiervan is dat empirische testgegevens vaak beter in overeenstemming zijn met zwakkere dan met strengere
modellen. De prijs voor het werken met zwakkere modellen is echter dat de resulterende test
minder fraaie meeteigenschappen heeft, zoals meting op een lager meetniveau. Er is dus
sprake van een spanning tussen de mate van praktische toepasbaarheid van een model en de
kwaliteit van de daaruit resulterende meting.

68
Q

Hoe wordt het Rasch-model ook wel genoemd?

A

Het één-parameter logistische model genoemd.

69
Q

Waaruit blijkt dat het Rasch-model streng te nomen is? 2x

A

Ten eerste is voor zeer
kleine θ-waarden de succeskans vrijwel gelijk aan 0. De pseudokansniveauparameter γg komt
in het model niet voor. Dit is een voorbeeld van een beperking die door een testmodel aan de
testgegevens wordt opgelegd.

Ten tweede hebben alle items uit een test die aan het Raschmodel voldoet, hetzelfde discriminerend vermogen. Door deze keuze komt ook de discriminatieparameter α in formule 7.1 niet voor. Vooral dit tweede punt legt veel beperkingen op aan
de structuur van de testgegevens, omdat alle mogelijke items die een beroep doen op dezelfde psychologische eigenschap in dezelfde mate onderscheid moeten maken tussen
personen. Een alternatief is dat diverse deelverzamelingen apart schaalbaar zijn, waarbij iedere deelverzameling gekenmerkt wordt door een specifiek niveau van discriminerend
vermogen. Het is echter de vraag of dit zinvol is

70
Q

Welke schaaltransformaties zijn toegestaan bij het Rasch-model?

Schalen waarop transformaties in de vorm θ
* = θ + a en δ
* = δ + a zijn toegestaan noemen we ….

A

Meting volgens het Rasch-model vindt plaats op een schaal waarop verschuivingen van de θen δ-waarden met dezelfde constante hoeveelheid zijn toegestaan zijn toegestaan wanneer zij geen invloed hebben op de succeskans volgens formule 7.1.

▌verschilschalen

71
Q

Wat zijn verhoedingsschalen of ratioschalen?

A

Met transformaties van het type ξ* = bξ en ε* = bε blijven de succeskansen onveranderd. Schalen met toegestane transformaties van dit type noemen we
▌verhoudingsschalen of ▌ratioschalen

72
Q

Wat betekent populatie-onafhankelijk?

A

Een belangrijke eigenschap van meting volgens het Rasch-model is dat meetwaarden populatie-onafhankelijk zijn. Dat betekent bijvoorbeeld dat we de θ-waarden van kinderen uit
verschillende leeftijdsgroepen (deelpopulaties) uit een grotere populatie met elkaar kunnen
vergelijken, ook al hebben zij tests van verschillend moeilijkheidsniveau gemaakt. Populatieonafhankelijkheid houdt in dat θ-waarden onafhankelijk zijn van de moeilijkheden van de
items δ in de gebruikte tests. De wiskundige structuur van het Rasch-model is zodanig dat,
anders dan bij het klassieke testmodel, de effecten van personen en items op de succeskansen
onafhankelijk zijn en interacties tussen personen en items geen rol spelen. Personen zijn hierdoor vergelijkbaar, onafhankelijk van het moeilijkheidsniveau van de gebruikte items.
Omgekeerd geldt ook dat de moeilijkheden van items vergelijkbaar zijn, onafhankelijk van de
personen die het item hebben gemaakt.
De term populatie-onafhankelijkheid betekent niet ‘geldig, ongeacht welke populatie men beschouwt’. Onderzochte deelpopulaties moeten immers uit dezelfde populatie komen.

73
Q

Hoe wordt het Birnbaum-model ook wel genoemd?

A

Twee-parameter logistisch model

74
Q

Wat zijn 2 overeenkomsten tussen het Birnbaum-model en het Rasch-model?

A

Punten van overeenstemming met het Rasch-model zijn dat
items mogen variëren in moeilijkheid en dat voor lage θ-waarden de succeskans op het item
naar 0 nadert. Gegevens van items waarvoor geldt dat bij lage θ-waarden de succeskans groter
is dan 0 en waarbij het plausibel is dat personen zullen raden naar het goede antwoord, zijn
evenmin geschikt om geanalyseerd te worden met het Birnbaum-model

75
Q

Welke transformaties van persoons- en itemparameters hebben geen invloed op de succeskans bij het Birnbaum-model?

A

θ* = bθ + a, δ* = bδ + a en α* = α/b

76
Q

Welke type schaal hoort bij het Birnbaum-model?

A

De schaal heeft de eigenschappen van een intervalschaal, zodat de eenheid en
het nulpunt arbitrair gekozen kunnen worden. Wat onveranderd blijft, is de verhouding van
verschillen.

77
Q

Ook meting volgens het Birnbaum-model is populatie-onafhankelijk. Daarbij doen zich wel enkele problemen voor. Welke?

A

De bepaling van meetwaarde θi is onafhankelijk van de itemmoeilijkheden δ, maar afhankelijk van de discriminatieparameters α, van de door respondent i correct
beantwoorde items. In de afbeelding is te zien dat links van het snijpunt van de functies item
g in termen van succeskansen het gemakkelijkst is, en rechts item h. De keuze van de specifieke deelpopulatie heeft dus consequenties voor de ordening van de succeskansen.
Uit het voorgaande blijkt dat het kiezen van een minder streng testmodel gepaard gaat met
verlies aan meeteigenschappen. Door middel van het Birnbaum-model kunnen alleen de personen populatie-onafhankelijk worden gemeten, maar niet de items. In het Rasch-model is
dat laatste ook mogelijk.

78
Q

Zijn meetwaarden van personen in het 3-parameter model populatie-onafhankelijk te bepalen?

A

Alleen ndien de populatie-afhankelijke itemparameters bekend zijn. Deze populatie-afhankelijkheid laat onverlet dat men itemparameters kan schatten mits een bekende verdeling van
θ is verondersteld. Ze zijn echter gebonden aan een vaste populatie van personen

79
Q

Waar gaat Mokken van de mokken modellen vanuit?

A

Mokken gaat ervan uit dat over veel psychologische eigenschappen zo weinig kennis bestaat,
dat het gebruik van de tot hiertoe besproken, relatief strenge modellen niet gerechtvaardigd
kan worden. De modellen leggen te veel beperkingen op aan de testgegevens. Ook veronderstellen de modellen dat de item-responsfunctie eerst een lage, vrijwel constante waarde
heeft, vervolgens relatief snel stijgt en daarna een constante waarde heeft dichtbij 1. In werkelijkheid kan het verloop van sommige functies anders zijn. Mokken stelt daarom voor uit te
gaan van item-responsfuncties die wel monotoon niet-dalend zijn, maar er verder geen beperkingen aan op te leggen. Verder moet het antwoordgedrag op alle items een afspiegeling
zijn van dezelfde psychologische eigenschap die wordt gemeten op de θ-schaal. Het idee is
dat met de toename van θ ook de kans toeneemt (of tijdelijk constant blijft) dat het positieve
antwoord wordt gegeven, maar zonder verder restricties op te leggen aan hoe die toename
precies verloopt

80
Q

De toepassing van de testtheorie op de testgegevens leidt tot het afbeelden van personen en,
eventueel, items op een schaal. De item-responstheorie heeft daarbij de volgende eigenschappen… 4x

A

Ten eerste volgen de schaaleigenschappen uit het specifieke item-responsmodel,
het meten bij implicatie. De theoretisch afleidbare schaaleigenschappen gelden ook in de
praktijk, en hoeven niet te worden aangenomen zoals in het klassieke model, het meten bij
fiat.

Ten tweede vindt meting volgens de modellen van Rasch en Birnbaum en het drie-parameter logistische model, plaats op een metrische schaal (interval-, verschil- en rationiveau).
De modellen van Mokken impliceren ordeningen van meetwaarden.

Ten derde kunnen met
behulp van de modellen van Rasch en Birnbaum en het model met drie itemparameters, personen en items op dezelfde schaal worden afgebeeld. De modellen van Mokken laten dat
alleen op aparte schalen toe.

Ten slotte is de meting volgens item-responsmodellen in specifieke gevallen populatie-onafhankelijk, zoals hiervoor beschreven

81
Q

De conclusie is dat meting op een metrische schaal niet tot een directe psychologische interpretatie leidt. Strikt genomen kan alleen een interpretatie van meetwaarden op de ξ-schaal in
termen van ordeningen, of hooguit een ordening van intervallen, worden verdedigd.
De meetwaarden op de ξ-schaal of de θ-schaal kunnen praktisch gebruikt worden door bewerkingen die de schaal van een handige interpretatie voorzien.

Welke bewerkingen zijn nodig?

A

De eerste bewerking dient
om de schaal te relateren aan een specifieke normgroep. Een specifieke score is dan te interpreteren in het kader van de verdeling van scores binnen die normgroep.

De tweede bewerking dient om meetwaarden te relateren aan een of meer referentiepunten die onafhankelijk
zijn van een groep of populatie, en die een zinvolle interpretatie mogelijk maken.

Naast deze
bewerkingen valt ook nog te denken aan een omzetting in percentielscores, in odds, of in betrouwbare scores T

82
Q

Wat betekent lokale betrouwbaarheid?

A

Van ▌lokale betrouwbaarheid is sprake als een test
goed bij iemands niveau past. De test is dan ▌informatief. Voor ieder afzonderlijk item en voor
de gehele test kan het informatiegehalte (of de lokale betrouwbaarheid) voor de schatting van
θ worden bepaald en in een ▌informatiefunctie worden weergegeven. Algemeen geldt: hoe
groter de waarden van de informatiefunctie, des te nauwkeuriger de meting

83
Q

De meeste tests die in de praktijk worden gebruikt zijn standaardtests. In de context van onderwijsevaluatie zijn er nogal wat bezwaren aan te geven tegen het gebruik van standaardtests en standaardtoetsen. Welke 3?

A

Ten eerste zijn standaardtests niet altijd representatief voor een
inhoudelijk domein. Dit is het probleem van de inhoudsvaliditeit. Een bijkomend probleem is
dat een respondent op iedere standaardtest uit een bepaald domein een andere betrouwbare
score heeft.

Ten tweede is er het probleem dat standaardtests het bestaan van standaardpopulaties veronderstellen. Die bestaan in de onderwijscontext nauwelijks.

Ten derde is er de
individualisering van het leerproces. Een standaardtest is dan niet het juiste middel om leerlingen te evalueren.

84
Q

Andere bezwaren tegen de standaardtest doen zich voor wanneer men tracht veranderingen
te meten of onderzoek wil doen naar ontwikkelingen in het onderwijsniveau op nationale
schaal. Welke?

A

Dit veronderstelt ten minste twee meetmomenten, en hierbij kunnen geheugeneffecten optreden of kan sprake zijn van ▌vloereffecten en ▌plafondeffecten. In het laatste geval is
de test op het tweede meetmoment te gemakkelijk geworden en behaalt bijna iedereen de
maximale score. Ook hier bestaat de behoefte aan verschillende tests voor dezelfde eigenschap maar van verschillend moeilijkheidsnivea

85
Q

Waar zouden standaardtests, gebaseerd op een klein aantal items, door vervangen moeten worden?

A

Itembank

86
Q

Hoe wordt de combinatie van itembank en item-responstheorie aangeduid?

Waarom gaan deze hand in hand?

A

Moderne complex

De reden dat deze twee
hand in hand gaan is gelegen in de eigenschap van populatie-onafhankelijkheid van metingen

Hierdoor is het mogelijk om alle items uit een bank op dezelfde schaal af te beelden en daaraan meetwaarden toe te kennen, het zogenaamde ▌kalibreren.

87
Q

Wat is equivaleren?

A

et afbeelden, op een gemeenschappelijke schaal, van gekalibreerde items die afkomstig zijn uit verschillende tests die
hetzelfde psychologische begrip meten, wordt ▌equivaleren van itemkenmerken genoemd.

88
Q

Bij de constructie van een test waarmee een populatie van respondenten zo nauwkeurig mogelijk in twee groepen moet worden verdeeld, is een vooraf vastgestelde wat nodig?

Hoe vindt testconstructie daarna plaats?

A

een vooraf vastgestelde grensscore θ0 nodig.
Dit wordt de ▌aftestgrens of ▌cesuur genoemd.

De geschatte waarde van θ dient in de buurt
van de aftestgrens zo nauwkeurig mogelijk te worden geschat. Nuanceringen binnen de twee
categorieën van testresultaten zijn minder belangrijk. De waarden van de informatiefunctie
moeten op en rond θ0 dus groot zijn. De testconstructeur bepaalt zelf welke nauwkeurigheid
acceptabel is. De na te streven testinformatiefunctie wordt ▌doelinformatiefunctie genoemd. De testconstructeur selecteert nu items, zodanig dat de testinformatiefunctie van deze items
in zijn geheel boven de doelinformatiefunctie ligt.

Itemselectie komt er dus op neer dat, gegeven de eisen die aan de
items en de test gesteld worden, uit efficiëntieoverwegingen de kleinst mogelijke deelverzameling van items wordt geselecteerd, waarvan de testinformatiefunctie voor alle waarden van
θ ten minste even groot is als de doelinformatiefunctie.

89
Q

Wat is er nodig om individuele tests voor adaptief testen samen te kunnen stellen?

A

is een grote itembank nodig, waarin naast de items ook de itemparameters zijn opgeslagen

90
Q

Hoe kan de adaaptieve tesprocedure worden vereenvoudigd?

A

door steeds twee of meer items aan
te bieden voordat weer berekeningen worden uitgevoerd. De eenvoudigste procedure daarvoor is ▌two-stage testing. In het eerste stadium krijgen alle respondenten dezelfde, korte
test van middelmatige moeilijkheid voorgelegd. Welke test een respondent in het tweede stadium krijgt, hangt af van diens prestatie op de eerste test. Tussen two-stage testing en adaptief testen zijn vele varianten van ▌multi-stage testing mogelijk. Opgemerkt moet worden dat
zowel two-stage testing als elk van deze varianten tot minder nauwkeurige metingen leiden
dan de item-voor-item aanpak.

91
Q

Adaptief testen kent enkele grote voordelen ten opzichte van een standaardtest. Welke 6?

A
  1. Per respondent wordt een nauwkeurige meting verricht.
  2. Respondenten worden geconfronteerd met tests die op hun niveau zijn afgestemd.
  3. De adaptieve testprocedure is geautomatiseerd en daardoor objectief.
  4. De testtijd is relatief kort, waardoor meer respondenten kunnen worden onderzocht.
  5. Door de automatisering kan een snelle terugkoppeling plaatsvinden.
  6. Prestaties op verschillende tests kunnen met elkaar worden vergeleken, als gevolg van de
    eigenschap van populatie-onafhankelijk meten, die het mogelijk maakt om θ-waarden die
    zijn verkregen met verschillende tests via equivalering op dezelfde schaal af te beelden.
92
Q

Er zijn ook nadelen aan testconstructie op basis van itembanken (waaronder adaptief testen). Welke 3?

A
  1. Item-responsmodellen leggen vele restricties op aan de testgegevens.
  2. Er zijn hoge kosten gemoeid met de ontwikkeling van een itembank en adaptief systeem.
  3. Vooral de operationalisering van psychologische begrippen en de constructie van items
    zijn een achilleshiel van testconstructie op basis van een itembank. Doordat theorieën
    vaak onvoldoende eenduidig zijn geformuleerd, is operationalisering moeilijk.
93
Q

Het probleem is niet het grote aantal items dat vereist is, maar het feit dat

A

deze items uit de
aard van de te meten eigenschappen of de samenstelling van het kennis- en inzichtsdomein
inhoudelijk heterogener zijn dan item-responsmodellen veronderstellen. Een probleem met
het aantal items doet zich vooral voor bij persoonlijkheids- en attitudemetingen.
Ten slotte blijft de vaag over hoe erg het is dat het item-responsmodel niet altijd past bij de
gegevens. Er is altijd wel enige discrepantie tussen een statistisch model en empirische gegevens. Het is dus van belang om te weten hoe groot deze discrepantie mag zijn, maar hierover is weinig bekend.

94
Q

Het lastigste deel van het onderzoek naar vraagonzuiverheid is het geven van een inhoudelijke
verklaring voor statistisch gebleken onzuiverheid. Het geven van een inhoudelijk-psychologische verklaring is noodzakelijk, wil men niet blijven steken in een volstrekt technische
aanpak. Hiervoor zijn drie strategieën geformuleerd. Welke 3?

A

De eerste strategie behelst de inspectie
van partijdige items naar opvallende kenmerken waardoor deze zich onderscheiden van de
overige items. Op basis hiervan worden hypothesen geformuleerd over de oorzaken. Deze
strategie kan gemakkelijk tot speculatie leiden.

Bij de tweede strategie wordt een verband
gelegd tussen eigenschappen van personen enerzijds en kritische kenmerken van partijdige
items in vergelijking met onpartijdige items anderzijds.

De derde strategie is het experimentele onderzoek naar de oorzaken van vraagonzuiverheid.

95
Q

Zowel binnen als buiten de context van de item-responstheorie zijn verscheidene methoden
voorgesteld om het afwijken van scorepatronen te onderzoeken.
Bijna alle methoden hebben wat
gemeen?

A

dat de kans op een patroon van itemscores wordt berekend gegeven iemands meetwaarde en de kenmerken van alle items, en dat die kans wordt vergeleken met de verwachte
kans onder een specifiek item-responsmodel of ander testmodel

96
Q

Wat is een recente aanpak om het afwijken van scorepatronen te onderzoeken?

A

Een recente aanpak gaat uit
van de ▌persoon-responsfunctie, het spiegelbeeld van de item-responsfunctie. De persoonresponsfunctie geeft de kans dat een persoon met een gegeven θ-waarde een goed antwoord
geeft, als functie van de moeilijkheid van items die een gegeven eigenschap meten

97
Q

Wat zijn polytoom gescoorde items?

A

Polytoom gescoorde items hebben drie of meer geordende antwoordcategorieën.

98
Q

Wat doen item-responsmodellen voor polytoom gescoorde items?

A

Itemresponsmodellen voor polytome scores definiëren een responsfunctie voor elke score die op
een item mogelijk is. De kans op een specifieke itemscore wordt dus voor iedere score apart
gemodelleerd. De som van de kansen per θ-waarde is gelijk aan 1. Item-responsmodellen voor
polytome items zijn veel ingewikkelder dan modellen voor dichotome items. Het gevolg is dat
ook het bepalen van het passen van een model bij de gegevens en het schatten van de itemkenmerken lastiger zijn.

99
Q

De item-responstheorie is pas in de jaren 70 en 80 tot ontwikkeling gekomen. De itemresponstheorie en de klassieke testtheorie vullen elkaar eerder aan dan dat ze elkaar uitsluiten. Belangrijke voordelen van de item-responstheorie zijn de volgende: 3x

A
  1. Item-responsmodellen kunnen als nulhypothese op de testgegevens worden getoetst.
    Past een model bij de gegevens, dan gelden bij de implicatie de eigenschappen van het
    model voor de gegevens.
  2. Personen en (in sommige modellen) items worden populatie-onafhankelijk gemeten. Dit
    maakt het mogelijk om de prestaties van personen die met verschillende tests voor dezelfde eigenschap zijn gemeten op dezelfde schaal af te beelden.
  3. De betrouwbaarheid van de meting varieert over de schaal, waardoor aan het licht komt
    dat de ene persoon met de test nauwkeuriger kan worden gemeten dan de andere. De
    test kan voor de ene persoon dan ook geschikter zijn dan voor de andere.
100
Q

De voordelen van de klassieke testtheorie zijn meer praktisch van aard, namelijk… 3x

A
  1. De klassieke theorie is eenvoudiger dan de item-responstheorie en daardoor wellicht beter toegankelijk.
  2. Er kan niet direct worden getoetst of de theorie bij de gegevens past, maar dat betekent
    niet dat de validiteit van de tests minder is dan die volgens een item-responsmodel.
  3. De klassieke testtheorie werkt bij de testconstructie bijna altijd, doordat van elke verzameling items de item-restcorrelaties kunnen worden gebruikt om eventueel items weg te
    laten en van de resterende verzameling de betrouwbaarheid kan worden bepaald
101
Q

Een voordeel van de itemresponstheorie boven de klassieke testtheorie is dat in de itemresponstheorie
Uw antwoord

de onderzoeker als meetniveau een intervalschaal mag veronderstellen.

de validiteit van een test altijd groter is dan in de klassieke testtheorie.

iemands meetwaarde onafhankelijk is van de moeilijkheid van de test.

de onderzoeker niet hoeft te toetsen of het model past bij de gegevens.

A

iemands meetwaarde onafhankelijk is van de moeilijkheid van de test.

102
Q

Wanneer men factoranalyse toepast op een verzameling items die aan één bepaald IR-model voldoen, zal men in het algemeen vinden:
Uw antwoord

dat de items onderling hoog correleren en dus zijn er verscheidene groepsfactoren.

soms verscheidene factoren, soms één factor, dat hangt van de inhoud van de items af.

verscheidene factoren die tezamen veel variantie verklaren.

één factor; de items meten gezamenlijk één psychologische eigenschap. (Juist)

A

één factor; de items meten gezamenlijk één psychologische eigenschap.

103
Q

De succeskans van persoon i is 0,70. In de itemresponstheorie betekent dit dat deze persoon
Uw antwoord

op elk item 70 procent kans heeft om dat item goed te hebben.

70 procent kans heeft om een bepaald item g goed te hebben.

70 procent kans heeft om boven een bepaalde testscore te komen..

70 procent van de items goed zal hebben.

A

70 procent kans heeft om een bepaald item g goed te hebben.

104
Q

Beoordeel de juistheid van de volgende twee stellingen.
Een grote verzameling rekenitems voor tienjarigen voldoet aan het Rasch-model. Populatieonafhankelijk meten betekent:

I Elke steekproef uit deze grote verzameling items die aan tienjarige kinderen wordt voorgelegd, levert dezelfde θ-waarden op.
II Als de items aan een groep elfjarige kinderen wordt voorgelegd, voldoen de items ook dan aan het Rasch-model.

Uw antwoord

I en II zijn onjuist.

Alleen II is juist.

Alleen I is juist.

I en II zijn juist.

A

Alleen I is juist.

105
Q

De nauwkeurigheid van een test waarvan de items voldoen aan een IR-model, is
Uw antwoord

hetzelfde, ongeacht de deelverzameling van items uit de itembank die men in de test opneemt.

niet op alle plaatsen van de θ-schaal even groot.

onafhankelijk van de nauwkeurigheid van elk afzonderlijk item.

onafhankelijk van het aantal items in de test.

A

niet op alle plaatsen van de θ-schaal even groot.

106
Q

Voor de modellen van Mokken is kenmerkend dat
Uw antwoord

wanneer de waarde van de persoonsparameter gelijk is aan de moeilijkheidsparameter, de succeskans dan 0,50 is.

de meting op intervalniveau plaatsvindt.

de items niet alleen gelijke discriminatiewaarden, maar ook gelijke moeilijkheidsparameters moeten hebben.

elke IRF voldoet zo lang deze maar monotoon niet-dalend is.

A

elke IRF voldoet zo lang deze maar monotoon niet-dalend is.

107
Q

Van de items in een itembank die voldoen aan het tweeparametermodel,
Uw antwoord

zijn de schattingen van sommige α- en δ-parameters nog onbekend.Onjuist

is niet vastgesteld voor welke populatie personen zij bedoeld zijn.

is vastgesteld dat zij een beroep doen op één en dezelfde psychologische eigenschap.

is alleen voor sommige θ-waarden bekend hoe informatief zij zijn.

A

is vastgesteld dat zij een beroep doen op één en dezelfde psychologische eigenschap.

108
Q

In de itemresponstheorie spreekt men van een ‘zuiver’ item wanneer twee personen
Uw antwoord

uit verschillende populaties maar met dezelfde meetwaarde dezelfde succeskans hebben.

uit verschillende populaties en met verschillende meetwaarden dezelfde succeskans op item g hebben.

uit dezelfde populatie maar met verschillende meetwaarden een verschillende succeskans op item g hebben.

uit dezelfde populatie en met dezelfde meetwaarden een verschillende succeskans op item g hebben.

A

uit verschillende populaties maar met dezelfde meetwaarde dezelfde succeskans hebben.

109
Q

Wanneer men een doelinformatiefunctie van een test opstelt, dan is voor een bepaald punt op de θ-schaal de functiewaarde
Uw antwoord

gelijk aan de maximumwaarde van de testinformatiefunctie; de waarde van de testinformatiefunctie mag ook hoger zijn.

gelijk aan de minimumwaarde van de testinformatiefunctie die nog acceptabel is; de waarde van de testinformatiefunctie mag niet lager zijn.

precies gelijk aan de waarde van de testinformatiefunctie; een hogere of lagere waarde is niet toegestaan.

hoger of lager dan de waarde van de testinformatiefunctie; hoevéél hoger of lager hangt af van hoe nauwkeurig de test op dat punt moet meten.

A

gelijk aan de minimumwaarde van de testinformatiefunctie die nog acceptabel is; de waarde van de testinformatiefunctie mag niet lager zijn.

110
Q

Beoordeel de juistheid van de volgende twee stellingen.
I In de itemresponstheorie is de meting op elke plaats van de θ-schaal even betrouwbaar.
II In de klassieke testtheorie zijn de metingen populatieafhankelijk.
Uw antwoord

I en II zijn onjuist.

Alleen I is juist.

I en II zijn juist.

Alleen II is juist.

A

Alleen II is juist.

111
Q

Adaptief testen in de itemresponstheorie betekent dat men
Uw antwoord

via het afnemen van een veelheid aan tests de sterke en zwakke punten van een persoon opspoort.

op grond van de antwoorden die een persoon op een aantal items heeft gegeven, een gedifferentieerd individueel scoreprofiel opstelt.

op grond van de antwoorden op items die voor elke persoon verschillend kunnen zijn, een zo nauwkeurig mogelijke schatting van iemands meetwaarde geeft.

de items in volgorde van opklimmende moeilijkheid aanbiedt

A

op grond van de antwoorden op items die voor elke persoon verschillend kunnen zijn, een zo nauwkeurig mogelijke schatting van iemands meetwaarde geeft.