H7: Itemresponstheorie Flashcards
Dit hoofdstuk moet u goed doorlezen. Het zal eenvoudig worden getentamineerd, in die zin dat uitsluitend de hoofdgedachte gevraagd wordt. Er worden geen berekeningen gevraagd en u hoeft de formules in het hoofdstuk niet te kunnen repliceren. De bespreking in deze introductie moet u wel goed bestuderen. Het is belangrijk om voor een goed begrip van de kern van de boodschap eerst de volgende verduidelijkende instructiefilm te bekijken.
Wat zijn de 3 modellen van item-responstesttheorie?
- Raschmodel
- Birnbaummodel
- Drie-parameter logistisch model
Wat zijn de verschillen tussen de moderne testtheorie en klassieke testtheorie?
- De klassieke testtheorie geeft geen antwoord op de vraag hoe gegevens die verschillen in moeilijkheidgraad gecombineerd kunnen worden.
- Bij de moderne testtheorie wordt er ook gesproken over een niet direct observeerbare variabelen namelijk latente variabelen. Bij de moderne testtheorie wordt niet de term ‘meetfout’ gebruikt.
- Men spreekt niet van een ware score, maar bekijkt men de meetwaarde op een onbegrensd continuüm.
Wat zijn latente variabelen?
Niet direct observeerbare variabelen.
Deze term hoort bij de moderne testtheorie.
Wat vertegenwoordigen afzonderlijke punten op het meetwaarde continuum bij de moderne testtheorie?
Deze komen overeen met het kennis of vaardigheidsniveau dat nodig is om een specifiek item van een test juist te beantwoorden.
Links: simpeler
Rechts: moeilijker
Wat vertegenwoordigen de punten op de Guttman-scalogram bij het continuum van de moderne testtheorie?
Afzonderelijke personen.
Wat is de centrale vraag bij de moderne testtheorie?
Wat is een wiskundige vertaling van deze vraag?
Hoe verhoudt zich de meetwaarde van de persoon tot de meetwaarde die nodig is voor het beantwoorden van de testvraag?
Wat is de kans dat iemand beter is dan de moeilijkheid van de testvraag?
De kans loop van 0 (vraag wordt nooit juist beantwoord) naar 1 (vraag wordt altijd juist beantwoord).
Wat zegt het Raschmodel?
Als een item moeilijk is, verschuift de functie dan naar links of naar rechts?
Functie voor het beschrijven van de item-responsfunctie op basis van de logistische functieregel.
Rechts
Wat betekent het als een functie stijler loopt?
Welk model beschrijft dit?
Wat als alfa = 1? (alfa is de discriminatieparameter)
Dat het item beter discrimineert: men hoeft de vaardigheid slechts een beetje beter te beheersen om het goede antwoord te geven.
Het Birnbaummodel
Dan is het Birnbaummodel gelijk aan het Raschmodel.
Wat als de discriminatieparameter hoger is, bijv. 2 of 3?
De stijlheid van de functie vertaalt zich in onderscheidend vermogen.
Wat is het drie-parameter logistisch model?
Wat gebeurt er als gramma = 0?
Hierbij krijgt het Birnbaummodel een 3e parameter: het pseudo kansniveau gamma.
Er is een kans dat iemand door te gokken het juiste antwoord geeft. Bijv. bij 5 antwoordopties, is de kans op het geven van het juiste antwoord 1/5 = 0.2 . Gamma begint dan bij 0.2, en niet bij 0.
Het drie-parameter logistisch model is dan gelijk aan het birnbaummodel.
De moeilijkheidsgraad (delta), het discriminatievermogen (alfa) en het kansniveau (gamma) zijn de drie karakteristieken die centraal staan in de item-responstheorie.
Wat zegt deze theorie?(
De kans op het juiste antwoord is de functie van vaardigheid en itemkarakteristieken.
Als we de itemkarakteristieken kennen, kunnen we uit iemands antwoordpatroon (respons) de vaardigheid afleiden.
Wat zijn Mokkenmodellen?
Wat zijn 2 voorbeelden van mokkenmodellen?
- Model van monotone homogeniteit
- Model van dubbele homogenie
Hoe verschillen de mokkenmodellen van het Raschmodel, Birnbaummodel en het Drie-parameter logistisch model?
Bij het Raschmodel, Birnbaummodel en het Drie-parameter logistisch model kunnen de items en testscores op dezelfde schaal afgebeeld worden.
Bij mokkenmodellen niet: hierbij is er sprake van ordinale metingen. Dus testscores en items moeten apart van elkaar afgebeeld worden. Er is geen glijdende schaal.
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om de interpretatie van de persoonlijke score? 2x
- Klassiek: afhankelijk van testsamenstelling
Modern: per item of willekeurige selectie van items - Klassiek: populatieafhankelijk
Modern: populatieonafhankelijk
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om itemparameters?
Klassiek: populatieafhankelijk
Modern: populatieonafhankelijk (Rachmodel) of -afhankelijk
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om flexibiliteit?
Klassiek: niet adaptief testen
Modern: adaptief testen
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om informatie (inhoud)?
Klassiek: gelijk per item
Modern: uniek per item
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om betrouwbaarheid?
Klassiek: meer items = nauwkeuriger
Modern: verschilt per score/item
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om empirische controle testprestatie?
Klassiek: geen uitspraken
Modern: empirisch toetsbaar
Hoe verschilt de klassieke testtheorie van de moderne testtheorie als het gaat om complexiteit?
Klassiek: laag
Modern: hoog
Het gaat in hoofdstuk 7 om itemresponsmodellen (IR-modellen) en dan met name voor dichotome items. Wat houdt dichotome items in?
items met twee uitkomsten. Dit kan letterlijk zijn (bijvoorbeeld een ja-neevraag), maar kan ook slaan op meerkeuzevragen, zolang er maar één respons ‘goed’ is, en de overige ‘fout’, zoals bij een meerkeuzetentamenvraag.
Wat stelt de itemresponstheorie?
In de itemresponstheorie (IRT) heeft een persoon i met een meetwaarde (of vaardigheid) θi (θ is de Griekse letter theta) een bepaalde kans om item g goed te beantwoorden. Deze kans (de succeskans) wordt behalve door θi ook bepaald door drie itemparameters: δg (de moeilijkheid van item g), αg (de discriminatiewaarde van item g) en γg (pseudokansniveau van item g).
De kans om het item goed te maken is in de IRT een wiskundige functie van θ (het veronderstelde, latente kenmerk of vaardigheid) en van δg, αg en γg.
Hoe heet de wiskundige functie die hierbij hoort?
Itemresponsfunctie
De IRF is in principe een monotoon niet-dalende functie van θ; de vorm wordt bepaald door de drie itemparameters. Belangrijk is om te onthouden dat de IRF ervan uitgaat dat de onderliggende data zich als een monotoon niet-dalende functie laat uitdrukken. Later in het hoofdstuk zal besproken worden dat deze aanname niet zondermeer opgaat.
Er worden in het hoofdstuk vijf IR-modellen onderscheiden die hieronder worden besproken. De bouwstenen van deze modellen worden hier kort samengevat.
Een IR-model bestaat potentieel uit de volgende bouwstenen. 3x
- Moeilijkheid δ: de moeilijkheid (voor modellen met een dichotome uitkomst; §7.2), of locatie (voor modellen met polytome uitkomsten; §7.5.1) is de vaardigheid die iemand moet bezitten om 50 procent kans te hebben om het item (of de categorie) ‘goed’ te hebben.
- Discriminatiewaarde α: de steilheid van de IRF is een indicatie hoe scherp het item rond een gegeven moeilijkheid onderscheid kan maken. De hoger de discriminatiewaarde, des te steiler loopt de functie, des te sneller en scherper loopt de functie van 0 naar 1.
- Pseudokans γ: Er is altijd een baselinekans dat een item goed beantwoord wordt, puur op basis van gokken. Deze kans kan per item verschillen en de pseudokansparameter kan daarom per item variëren. Op een meerkeuzetentamen met vier antwoordopties zijn er bijvoorbeeld vragen waar 25 procent kans is om het juiste antwoord te gokken, maar als er vragen tussen zitten met twee absurde antwoordopties en twee die een ‘educated guess’ goed mogelijk maken, dan kan de kans zelfs oplopen tot 50 procent. Tegenwoordig zijn er weinig IR-modellen die pseudokansparameters schatten.
Wat is het Rasch-model?
Dit is het eenvoudigste model waarin enkel de moeilijkheid (δ) van de items varieert; de discriminatiewaarden (α) van de items worden gelijk geacht. Tevens is het pseudokansniveau γ = 0.Er zijn twee formuleringen van het Rasch-model (zie formule 7.1: verschilschaal en formule 7.4: ratioschaal). De kans op het goed maken van het item komt voor beide formuleringen op hetzelfde neer (dat is, beide formuleringen geven dezelfde succeskans).
Wat is het twee-parametermodel van Birnbaum?
In een Birnbaum-model varieert naast de moeilijkheid (δ) ook de discriminatiewaarde (α) van de items. De discriminatiewaarden van alle items worden nu vrij geschat, dus de α’s mogen nu ongelijk zijn. Net als in een Rasch-model is het pseudokansniveau van alle items γ = 0.
Wat is het drie-parametermodel van Birnbaum ?
Hetzelfde model als het twee-parametermodel, alleen het pseudokansniveau γ is nu ongelijk aan nul. Het pseudokansniveau mag per item variëren. Een IR-model met een pseudokansniveau dat ongelijk is aan 0 is te herkennen aan een intercept dat de y-as snijdt op een punt >0. Niet besproken in het boek is een vier-parametermodel; men kan zich voorstellen dat als de hoogte van de ‘start’ van de lijnfunctie (dat is, het intercept) kan variëren (zie het drie-parametermodel), ook de hoogte van de ‘stop’ van de lijnfunctie kan worden gevarieerd. Bij de hierboven besproken modellen liep de lijnfunctie door tot 1. Dit betekent dat mensen met een oneindig hoge latente trekwaarde (theta) een kans van 1 hebben om het item goed te maken. In het vier-parametermodel wordt zelfs voor personen met de hoogste thetawaarden nog een foutenkans toegedicht, waardoor de lijnfunctie niet doorloopt tot 1. Dit aspect wordt in een ander type model besproken (het Mokken-model) in paragraaf 7.2.3.
Wat is het het Mokken-model van monotone homogeniteit?
Een centraal concept in het model van Mokken is ‘monotonie’. De monotonie betreft hier de vorm van de IR-functie. Een IR-functie is monotoon stijgend wanneer de functie over waarden van x alleen toeneemt of stilstaat, maar nooit ergens daalt. Dit is een belangrijke eigenschap van een IR-functie, want de succeskans moet alleen oplopen wanneer de vaardigheid toeneemt. Het mag eigenlijk niet zo zijn dat de succeskans voor een bepaald item voor mensen met een hoger vaardigheidsniveau lager ligt ten opzichte van mensen met een lager vaardigheidsniveau.
Het probleem met de eerder genoemde modellen is dat deze monotone stijging niet altijd in de praktijk gegarandeerd kan worden. De oplossing in de Mokken-modellen is om veel eisen aan het model op te leggen, zodat er altijd een monotoon stijgende functie kan worden gecreëerd. Dit kan bijvoorbeeld worden gedaan door met het meetniveau van de schaal te spelen (deze bijvoorbeeld ordinaal te maken). In sommige instanties wordt er zelfs met de volgorde van antwoordcategorieën geschoven om een monotone stijging te forceren.
In het Mokken-model van monotone homogeniteit is de enige restrictie aan de IRF dat deze monotoon niet-dalend is. Het meetniveau is ordinaal. Men ordent de personen op de (onbekende) θ-schaal met behulp van de ware (betrouwbare) scores T die op de gewone manier geschat kunnen worden (zie hoofdstuk 6). De ordening van de items naar hun moeilijkheid is wél populatieafhankelijk.
Wat is het Mokken-model van dubbele monotonie?
Ook in dit model zijn de IRF’s monotoon niet-dalend, maar nu mogen de IRF’s van afzonderlijke items elkaar niet snijden. De meting is ook hier op ordinaal niveau. Dit model leidt tot populatieonafhankelijke ordeningen van zowel personen als van items.
In de IRT is de schatting van de meetwaarden een functie van de specifieke θ-waarde. Een test meet dus niet op de hele θ-schaal even nauwkeurig maar is voor sommige θ-waarden informatiever dan voor andere. De informatiefunctie van een item of van een test bereikt bij een bepaalde waarde van θ een maximum en in dat punt meet een item of de test het nauwkeurigst (zie paragraaf 7.3.2).
Wat als men op een bepaalde plaats op de θ-schaal zéér nauwkeurig wil meten?
Dan neemt met de items die in dat punt de grootste informatiewaarden hebben.
Wat is het principe van adaptief testen?
Het voorleggen van items die qua moeilijkheid zo goed mogelijk overeenkomen met het niveau van de persoon. De computer biedt willekeurig een item aan met een willekeurige moeilijkheid. Afhankelijk van het antwoordpatroon probeert de computer een inschatting van de testafnemers θ te maken en blijft items aanbieden totdat nieuwe antwoorden geen relevante informatie meer opleveren.
Wat is een itembank in de IRT?
een verzameling van een groot aantal items die aan een bepaald IR-model voldoen. anneer de items in de itembank voldoen aan de eisen van een IR-model, maakt het in principe niet uit welke items we aan een persoon voorleggen; het schatten van een populatieonafhankelijke meetwaarde is dan mogelijk. Echter, de nauwkeurigheid van de schatting is niet populatieonafhankelijk; voor de nauwkeurigheid van de meting maakt het wél uit welke items men selecteert.
Wanneer spreekt men van een zuiver item in de IRT?
Als de IRF in twee groepen identiek is, want personen uit verschillende populaties maar met eenzelfde θ-waarde moeten dezelfde succeskans op een bepaald item hebben. Zijn die succeskansen verschillend, dan zijn er meerdere eigenschappen in het spel. Wat de ene eigenschap betreft zijn de personen qua niveau vergelijkbaar (zelfde θ-waarde), terwijl ze op de andere eigenschap verschillen. Vraagonzuiverheid is vaak een kwestie van verborgen meerdimensionaliteit. Statistisch gebleken vraagonzuiverheid moet ook inhoudelijk geïnterpreteerd worden.
Wanneer spreekt men in de IRT van een afwijkende scorepatroon?
Wanneer het vaak voorkomt dat items foutief beantwoord worden door een persoon die op basis van zijn/haar θ een grote succeskans zou moeten hebben en items goed beantwoord worden waarop hij of zij een lage succeskans heeft, dan spreekt men in de IRT van een afwijkend scorepatroon (zie paragraaf 7.4.5). Ook afwijkende scorepatronen moeten inhoudelijk geïnterpreteerd kunnen worden.
Noem vier voordelen van de itemresponstheorie in vergelijking met de klassieke testtheorie.
Voordelen van de itemresponstheorie zijn:
– adaptief testen
– controlemogelijkheid of het IR-model past bij de testgegevens
– het meetniveau is afleidbaar uit de theorie
– mogelijkheid tot populatieonafhankelijk meten.
Wat is populatieonafhankelijk meten?
Populatieonafhankelijk meten betekent dat iemands meetniveau vastgesteld kan worden onafhankelijk van de moeilijkheid van de items. Dus als items en personen voldoen aan een IR-model, verkrijgen we voor een willekeurige deelpopulatie dezelfde meetwaarden, ongeacht welke deelpopulatie items aan de personen voorgelegd wordt.
Wat is een succeskans?
De succeskans is de kans op een goed antwoord op een item bij een gegeven meetwaarde (θ). Notatie: P(Xg = +1|θ). De succeskans is een wiskundige functie van θ en van de drie itemparameters: αg (discriminatiewaarde), δg (moeilijkheid) en γg (pseudokansniveau).
Wat is een itemresponsfunctie (IRF)?
Een itemresponsfuntie (IRF) is een wiskundige functie die enerzijds θ, α, δ en γ verbindt aan de succeskans (P) anderzijds.
Welke drie itemkenmerken bepalen de vorm van de IRF?
De vorm van de IRF wordt bepaald door de drie itemparameters.
Aan welke twee voorwaarden moet het Rasch-model voldoen?
Voor de items die aan het Rasch-model voldoen, geldt:
– het pseudokansniveau is gelijk aan 0: γg = 0;
– de discriminatiewaarden zijn gelijk: αg = αh.
Welke transformaties zijn in het algemeen toegestaan?
In het algemeen zijn díe transformaties toegestaan die de succeskans niet veranderen.
Welke transformatie is op de θ-schaal in het Rasch-model toegestaan?
In het Rasch-model zijn op de θ-schaal de volgende transformaties toegestaan: θ* = θ + b en δ* = δ + b (b is een constante).