Hoofdstuk 7. Item respons theorie Flashcards
Moderne testtheorie
De moderne testtheorie biedt een oplossing voor een verschil in moeilijkheidsgraad in items. De vraag die beantwoord wordt is: hoe verhoudt zich de meetwaarde van de persoon tot de meetwaarde die nodig is voor het beantwoorden van de testvraag? Wat is de kans dat ik beter ben dan de moeilijkheid van de testvraag? De kans loopt van 0 (altijd fout) naar 1 (altijd goed).
Itemresponstheorie
IRT. Persoon i met een meetwaarde (of vaardigheid) θi heeft een bepaalde kans om item g goed te beantwoorden. Deze kans (de succeskans) wordt behalve door θi ook bepaald door drie itemparameters: δg (de moeilijkheid van item g), αg (de discriminatiewaarde van item g) en γg (pseudokansniveau van item g).
Itemresponsfunctie (ook wel item- karakteristieke functie of curve)
De kans op een goed antwoord ten opzichte van de moeilijkheid van de testvraag. Dit zijn de lijnen in een grafiek met de θ-waarde. De kans wordt hoger als de vaardigheid verbeterd. Deze succeskans (P) is een wiskundige functie van θ en van δg, αg en γg. De succeskans is een functie van de schaal waarop de meetwaarden θ liggen. Deze schaal kan worden opgevat als meetlat voor de psychologische eigenschap. Belangrijk is om te onthouden dat de IRF ervan uitgaat dat de onderliggende data zich als een monotoon niet-dalende functie laat uitdrukken. Dit betekent dat de functie stijgt of constant is. In het deel dat constant is, is weinig verschil te zien tussen personen. In het deel dat stijgt, het deel dat de vaardigheden verbeteren, neemt ook de kans op succes in korte tijd toe. Om daarna weer te stabiliseren.
Voordelen van de IRT
- Adaptief testen
- Controlemogelijkheid of het IR-model past bij de testgegevens
- Het meetniveau is afleidbaar uit de theorie
- Mogelijkheid tot populatieonafhankelijk meten.
Meten bij implicatie
Als blijkt dat een model een goede beschrijving geeft (wat kan worden gecontroleerd met statistische methoden), dan volgt daaruit dat de meeteigenschappen van dit model ook in concrete, praktische toepassingen van de test gelden.
Meten bij fiat
Er wordt aangenomen dat bepaalde eigenschappen geldig zijn, zonder dat dit kan worden aangetoond.
Populatie onafhankelijk meten
Iemands meetwaarde, verkregen met een gemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test heeft gemaakt. Binnen een IR-model is sprake van populatie onafhankelijkheid.
Pseudokansniveau van item g (γg)
In de IRT wordt gesproken over pseudokansniveau en niet over giskans. Dit omdat de exacte ‘giskans’ niet alleen afhangt van het aantal alternatieven van A, maar ook van inhoudelijke kenmerken van het item. Bij items met open vragen nader het yg 0. Het itemkenmerk yg wordt de pseudokansniveauparameter genoemd.
Locatieparameter δg of moeilijkheids-parameter
De locatieparameter δg is de vaardigheid die iemand moet bezitten om 50 procent kans te hebben om het item (of de categorie) ‘goed’ te hebben. Dit is het punt op de θ-schaal dat wordt geassocieerd met de succeskans. Dit ligt halverwege tussen het pseudokansniveau en de maximale succeskans (1). De locatie is gelijk aan (1+ yg)/2. Bij een openvraag met yg = 0 is de δg dus altijd 0.5. Wordt het item moeilijker, dan schuift de θ-schaal naar rechts en de succeskans neemt dan af, dit geeft een grotere waarde voor δg
Discriminatie-parameter αg
De discriminatieparameter heeft alles te maken met de steilheid van de IRF in het kritische gebied. Hoe steiler de curve, hoe hoger de discriminatiewaarde en hoe meer de verdeling op de θ-schaal scherper wordt met links een gebied met lage succeskans en rechts het gebied met hoge succeskans. Binnen het kritische gebied bevindt zich dan slechts een klein deel van de verdeling van de personen naar θ en zeer kleine veranderingen in θ hebben grote veranderingen in succes tot gevolg. Hoe steiler de helling, hoe beter de discriminatie.
Itemresponsmodellen
Er kunnen verschillende itemresponsmodellen worden gedefinieerd. Ze gaan allen wel uit van een monotoon niet-dalend verband tussen de succeskans op een item en de θ-schaal. De kans op het juiste antwoord is de functie van vaardigheid en itemkarakteristieken. Kennen we de itemkarakteristieken dan kunnen we uit iemands respons de vaardigheid afleiden. De IRM veronderstelt dat de items van een test dezelfde eigenschap meten. De modellen verschillen in keuze v.d. wiskundige functie voor de IRF. Strengere modellen laten gissen b.v. niet toe wat yg = 0 betekent. Zwakkere modellen geven meer vrijheid. Empirische testgegevens zijn vaak beter in overeenstemming met zwakkere modellen. Echter wanneer een zwak model een goede beschrijving geeft van de testgegevens volgt daar een meting op ordinale schaal uit. Een strenger model dat goed past bij de gegevens geeft een meting op interval- of rationiveau. Een aantal IRM in volgorde van streng naar zwak:
• Het Rasch model.
• Modellen met twee itemparameters (birnbaum)
• Modellen met drie itemparameters
Rasch-model
Deze wordt ook wel één-parameter logistische model genoemd. Dit model is streng.
• Bij zeer kleine θ waarden is de succeskans (P) gelijk aan 0. De pseudokansniveauparameter γg komt dus niet voor en wordt aangenomen als γ=0.
• Alle items uit een test die aan het Rasch-model voldoet hebben hetzelfde discriminerende vermogen. Α wordt genormeerd als α =1. Hierdoor komt αg ook niet voor in de formule. In de praktijk wisselen de items in αg-waarde. Dit betekent dat per item gekeken moet worden of ze voldoen aan het Rasch-model.
Schaal-transformaties bij het rasch model
Meting vindt plaats op een schaal waarop translaties (verschuiving) van de θ-waarden en de δ-waarden met dezelfde constante hoeveelheid zijn toegestaan. Deze schaaltransformaties zijn toegestaan wanneer zij géén invloed hebben op de succeskans.
• Op de θ-schaal is de transformatie θ* = θ + a en δ* = δ + a toegestaan. (a is een constante). Dit wordt een verschilschaal genoemd.
• Op de ξ-schaal is de transformatie ξ* = bξ en ε* = bε toegestaan. Dit worden verhoudingsschalen of ratioschalen genoemd.
Populatie onafhankelijkheid volgens het rasch model
Een belangrijke eigenschap van meting volgens het Rasch-model is dat de meetwaarden populatie onafhankelijk zijn. Dit betekent dat de θ-waarden onafhankelijk zijn van de moeilijkheid δ. Ofwel binnen de populatie kunnen deelgroepen bestaan die ieder een eigen moeilijkheidsniveau hebben. Het Rasch-
model is zo dat de effecten van personen en items op de succeskansen onafhankelijk zijn en interacties tussen personen en items geen rol spelen. Personen zijn hierdoor vergelijkbaar, onafhankelijk van het moeilijkheidsniveau van de gebruikte items. Omgekeerd geldt ook dat de moeilijkheden van items vergelijkbaar zijn, onafhankelijk van de personen die het item hebben gemaakt.
Birnbaum model
Het birnbaum model (en de drie itemparameters model) zijn op te vatten als veralgemenisering van het Rasch-model. Dit betekent dat wanneer het Rasch-model een adequate verklaring geeft van de testgegevens, ook minder strenge modellen gebruikt kunnen worden. Omgekeerd gaat dit niet automatisch op. Het birnbaummodel wordt ook wel twee-parameter logistische model genoemd. Eigenschappen:
• Items in de test mogen verschillend zijn in discriminerend vermogen α. Is dit het geval dan zullen de hun IRF elkaar snijden. Zijn ze gelijk, dan snijden ze elkaar niet (maar is het dus eigenlijk een Rasch-model).
• Items mogen variëren in moeilijkheid δ (net als Rasch)
• Voor lage Ѳ-waarden nadert de succeskans op het item 0 (net als Rasch)
• Transformaties van persoons- en itemparameters hebben geen invloed op de succeskans.
• De schaal heeft eigenschappen van een intervalschaal (net als Rasch)
Populatie onafhankelijkheid bij het birnbaum model
Meting volgens het Birnbaum-model is populatieonafhankelijk. Dit geeft echter ook moeilijkheden. Meetwaarde Ѳi is onafhankelijk van de itemmoeilijkheden, maar afhankelijk van de discriminatieparameters van de door respondent i correct beantwoorde items. Ofwel: gegeven het discriminerend vermogen van de gebruikte items, kan Ѳ bepaald worden en bij iedere test die uit het itemdomein wordt samengesteld, komt men tot dezelfde Ѳ-waarde. Maar: moeilijkheids- en discriminatieparameters kunnen niet populatieonafhankelijk bepaald worden.
Drie parameters logistische model
- Items mogen variëren in discriminerend vermogen α
- Items mogen variëren in moeilijkheid δ
- Items mogen variëren in pseudokansniveau γ.
Populatie onafhankelijkheid bij het drie parameters model
Meetwaarden van personen zijn populatie onafhankelijk te bepalen mits de populatie afhankelijke itemparameters bekend zijn. Zijn de parameters bekend, dan kunnen de Ѳ-waarden worden bepaald. Zijn ze niet bekend dan kunnen de parameters geschat worden mits een bekende verdeling van Ѳ verondersteld is.
IR modellen volgens Mokken
Mokken heeft twee item-respons modellen gepresenteerd die belangrijke verschillen heeft met de eerdergenoemde. Deze modellen zijn algemener. Testgegevens die met een algemeen model verklaard kunnen worden, hoeven niet automatisch verklaard te kunnen worden met een specifiek model. Omgekeerd geldt dit wel. De modellen zijn: Model van monotone homogeniteit en model van dubbele monotonie