Hoofdstuk 7. Item respons theorie Flashcards

1
Q

Moderne testtheorie

A

De moderne testtheorie biedt een oplossing voor een verschil in moeilijkheidsgraad in items. De vraag die beantwoord wordt is: hoe verhoudt zich de meetwaarde van de persoon tot de meetwaarde die nodig is voor het beantwoorden van de testvraag? Wat is de kans dat ik beter ben dan de moeilijkheid van de testvraag? De kans loopt van 0 (altijd fout) naar 1 (altijd goed).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Itemresponstheorie

A

IRT. Persoon i met een meetwaarde (of vaardigheid) θi heeft een bepaalde kans om item g goed te beantwoorden. Deze kans (de succeskans) wordt behalve door θi ook bepaald door drie itemparameters: δg (de moeilijkheid van item g), αg (de discriminatiewaarde van item g) en γg (pseudokansniveau van item g).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Itemresponsfunctie (ook wel item- karakteristieke functie of curve)

A

De kans op een goed antwoord ten opzichte van de moeilijkheid van de testvraag. Dit zijn de lijnen in een grafiek met de θ-waarde. De kans wordt hoger als de vaardigheid verbeterd. Deze succeskans (P) is een wiskundige functie van θ en van δg, αg en γg. De succeskans is een functie van de schaal waarop de meetwaarden θ liggen. Deze schaal kan worden opgevat als meetlat voor de psychologische eigenschap. Belangrijk is om te onthouden dat de IRF ervan uitgaat dat de onderliggende data zich als een monotoon niet-dalende functie laat uitdrukken. Dit betekent dat de functie stijgt of constant is. In het deel dat constant is, is weinig verschil te zien tussen personen. In het deel dat stijgt, het deel dat de vaardigheden verbeteren, neemt ook de kans op succes in korte tijd toe. Om daarna weer te stabiliseren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Voordelen van de IRT

A
  • Adaptief testen
  • Controlemogelijkheid of het IR-model past bij de testgegevens
  • Het meetniveau is afleidbaar uit de theorie
  • Mogelijkheid tot populatieonafhankelijk meten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Meten bij implicatie

A

Als blijkt dat een model een goede beschrijving geeft (wat kan worden gecontroleerd met statistische methoden), dan volgt daaruit dat de meeteigenschappen van dit model ook in concrete, praktische toepassingen van de test gelden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Meten bij fiat

A

Er wordt aangenomen dat bepaalde eigenschappen geldig zijn, zonder dat dit kan worden aangetoond.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Populatie onafhankelijk meten

A

Iemands meetwaarde, verkregen met een gemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test heeft gemaakt. Binnen een IR-model is sprake van populatie onafhankelijkheid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Pseudokansniveau van item g (γg)

A

In de IRT wordt gesproken over pseudokansniveau en niet over giskans. Dit omdat de exacte ‘giskans’ niet alleen afhangt van het aantal alternatieven van A, maar ook van inhoudelijke kenmerken van het item. Bij items met open vragen nader het yg 0. Het itemkenmerk yg wordt de pseudokansniveauparameter genoemd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Locatieparameter δg of moeilijkheids-parameter

A

De locatieparameter δg is de vaardigheid die iemand moet bezitten om 50 procent kans te hebben om het item (of de categorie) ‘goed’ te hebben. Dit is het punt op de θ-schaal dat wordt geassocieerd met de succeskans. Dit ligt halverwege tussen het pseudokansniveau en de maximale succeskans (1). De locatie is gelijk aan (1+ yg)/2. Bij een openvraag met yg = 0 is de δg dus altijd 0.5. Wordt het item moeilijker, dan schuift de θ-schaal naar rechts en de succeskans neemt dan af, dit geeft een grotere waarde voor δg

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Discriminatie-parameter αg

A

De discriminatieparameter heeft alles te maken met de steilheid van de IRF in het kritische gebied. Hoe steiler de curve, hoe hoger de discriminatiewaarde en hoe meer de verdeling op de θ-schaal scherper wordt met links een gebied met lage succeskans en rechts het gebied met hoge succeskans. Binnen het kritische gebied bevindt zich dan slechts een klein deel van de verdeling van de personen naar θ en zeer kleine veranderingen in θ hebben grote veranderingen in succes tot gevolg. Hoe steiler de helling, hoe beter de discriminatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Itemresponsmodellen

A

Er kunnen verschillende itemresponsmodellen worden gedefinieerd. Ze gaan allen wel uit van een monotoon niet-dalend verband tussen de succeskans op een item en de θ-schaal. De kans op het juiste antwoord is de functie van vaardigheid en itemkarakteristieken. Kennen we de itemkarakteristieken dan kunnen we uit iemands respons de vaardigheid afleiden. De IRM veronderstelt dat de items van een test dezelfde eigenschap meten. De modellen verschillen in keuze v.d. wiskundige functie voor de IRF. Strengere modellen laten gissen b.v. niet toe wat yg = 0 betekent. Zwakkere modellen geven meer vrijheid. Empirische testgegevens zijn vaak beter in overeenstemming met zwakkere modellen. Echter wanneer een zwak model een goede beschrijving geeft van de testgegevens volgt daar een meting op ordinale schaal uit. Een strenger model dat goed past bij de gegevens geeft een meting op interval- of rationiveau. Een aantal IRM in volgorde van streng naar zwak:
• Het Rasch model.
• Modellen met twee itemparameters (birnbaum)
• Modellen met drie itemparameters

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Rasch-model

A

Deze wordt ook wel één-parameter logistische model genoemd. Dit model is streng.
• Bij zeer kleine θ waarden is de succeskans (P) gelijk aan 0. De pseudokansniveauparameter γg komt dus niet voor en wordt aangenomen als γ=0.
• Alle items uit een test die aan het Rasch-model voldoet hebben hetzelfde discriminerende vermogen. Α wordt genormeerd als α =1. Hierdoor komt αg ook niet voor in de formule. In de praktijk wisselen de items in αg-waarde. Dit betekent dat per item gekeken moet worden of ze voldoen aan het Rasch-model.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Schaal-transformaties bij het rasch model

A

Meting vindt plaats op een schaal waarop translaties (verschuiving) van de θ-waarden en de δ-waarden met dezelfde constante hoeveelheid zijn toegestaan. Deze schaaltransformaties zijn toegestaan wanneer zij géén invloed hebben op de succeskans.
• Op de θ-schaal is de transformatie θ* = θ + a en δ* = δ + a toegestaan. (a is een constante). Dit wordt een verschilschaal genoemd.
• Op de ξ-schaal is de transformatie ξ* = bξ en ε* = bε toegestaan. Dit worden verhoudingsschalen of ratioschalen genoemd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Populatie onafhankelijkheid volgens het rasch model

A

Een belangrijke eigenschap van meting volgens het Rasch-model is dat de meetwaarden populatie onafhankelijk zijn. Dit betekent dat de θ-waarden onafhankelijk zijn van de moeilijkheid δ. Ofwel binnen de populatie kunnen deelgroepen bestaan die ieder een eigen moeilijkheidsniveau hebben. Het Rasch-
model is zo dat de effecten van personen en items op de succeskansen onafhankelijk zijn en interacties tussen personen en items geen rol spelen. Personen zijn hierdoor vergelijkbaar, onafhankelijk van het moeilijkheidsniveau van de gebruikte items. Omgekeerd geldt ook dat de moeilijkheden van items vergelijkbaar zijn, onafhankelijk van de personen die het item hebben gemaakt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Birnbaum model

A

Het birnbaum model (en de drie itemparameters model) zijn op te vatten als veralgemenisering van het Rasch-model. Dit betekent dat wanneer het Rasch-model een adequate verklaring geeft van de testgegevens, ook minder strenge modellen gebruikt kunnen worden. Omgekeerd gaat dit niet automatisch op. Het birnbaummodel wordt ook wel twee-parameter logistische model genoemd. Eigenschappen:
• Items in de test mogen verschillend zijn in discriminerend vermogen α. Is dit het geval dan zullen de hun IRF elkaar snijden. Zijn ze gelijk, dan snijden ze elkaar niet (maar is het dus eigenlijk een Rasch-model).
• Items mogen variëren in moeilijkheid δ (net als Rasch)
• Voor lage Ѳ-waarden nadert de succeskans op het item 0 (net als Rasch)
• Transformaties van persoons- en itemparameters hebben geen invloed op de succeskans.
• De schaal heeft eigenschappen van een intervalschaal (net als Rasch)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Populatie onafhankelijkheid bij het birnbaum model

A

Meting volgens het Birnbaum-model is populatieonafhankelijk. Dit geeft echter ook moeilijkheden. Meetwaarde Ѳi is onafhankelijk van de itemmoeilijkheden, maar afhankelijk van de discriminatieparameters van de door respondent i correct beantwoorde items. Ofwel: gegeven het discriminerend vermogen van de gebruikte items, kan Ѳ bepaald worden en bij iedere test die uit het itemdomein wordt samengesteld, komt men tot dezelfde Ѳ-waarde. Maar: moeilijkheids- en discriminatieparameters kunnen niet populatieonafhankelijk bepaald worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Drie parameters logistische model

A
  • Items mogen variëren in discriminerend vermogen α
  • Items mogen variëren in moeilijkheid δ
  • Items mogen variëren in pseudokansniveau γ.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Populatie onafhankelijkheid bij het drie parameters model

A

Meetwaarden van personen zijn populatie onafhankelijk te bepalen mits de populatie afhankelijke itemparameters bekend zijn. Zijn de parameters bekend, dan kunnen de Ѳ-waarden worden bepaald. Zijn ze niet bekend dan kunnen de parameters geschat worden mits een bekende verdeling van Ѳ verondersteld is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

IR modellen volgens Mokken

A

Mokken heeft twee item-respons modellen gepresenteerd die belangrijke verschillen heeft met de eerdergenoemde. Deze modellen zijn algemener. Testgegevens die met een algemeen model verklaard kunnen worden, hoeven niet automatisch verklaard te kunnen worden met een specifiek model. Omgekeerd geldt dit wel. De modellen zijn: Model van monotone homogeniteit en model van dubbele monotonie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Model van monotone homogeniteit

A

Mokken gaat ervan uit dat over veel psychologische eigenschappen zo weinig kennis bestaat dat het gebruik van de strenge andere modellen niet gerechtvaardigd kan worden. B.v. de eenmalige stijging (steile helling) van niveau zou ook stapsgewijs kunnen, wat beter past bij de cognitieve ontwikkeling. Mokken gaat dus uit van:
• Net als andere IRM zijn de IRF wel monotoon niet-dalend maar heeft verder geen beperkingen.
• Het antwoordgedrag op alle items moet een afspiegeling zijn van dezelfde psychologische eigenschap die wordt gemeten op de Ѳ schaal. Met toename van Ѳ neemt ook de succeskans toe zonder restricties op hoe toename verloopt.
• Personen kunnen worden geordend op Ѳ m.b.v. totaalscore X.
• Gebruiken we het model van monotone homogeniteit dan zijn de eigenschappen van de verschilschaal en de intervalschaal kwijt. De ordinale schaal blijft intact.
• Ѳ en itemparameters kunnen niet geschat worden. Wel kan de p-waarde worden berekend. Hoe groter de p-waarde, hoe gemakkelijker of populairder het item.

21
Q

Populatie onafhankelijkheid bij het model van monotone homogeniteit

A

We weten dat een test bestaat uit k-items. Bij een model van monotone homogeniteit kan testscore X worden geordend op Ѳ. Dit is ongeacht de testlengte. Stel dat we een aantal items selecteren en daarmee een nieuwe test maken heeft elk item een monotone IRF en meet dezelfde eigenschap als de andere items. De testscore wordt opnieuw brekend en kan ook worden geordend op Ѳ. De ordening van personen is dus populatie onafhankelijk. De ordening van items naar p-waarde is NIET populatie onafhankelijk. Dit komt omdat de IRF elkaar ‘snijden’ in een figuur.

22
Q

Model van dubbele monotonie

A

Een model dat leidt tot populatie onafhankelijke ordeningen van zowel personen als items. Dit is een speciaal geval van het model van monotone homogeniteit.
• Ook hier is sprake dat de IRF monotoon niet-dalend zijn.
• In het model van dubbele monotonie mogen de IRF elkaar niet snijden. Het Rasch model is een speciaal geval van dit model omdat ze elkaar daar ook niet snijden.
• Ook hier kunnen personen worden geordend op Ѳ m.b.v. testscore X
• Er wordt dus gemeten op de ordinale schaal.
• Ook p-waarden liggen op de ordinale schaal. Ordening van items naar afnemende p-waarde correspondeert met toenemende moeilijkheid.

23
Q

Populatie onafhankelijkheid bij het model van dubbele monotonie

A

Ook hier is de ordening van personen op de Ѳ-schaal m.b.v. de testscore X populatie onafhankelijk. Ook de ordening van items m.b.v. p-waarden zijn populatie onafhankelijk. Testscores X en p-waarden zijn niet onderling vergelijkbaar. Dit kan wel bij Ѳ en δ

24
Q

Θ waarde.

A

Θ staat voor een meetwaarde of een vaardigheid. Dit is dus een speciaal karakter van persoonsvariabele. Dit is niet observeerbaar zoals een itemscore of ruwe score. Θ is een latente variabele die in principe als onbekende uit een vergelijking wordt geschat waarvan de specifieke vorm wordt bepaald door de itemscores die werkelijk op de test zijn behaald.

25
Q

Eigenschappen van de IRT

A
  • Schaaleigenschappen uit het specifieke IRM. Dit is meten bij implicatie. De theoretisch afleidbare schaaleigenschap gelden ook in de praktijk (meten bij fiat).
  • De modellen van Rasch, Birnbaum en drie parameter vindt plaats op een metrische schaal (interval, verschil, ratio). Modellen van Mokken op ordinaal.
  • Bij Rasch, Birnbaum en drie parameters worden personen op dezelfde schaal afgebeeld. Bij Mokken alleen ordening van personen en items op aparte schalen.
  • Meting volgens IRM is in specifieke gevallen populatie onafhankelijk. Bij Rasch zowel meting van personen als items. Bij Birnbaum en drie parameter alleen meting van personen. Bij monotone homogeniteit alleen ordening van personen en bij model van dubbele monotonie zowel ordening van personen als items.
26
Q

Gebruik van metrische schalen

A
  • Ratioschaal: Er is sprake van een absoluut nulpunt. De vergelijking van personen kan worden geïnterpreteerd in termen van kansen op + of – reactie op een item.
  • Meting op een metrische schaal leidt niet tot een directe psychologische interpretatie. Het leidt alleen tot ordening.
27
Q

Odds

A

Wordt aangegeven met O. Een term die gebruikt wordt binnen de ratioschaal. Hiermee wordt bedoeld: de verhouding van de kans op een positief antwoord en de kans op een negatief antwoord op hetzelfde item voor een vaste meetwaarde ξ.

28
Q

Praktisch gebruik van de odds-schaal en de Ѳ-schaal

A
  • Schaal relateren aan normgroep: de schaal krijgt een gemiddelde en spreiding
  • Meetwaarden relateren aan referentiepunten: absolute aftestgrens
  • Omzetting in percentielscores
  • Omzetting van meetwaarden in succeskansen
  • Omzetting van de schaal uit de item-responstheorie in de schaal uit de klassieke testtheorie.
29
Q

Nauwkeurigheid v.d. meting (KTT vs IRT)

A

De klassieke testtheorie drukt de nauwkeurigheid van de meting uit in de standaardmeetfout. Deze geldt voor de gehele test. Dit veronderstelt dat elke score X een even nauwkeurige schatting is van iemand ware score T. Dit is echter niet plausibel want er kan b.v. ook gegist worden. De IRT is een verfijning van de KTT omdat het rekening houdt met dat de test voor de nee waarde van Ѳ betrouwbaarder is dan voor de andere. De IRT biedt dus de mogelijkheid om lokale betrouwbaarheid te bepalen. Van lokale betrouwbaarheid is sprake als een test goed bij iemands niveau past.

30
Q

Informatiefunctie

A

Voor ieder afzonderlijk item en voor de gehele test kan het informatiegehalte (of de lokale betrouwbaarheid) voor de schatting van θ worden bepaald en in een informatiefunctie worden weergegeven. Algemeen geldt: hoe groter de waarden van de informatiefunctie, des te nauwkeuriger de meting.

31
Q

Bezwaren bij standaardtesten

A

De meeste tests zijn standaardtests. B.v. ook binnen het onderwijs. Bezwaren zijn:
• Standaardtests zijn niet altijd representatief voor een inhoudelijk kennis-of vaardigheidsdomein.
• Een respondent heeft op iedere standaardtest uit een bepaald domein een andere betrouwbare score. Dit komt doordat moeilijkheid kan variëren. Hierdoor kunnen prestaties moeilijk vergeleken worden.
• Standaardtests veronderstellen het bestaan van standaardpopulaties. Dit is niet het geval. Respondenten met verschillende taalbeheersing zou met verschillende testversies onderzocht moeten worden.
• Individualisering van het leerproces resulteert in uiteenlopende beheersingsniveaus.
• Bij herhaalde meting is er sprake van geheugeneffect.

32
Q

Moderne complex

A

De combinatie van itembank en itemresponstheorie. Dit staat in tegenstelling tot het klassieke complex van standaardtest en klassieke testtheorie.

33
Q

Itembank en IRT

A

Itembank en IRT gaan hand in hand. Dit is gelegen in de eigenschap van populatie- onafhankelijkheid van metingen. Hierdoor is het mogelijk om alle items uit een bank op dezelfde schaal af te beelden, mits de gegevens voor de gehele itembank kunnen worden beschreven met het gekozen IRM.

34
Q

calibreren

A

Het afbeelden van een verzameling items op een schaal en het daarbij toekennen van meetwaarden.

35
Q

Equivaleren van itemkenmerken

A

Het afbeelden, op een gemeenschappelijke schaal, van gecalibreerde items die afkomstig zijn uit verschillende test die alle hetzelfde psychologische begrip meten.

36
Q

Welke items uit de itembank kies je?

A

Is vastgesteld dat de itemscores op alle items in de bank beschreven kunnen worden m.b.v. een gekozen IRM, en zijn de itemkenmerken geschat (de parameters), dan maakt het niet uit welk item we aan een persoon voorleggen. Op basis van de scores op de items kan een populatie-onafhankelijkheid op de Ѳ-schaal worden geschat. De nauwkeurigheid of de betrouwbaarheid van de schatting van Ѳ is wel afhankelijk van de gebruikte items. Want de waarde van testinformatiefunctie hangt af van de keuze van items. Geef je te gemakkelijke items, dan zal de meting onnauwkeurig zijn dan wanneer je items voorlegt die bij het niveau passen.

37
Q

Nauwkeurigheid rondom Ѳ0

A

Ѳ0 is een vooraf vastgestelde grensscore, ook wel aftestgrens of cesuur genoemd. De geschatte waarde van Ѳdient in de buurt van de aftestgrens zo nauwkeurig moeilijk te zijn. Waarden die verder Ѳ0 af liggen mogen minder nauwkeurig gemeten worden. De waarden van de informatiefunctie moeten op en rond Ѳ0 dus groot genoeg zijn. Er worden dus items geselecteerd zodanig dat de testinformatiefunctie van deze items boven de doelinformatiefunctie liggen.

38
Q

Doelinformatiefunctie

A

De na te streven testinformatiefunctie.

39
Q

Itemselectie

A

Gegeven de eisen die men aan de items en de uiteindelijke test wil stelen wordt, uit efficiëntieoverwegingen, de kleinst mogelijke deelverzameling van items uit de itembank geselecteerd waarvan de testinformatiefunctie voor alle waarden van Ѳ ten minste even groot is als de doelinformatiefunctie.

40
Q

Adaptieve testen vanuit de IRT

A

Bij adaptieve testen vanuit de IRT moeten, naast informatie over de items, ook de de itemparameters zijn opgeslagen. Samen met de tussentijdse schattingen van de persoonsparameter Ѳ zijn deze itemparameters nodig om op basis van iemands score op de tot dusver gemaakt items het volgende item te selecteren. De adaptieve testprocedure kan worden vereenvoudigd door steeds twee of meer items aan te bieden voordat weer berekeningen worden uitgevoerd. Bijvoorbeeld: Two-stage- testing. In het eerst stadium krijgen alle respondenten dezelfde korte test van middelmatig niveau. In het tweede stadium liggen diverse tests met verschillend niveau klaar.

41
Q

Vraagonzuiverheid of vraagpartijdigheid

A

In de IRT is een item zuiver wanneer de IRF van het item in twee verschillende groepen identiek is. Bij vraagonzuiverheid zit er dus verschil tussen één of meer IRF. Vraagonzuiverheid betekent dan dat personen uit verschillende groepen, maar met eenzelfde meetwaarde (θ), een verschillende succeskans hebben. B.v. een rekentest waarbij door gebruik van taal onbedoeld ook Nederlands wordt getoetst en kinderen die dit niet als voertaal hebben in het nadeel zijn.

42
Q

Methoden voor onderzoek naar onzuiverheid

A
  • Vergelijking van itemkenmerken. B.v. verschil in moeilijkheid. Dan is één groep altijd in het nadeel. Bij verschil in discriminatie snijden de IRF en is een deel van de groep in het voordeel en de ander in het nadeel.
  • Berekenen van het oppervlak tussen de twee IRF. Hoe groter dit oppervlak, deze te sterker de onzuiverheid.
  • Methoden die nagaan of de kansen op een goed antwoord per θ-waarde gelijk zijn of niet (onzuiverheid)
43
Q

Strategie voor verklaring voor onzuiverheid

A
  • Inspectie van de ‘onzuivere’ items op opvallende kenmerken
  • Het zoeken naar relaties tussen eigenschappen van personen enerzijds en kritische kenmerken van de items anderzijds
  • Experimenteel onderzoek, bijvoorbeeld het vervangen van een moeilijk woord om te kijken of het verschil tussen de twee groepen dan verdwijnt.
44
Q

Afwijkend scorepatroon

A

In de IRT spreekt men van een ‘afwijkend scorepatroon’ wanneer de kans op dit patroon, gegeven de meetwaarde θ en de itemkenmerken, zeer laag is. Afwijkende patronen zijn te verwachten bij:
• Onvoorbereide studenten door gissen of door fraude (afkijken is item exposure).
• Verschil in taal bij verbale testen. Met afwijkendheid van patronen is een voorspelling van examencijfers mogelijk.
• Door denkfouten worden steeds dezelfde fouten gemaakt.
• Een student met veel vaardigheid maar weinig ervaring met toetsen.

45
Q

Nulhypothese van zuiverheid

A

Personen uit verschillende groepen, maar met dezelfde θ waarde, hebben dezelfde succeskans op een gegeven item. Verwerping betekent onzuiverheid.

46
Q

Nulhypothese van conformiteit (geen

afwijkendheid) van patronen van itemscores

A

Personen uit dezelfde populatie en met dezelfde θ waarde, genereren patronen van itemscores, die gegeven deze θ waarde, plausibel zijn. Verwerping betekent dat persoon afwijkend is.

47
Q

IRT voor polytoom gescoorde items

A

Polytoom was drie of meer antwoordcategorieën (rating scale). IRM voor polytome scores definiëren een responsfunctie voor elke score die op een item mogelijk is. Dit betekent dat bij een ratingscale van vijf antwoord categorieën ook vijf verschillende responsfuncties nodig zijn om het kansproces te beschrijven voor het tot stand komen van de scores op een item. De kans op een specifieke itemscore wordt voor iedere score apart gemodelleerd.

48
Q

Verschil KTT en IRT

A
  • In de KTT wordt de test voor elke testscore even betrouwbaar geacht; in de IRT is de test voor sommige meetwaarden betrouwbaarder dan voor andere.
  • In de KTT wordt geen aanname gedaan over de dimensionaliteit van de test (over hoeveel factoren er aan de testprestatie ten grondslag liggen), in de IRT worden de items die aan een bepaald IR-model voldoen, geacht één begrip te meten (eendimensionaliteit).
  • De KTT is gebaseerd op aannamen die in het algemeen niet toetsbaar zijn, in de IRT zijn de aannamen wél toetsbaar (kan men toetsen of de testgegevens passen bij een bepaald IR-model).
  • De interpretatie van persoonlijke scores is bij de KTT afhankelijk van de testsamenstelling en bij de IRT van een willekeurige selectie van items.
  • De interpretatie van persoonlijke scores is bij de KTT Populatie afhankelijk en bij de IRT populatie onafhankelijk.
  • Een test kan binnen de IRT adaptief zijn. Binnen de KTT niet.