College 5 Flashcards
Betrouwbaarheid
de consistentie of stabiliteit van de assessmentresultaten, ook wel de nauwkeurigheid van een meetprocedure. Het is een vereiste voor validiteit. Betrouwbaarheid wordt gezien als een kenmerk van de SCORE en niet van de test zelf. Hoe belangrijker de beslissing van de test, hoe hoger de betrouwbaarheid zou moeten zijn.
Klassieke Testtheorie
Volgens de KTT bestaat elke score uit twee componenten: de ware score (de score die zou worden behaald als er geen fouten waren) en de error score.
Dit wordt aangegeven met de formule:
x_i=T+E
Waarbij Xi staat voor de geobserveerde waarde.
T staat voor de ware score
E is de meetfout.
Aannames van de KTT=
Het gemiddelde van de foutscores in de populatie is nul
De correlatie tussen de ware score en de foutscore is nul
De correlatie tussen foutscores op verschillende metingen is nul
Toevallige meetfout
Meetfouten als gevolg van toevalsfactoren die de waargenomen score van een individu kunnen verhogen of verlagen. Verschillende toevallige meetfouten zijn:
Time sampling error
individuele factoren (moe, honger etc.)
Omgevingsfactoren (herrie, temperatuur etc.)
Content sampling error
Verschillen tussen de steekproef van items (de test) en het domein van de test (alle mogelijke items). Random selectie van testitems dekken niet het hele domein. Dus het zit er wel allemaal in maar net niet genoeg om het onderwerp te dekken. Content sampling zelf refereert aan de variatie tussen items binnen een test, zowel als variatie tussen testen zelf.
Administratieve en scoringsfouten
zijn voorbeelden als dat de testleider de handleiding niet goed heeft doorgelezen
Standard Error of Measurement (SEM)
De SEM Is een standaardafwijking van de verdeling van scores die 1 persoon zou krijgen als hij of zij zou worden getest op een oneindig aantal parallelle vormen van een test, bestaande uit items die willekeurig zijn gekozen uit hetzelfde inhoudsgebied. Door de scores op alle tests te nemen, ontstaat een verdeling, waarvan de ware score (T) het gemiddelde is, en de SEM de standaardafwijking.
Hoe groter de betrouwbaarheid van de testscore, hoe kleiner de SEM en hoe meer vertrouwen is in de nauwkeurigheid van testscores.
Test-hertest betrouwbaarheid
Je gebruikt dus voor twee verschillende momenten, hetzelfde instrument en wordt gekeken naar de correlatie tussen deze twee momenten. Vooral gevoelig voor meetfouten als gevolg van tijdsampling (=op vaste momenten de score meten) en is een index van de stabiliteit van de scores in de loop van de tijd. De test-hertest geeft aan in welke mate testscores gegeneraliseerd kunnen worden in verschillende situaties of in de tijd.
Parallelle test-betrouwbaarheid
Er worden twee gelijkwaardige of parallelle vormen van de test ontwikkeld. Deze moeten parallel zijn wat betreft omvang; moeilijkheidsgraad en andere kenmerken. Het moet aan dezelfde groep worden voorgelegd en correlaties tussen deze testen wordt berekend.
Interne consistentie
Weerspiegelen voornamelijk fouten in verband met content sampling. Het is de proportie variantie in testscores die het gevolg is van variantie in werkelijke scores en drukt de homogeniteit van scores in een domein uit.
Split-half betrouwbaarheid = wordt een test afgenomen, die opgedeeld in twee gelijke delen en dan wordt de correlatie tussen beide berekend.
Betrouwbaarheidscoefficient alpha = met Chronbach’s alpha worden gekeken naar hoe de items onderling met elkaar correleren.
Interbeoordelaarsbetrouwbaarheid
Hoe groot is de kans dat twee beoordelaars of codeurs tot dezelfde conclusie komen. Methoden om hier tot te komen zijn:
- Correlatie uitrekenen
- Cohen’s Kappa bij categorische data
- Weighted Kappa bij ordinale data
- Percentage overeenkomsten van beiden codeurs.
Carry-over effecten
beperking van de test-hertestbetrouwbaarheid. Dit houdt in dat wat je hebt gedaan bij de eerste meting, je dit hebt onthouden en meeneemt voor de volgende meting.
Homogeniteit
hangen de items met elkaar samen en meten zij hetzelfde
Spearman-Brown correctie
het aantal items op een test verhogen met behoud van dezelfde kwaliteit als de originele items. Dit is relevant bij bv een split-half betrouwbaarheidsanalyse waarbij je een minder hoge alpha krijgt voor beide helften. Door er een Spearman-Brown correctie op te gooien, wordt de alpha hoger maar blijft het wel van dezelfde kwaliteit.