College 4 Flashcards
Betrouwbaarheid
De consistentie of stabiliteit van de testresultaten. Je kijkt naar hoe nauwkeurig de meetprocedure is.
-Betrouwbaarheid is een vereiste voor validiteit
-hangt af van de grootte van de standaardmeetfout
-groepsniveau, r>.70 goed
-individueel niveau, r>.90 goed
Classical test theory/ True score theory -Spearman
-Elke score op een mentale test bestaat uit de werkelijke score en de foutenmarge
-Xi=T+E
-Xi: geobserveerde score
-T: perfecte meting zonder error (werkelijke score), deze score is altijd onbekend
-E: random measurement error, verschil werkelijke score en geobserveerde score, kan ervoor zorgen dat de geobserveerde score zowel hoger als lager dan de werkelijkheid kan zijn
-betrouwbaarheid van testresultaten en generaliseerbaarheid worden gereduceerd hierdoor
Systematic measurement error
Systematische of consistente verschillen in testperformance tussen groepen individuen, veroorzaakt door factoren die niet gerelateerd zijn aan het gemeten construct
-elke keer dezelfde mate van error
-vaak gerelateerd aan biases
Toevallig (Niet systematische) meetfouten
-content sampling error: Mate van error wordt bepaald door hoe goed je een steekproef trekt uit een domein testitems. Selectie testitems kan nooit hele domein dekken
-time sampling error: reflecteert individuele factoren en omgevingsfactoren, waardoor er random fluctuaties in performance ontstaan, verlaagd generaliseerbaarheid
-administratieve/scoringsfouten: error door manier van beoordeling, inter-rater scores error
Betrouwbaarheidscoefficient
-Staat voor de betrouwbaarheid van testresultaten
-Rxx is het symbool
Betrouwbaarheidsindex
-reflecteert de correlatie tussen werkelijke en geobserveerde scores
-wortel van betrouwbaarheidscoefficient
-betrouwbaarheid kan je uitrekenen met een vergelijking die volgt uit de vergelijking voor de variantie.
-Je krijgt het percentage variantie dat verklaart wordt door werkelijke variantie. Het overige percentage is de eroor
Wat zijn vier typen betrouwbaarheidscoeficienten?
-test-hertest betrouwbaarheid:
-parallele testbetrouwbaarheid:
-interne consistentie
-interbeoordelaarsbetrouwbaarheid
Test-hertest betrouwbaarheid:
-dezelfde test afnemen bij dezelfde groep op verschillende tijdstippen en de correlatie tussen de scores berekenen.
-Nadeel is dat er Carry-over effecten kunnen ontstaan: de coëfficiënt kan hoger worden door geheugen, oefening en ontwikkeling
Parallele testbetrouwbaarheid
-de resultaten van twee parallelle testen vergelijken
-simultaneous administration: testen afnemen op hetzelfde moment; meetfout door content sampling
-delayed administration: testen afnemen met een tijdsinterval ertussen; meetfouten door content en time sampling
-minder carry-over effecten
-nadeel: weinig alternatieve vormen voor bepaalde testen beschikbaar
Interne consistentie
-meetfouten gerelateerd aan content sampling, gebaseerd op items binnen de test
-split-half reliability: bereken correlatie tussen twee vergelijkbare testdelen, testen met meer items vaak betrouwbaarder dan met minder items>Spearman-Brown correctie, anders is de correlatie lager. Nadeel is dat je nogsteeds content error hebt
-Coefficient alpha en kuder-richardson reliability: formules die kijken naar de consistentie tussen antwoorden op alle items, gemiddelde alle split-half testen. Sensitief voor heterogene (meer dan 1 domein meten) testconsent. Als content test heterogeen is kan er onderschatting van betrouwbaarheid plaatsvinden
Interbeoordelaarsbetrouwbaarheid
-als een testresultaat afhangt van een subjectieve beoordeling, reken je de mate uit waarin beoordelaars het met elkaar eens zijn.
-error hangt niet af van content of time sampling
Composite scores/gemiddelde
-betrouwbaarheid van composite scores/ gemiddelde is vaak beter dan de betrouwbaarheid van een enkele subtest
-Verschil tussen 2 testscores: D=X-Y
-betrouwbaarheid verschilscores is lager dan betrouwbaarheid individuele scores; alleen uitrekenen bij hoge correlatie
Wat zijn algemene richtlijnen voor een hoog genoeg betrouwbaarheidscoefficient om aan te kunnen nemen dat een test betrouwbaar is?
-onomkeerbare beslissing 0.9-0.95
-vanaf 0.8 vaak betrouwbaar
-onderwijsscreening vanaf 0.70 betrouwbaar
Hoe kun je betrouwbaarheid verhogen? (true score variante maximaliseren en error variantie verlagen)
-aantal items in test verhogen met zelfde soort kwaliteit items
-meerdere metingen die worden gecombineerd in een gemiddelde/composite score (vergroot content domein)
-item-analyse: ontwikkelen en selecteren goede items
-precies en duidelijk verwerken van scores op een gestandaardiseerde manier
Wat zijn enkele speciale problemen bij het vaststellen van betrouwbaarheid?
-bij speed-test kun je alleen test-retest of alternative-form betrouwbaarheid gebruiken
-als individuen buiten doelgroep vallen voor test, zijn scores niet betrouwbaar
-samples met lage variantie zorgen voor lagere betrouwbaarheid
-betrouwbaarheidscoefficienten zijn niet geschikt voor mastery testen.
-als een correctie is uitgevoerd voor attenuation moet dit worden gezegd in de conclusie