College 4 Flashcards

1
Q

Betrouwbaarheid

A

De consistentie of stabiliteit van de testresultaten. Je kijkt naar hoe nauwkeurig de meetprocedure is.
-Betrouwbaarheid is een vereiste voor validiteit
-hangt af van de grootte van de standaardmeetfout
-groepsniveau, r>.70 goed
-individueel niveau, r>.90 goed

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Classical test theory/ True score theory -Spearman

A

-Elke score op een mentale test bestaat uit de werkelijke score en de foutenmarge
-Xi=T+E
-Xi: geobserveerde score
-T: perfecte meting zonder error (werkelijke score), deze score is altijd onbekend
-E: random measurement error, verschil werkelijke score en geobserveerde score, kan ervoor zorgen dat de geobserveerde score zowel hoger als lager dan de werkelijkheid kan zijn
-betrouwbaarheid van testresultaten en generaliseerbaarheid worden gereduceerd hierdoor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Systematic measurement error

A

Systematische of consistente verschillen in testperformance tussen groepen individuen, veroorzaakt door factoren die niet gerelateerd zijn aan het gemeten construct
-elke keer dezelfde mate van error
-vaak gerelateerd aan biases

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Toevallig (Niet systematische) meetfouten

A

-content sampling error: Mate van error wordt bepaald door hoe goed je een steekproef trekt uit een domein testitems. Selectie testitems kan nooit hele domein dekken
-time sampling error: reflecteert individuele factoren en omgevingsfactoren, waardoor er random fluctuaties in performance ontstaan, verlaagd generaliseerbaarheid
-administratieve/scoringsfouten: error door manier van beoordeling, inter-rater scores error

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Betrouwbaarheidscoefficient

A

-Staat voor de betrouwbaarheid van testresultaten
-Rxx is het symbool

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Betrouwbaarheidsindex

A

-reflecteert de correlatie tussen werkelijke en geobserveerde scores
-wortel van betrouwbaarheidscoefficient
-betrouwbaarheid kan je uitrekenen met een vergelijking die volgt uit de vergelijking voor de variantie.
-Je krijgt het percentage variantie dat verklaart wordt door werkelijke variantie. Het overige percentage is de eroor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat zijn vier typen betrouwbaarheidscoeficienten?

A

-test-hertest betrouwbaarheid:
-parallele testbetrouwbaarheid:
-interne consistentie
-interbeoordelaarsbetrouwbaarheid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Test-hertest betrouwbaarheid:

A

-dezelfde test afnemen bij dezelfde groep op verschillende tijdstippen en de correlatie tussen de scores berekenen.
-Nadeel is dat er Carry-over effecten kunnen ontstaan: de coëfficiënt kan hoger worden door geheugen, oefening en ontwikkeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Parallele testbetrouwbaarheid

A

-de resultaten van twee parallelle testen vergelijken
-simultaneous administration: testen afnemen op hetzelfde moment; meetfout door content sampling
-delayed administration: testen afnemen met een tijdsinterval ertussen; meetfouten door content en time sampling
-minder carry-over effecten
-nadeel: weinig alternatieve vormen voor bepaalde testen beschikbaar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Interne consistentie

A

-meetfouten gerelateerd aan content sampling, gebaseerd op items binnen de test
-split-half reliability: bereken correlatie tussen twee vergelijkbare testdelen, testen met meer items vaak betrouwbaarder dan met minder items>Spearman-Brown correctie, anders is de correlatie lager. Nadeel is dat je nogsteeds content error hebt
-Coefficient alpha en kuder-richardson reliability: formules die kijken naar de consistentie tussen antwoorden op alle items, gemiddelde alle split-half testen. Sensitief voor heterogene (meer dan 1 domein meten) testconsent. Als content test heterogeen is kan er onderschatting van betrouwbaarheid plaatsvinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Interbeoordelaarsbetrouwbaarheid

A

-als een testresultaat afhangt van een subjectieve beoordeling, reken je de mate uit waarin beoordelaars het met elkaar eens zijn.
-error hangt niet af van content of time sampling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Composite scores/gemiddelde

A

-betrouwbaarheid van composite scores/ gemiddelde is vaak beter dan de betrouwbaarheid van een enkele subtest
-Verschil tussen 2 testscores: D=X-Y
-betrouwbaarheid verschilscores is lager dan betrouwbaarheid individuele scores; alleen uitrekenen bij hoge correlatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat zijn algemene richtlijnen voor een hoog genoeg betrouwbaarheidscoefficient om aan te kunnen nemen dat een test betrouwbaar is?

A

-onomkeerbare beslissing 0.9-0.95
-vanaf 0.8 vaak betrouwbaar
-onderwijsscreening vanaf 0.70 betrouwbaar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hoe kun je betrouwbaarheid verhogen? (true score variante maximaliseren en error variantie verlagen)

A

-aantal items in test verhogen met zelfde soort kwaliteit items
-meerdere metingen die worden gecombineerd in een gemiddelde/composite score (vergroot content domein)
-item-analyse: ontwikkelen en selecteren goede items
-precies en duidelijk verwerken van scores op een gestandaardiseerde manier

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat zijn enkele speciale problemen bij het vaststellen van betrouwbaarheid?

A

-bij speed-test kun je alleen test-retest of alternative-form betrouwbaarheid gebruiken
-als individuen buiten doelgroep vallen voor test, zijn scores niet betrouwbaar
-samples met lage variantie zorgen voor lagere betrouwbaarheid
-betrouwbaarheidscoefficienten zijn niet geschikt voor mastery testen.
-als een correctie is uitgevoerd voor attenuation moet dit worden gezegd in de conclusie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat gebruik je ipv betrouwbaarheidscoefficienten voor het vaststellen van betrouwbaarheid bij individuele testscores?

A

-foutenmarge/ Standard error measurement (SEM): de breedte van de verdeling van scores als 1 persoon oneindig veel parallellen toetsen zou uitvoeren, uitgedrukt in standaarddeviaties
-als betrouwbaarheid r omhoog gaat, gaat SEM omlaag en is er meer vertrouwen in testscores
-betrouwbaarheidsinterval: wordt gebruikt om intervallen rondom de werkelijke score van het individu te berekenen, waarbinnen de werkelijke score zou vallen met een bepaalde mate van vertrouwen

17
Q

Generalizability theory - Chronbach

A

-in werkelijkheid is het niet zo dat een bepaalde betrouwbaarheidscoefficient ook een bepaald soort error weerspiegeld, zoals de CTT veronderstelt. Met CTT kan je niet ontdekken hoeveel van de error is toe te schrijven aan een bepaalde factor; met deze theorie kan dat wel
-gebruik ANOVA om te zien hoeveel van de variantie verklaard kan worden door een bepaalde factor
-flexibeler en verschaft meer info dan CTT

18
Q

Item-response theory(IRT)

A

-informatie over de betrouwbaarheid wordt gerapporteerd als “test information function”
-verschaft info over betrouwbaarheid op verschillende punten van de verdeling en niet op 1 punt

19
Q

Item-analysis statistics/procedures

A

-kwantitatieve procedures om de kwaliteit en measurement eigenschappen van individuele test-items te analyseren
-geeft inzicht in welke items behouden kunnen blijven, veranderd moeten worden of verwijderd
-de betrouwbaarheid en validiteit zijn afhankelijk van de kwaliteit van de testitems. Je kunt met minder items een hogere betrouwbaarheid halen.
-Er zijn ook kwalitatieve procedures; een combi van beide is het beste

20
Q

Difficulty index/ item difficulty level

A

-het percentage/proportie personen die de test maken die correct een item beantwoorden
-p=deel correct/geheel
-p ligt tussen 0 en 1; makkelijke items hebben een hogere score, waarde tussen 0.20 en 0.80, 0.50 is de gemiddelde score van een test
-waardes van precies 0 en 1 zeggen niks over individuele verschillen
-voor maximale betrouwbaarheid en variabiliteit is het optimale item difficulty 0.50. Maar in veel situaties is dit niet wenselijk
-steekproef afhankelijk: per steekproef die je gebruikt om de formule in te vullen kan er een ander getal uitkomen
-Bij mastery tests vaak 0.90 of hoger als waarde, omdat er vanuit wordt gegaan dat de meeste mensen slagen
-voor typical response test kan je percent endorsement statistics gebruiken om een beeld te krijgen van de antwoorden die de grootste groep mensen in de steekproef hebben gegeven

21
Q

Item-discrimination

A

-de mate waarin een item accuraat onderscheid maakt tussen de verschillen tussen personen die de test hebben ingevuld, op het gemeten construct
-2 manieren om uit te rekenen
-Discrimination index (D): het verschil tussen de performance op de gehele test tussen de beste 27% en de slechtste 27% van de steekproef; D=Pt (top) - Pb (bottom)
-D hoger dan 0.30 acceptabel en lager dan 0.30 risicovol
-Bij mastery test kun je D-waarden ook op andere manieren berekenen
-Andere manier: item-total correlation coefficients: correlatie tussen performance op een specifiek item en de totale test score; kan inclusief of exclusief het testitem (laatste zorgt voor lagere score en wordt geprefereerd)
-Hoe hoger r-ir hoe beter het item past
-biserial correlation: variabele is vaak dichotomious en nominaal en de andere interval

22
Q

Hoe kun je item-difficulty or discrimination interpreteren bij speed-testen

A

-deze metingen zijn eerder een reflectie van de plek die het item heeft in de totale lijst van items, dan de werkelijke moeilijkheidsgraad of onderscheidend vermogen. De indexen geven zo een verkeerd beeld af

23
Q

Distracter analysis

A

-laat zien hoeveel personen in de top en bottom groep een bepaalde optie hebben geselecteerd op een multiple choice item
-distracter: verkeerde antwoordmogelijkheden die de personen afleiden van het eigenlijke antwoord
-twee vragen om erachter te komen of distractor effectief is: als niemand distractor heeft gekozen is deze niet effectief en negatieve discriminatie: effectieve distractors worden vaker gekozen als juiste antwoord door mensen inde bottom groep dan door mensen in de top group, als mensen uit top groep vaker het goede antwoord kiezen is dit positieve discriminatie
-Proportie correct (P): geeft weer hoeveel procent een item correct heeft beantwoord; lage P= moeilijk item, hoge P= makkelijk item

24
Q

Wat zijn de verschillen tussen IRT en CCT (KTT)?

A

-IRT: kwaliteit items bepalen met itemkenmerken; b=moeilijkheidsgraad en a= discriminatieparameter, steekproefonafhankelijk, belang vaardigheidsniveau, toetsen vergelijkbaar maken, adaptief toetsen mogelijk
-KTT: kwaliteit items bepalen met moeilijkheidsgraad (Proportie correct), onderscheidend vermogen, item-total correlatie en D-index, steekproefafhankelijk

25
Q

Item characteristics curve (ICC)

A

-curve met op de horizontale as de vaardigheid en op de verticale as de waarschijnlijkheid dat iemand het juiste antwoord heeft
-elk item heeft eigen ICC
-difficulty van item kun je aflezen door op de verticale as bij 50%/0.50 te kijken. Dit geeft vaardigheidsniveau aan waarbij in 50% van de gevallen het juiste antwoord wordt gekozen (b parameter). Locatie van de curve op de horizontale as
-discriminatie kan je zien aan de helling van ICC; hoe steiler, hoe beter

26
Q

One-parameter model / Rasch model (IRT model)

A

-suggereert dat items verschillen op 1 parameter; difficulty. Alleen locatie verschilt, helling is hetzelfde

27
Q

Two-parameter model (IRT model)

A

-suggereert dat items verschillen op zowel difficulty als discrimination

28
Q

Three-parameter model (IRT model)

A

-suggereert dat de lijn niet begint bij 0, omdat het kan zijn dat iemand met vaardigheidsniveau 0, toch een item goed beantwoord door fokkans (c-parameter)

29
Q

Wat zijn de voordelen van IRT?

A

-computer adaptive testing (CAT)
-detecteren van gebiaste items door vergelijken ICC met verschillende groepen en hetzelfde item
-scores op een IRT manier berekenen
-betrouwbaarheid verschilt per punt op de verdeling