Klassieke Testtheorie deel 2 Flashcards
Betrouwbaarheid verschilscores
Rvv’= 1- S2(X1)(1-R11’)+S2(X2)(1-R22’) /
S2(X1)+S2(X2)-2S(X1,X2)
als we verschilscores willen gebruiken moeten we dus streven naar
- zo betrouwbaar mogelijke tests
- zo onafhankelijk mogelijke tests (hoe lager hun testscores correleren, hoe beter)
bij het interpreteren van verschilscores moet men zeer voorzichtig zijn, vooral bij testscores die onderling samenhangen.
attenuatie
neem twee testen met geobserveerde scores X en Y
stel dat we zouden weten dat de correlatie tussen de betrouwbare scores gelijk is aan 0.5
de betrouwbaarheid waarmee X bepaald wordt is 0.4 en de betrouwbaarheid waarmee Y bepaald wordt is 0.6
r(X,Y) = r(TX,TY) √rXX’ √ rYY’
= 0.5 x √0.4 x √0.6
= 0.5 x 0.63 x 0.77
=0.24
geobserveerde correlatie is kleiner geworden dan de correlatie tussen de betrouwbare scores .23
door onbetrouwbaarheid is de correlatie tussen de geobserveerde scores lager dan de correlatie tussen de betrouwbare scores
attenuatie
correctie voor attenuatie
r(TX,TY) =r(X,Y)/√rXX’ √ rYY’
het product van betrouwbaarheidsindeces is een bovengrens voor validiteit
r(X,Y) <= rXX’ rYY’
het product van betrouwbaarheidsindeces is een bovengrens voor validiteit
correlatie tussen een test en een criterium kan nooit groter zijn dan de wortel uit het product van de betrouwbaarheid van de testen
r(X,Y) <= rXX’
de betrouwbaarheidsindex is bovengrens voor validiteit
correlatie tussen een test en een criterium kan nooit groter zijn dan de wortel uit de betrouwbaarheid van de test
betrouwbaarheid is een noodzakelijke voorwaarde voor validiteit
betrouwbaarheid is echter geen voldoende voorwaarde voor validiteit: hoge betrouwbaarheid impliceert niet automatisch hoge validiteit
correctie voor dilutie
b = Rxx’ bT
als bT ≥ 0 dan volgt, omdat rXX’ ≤ 1, dat
b ≤ bT
dus als bv bT=3.33 en rXX’ = .9 dan is b=.300
als bT ≤ 0 dan volgt, omdat rXX’ ≤ 1, dat
b ≥ bT
dus als bv bT=-3.33 en rXX’ = .9 dan is b=-.300
dilutie of regressive attenuatie
in beide gevallen drukt b een minder sterke relatie uit dan bT
een lage betrouwbaarheid leidt tot
onnauwkeurige schattingen van de betrouwbare score
lage betrouwbaarheid van de verchilscore
een verlaging van de correlatie en dus een lage validiteit (attenuatie)
lage validiteit (bovengrens)
een verlaging van de regressie coefficient (dilutie)
op basis van twee afnames
parallellie: test-hertestbetrouwbaarheid
paralleltestbetrouwbaarheid
op basis van één afname in 2 gesplitst
splitsingsbetrouwbaarheid
equivalentie: guttman; flanagan; rulon; lambda 4
parallellie: spearman-brown
op basis van één afname in k gesplitst
equivalentie: cronbach (alfa)
betrouwbaarheid bepalen op basis van twee afnames
noteer de scores met XI en XII
als we er van uitgaan dat de tests I en II equivalent zijn, dan geldt
RX1 X1’= S(X1,X2) / S2(X1)
RX2 X2’= S(X1,X2) / S2(X2)
RX1 X1 /= RX2 X2’
Deze methode niet gebruikt omdat niet duidelijke welke betrouwbaarheid
als parallel
RX1 X1 = RX2 X2’ = Rxx’ = R(X1,X2)
als testen parallel zijn is er maar één betrouwbaarheid
dit leidt tot een werkwijze om betrouwbaarheid te schatten
test-hertest
neem tweemaal dezelfde test af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de afnames
bereken de correlatie tussen geobserveerde scores op de twee afnames van dezelfde test (XA en XB)
dit is de schatting van de betrouwbaarheid van deze test, als we er van uitgaan dat een test parallel is aan zichzelf
paralleltest
neem twee parallelle tests (XI en XII) af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de tests
bereken de correlatie tussen geobserveerde scores op de twee tests
dit is een schatting van de betrouwbaarheid van elke van deze tests
betrouwbaarheid bepalen op basis van één afname in twee gesplitst
stel dat we één test afnemen bij een groep personen
we noteren de geobserveerde scores X
we splitsen de test in twee delen (bvb de even items vs de oneven items)
we noteren de deelscore op deel 1 met D1 en de deelscore op deel 2 met D2
als de delen equivalent zijn dan is de geschatte betrouwbaarheid van een test volgens [Ra] met K=2 gelijk aan
de coëfficiënt van flanagan
Rxx’=4* S(D1, D2) / S2(X)
de coefficient van guttman
Rxx’= 2(1- [S2(D1)+S2(D2)]/s2(X))
de coefficient van rulon
Rxx’= 1- [ S2(D1-D2)]/ S2(X)
de coëfficiënt van flanagan, De coefficient van guttman,
de coefficient van rulon
deze uitdrukkingen zijn zo belangrijk dat ze een eigen symbool krijgt lambda 4
als de beide testdelen niet equivalent zijn dan Rxx’ >= lamda4
lamda4
kan dus best gezien worden als ondergrens van de betrouwbaarheid
als we veronderstellen dat de delen parallel zijn kunnen we uitdrukking [T] gebruiken om de betrouwbaarheid te berekenen
Rxx’= KrDD’ / 1+(K-1)rDD’
als de delen parallel zijn dan is de geschatte betrouwbaarheid van een test volgens [T] met K=2 gelijk aan
Rxx’= 2rDD’ / 1+rDD’
de coëfficiënt van spearman-brown
SB = Rxx’= 2rDD’ / 1+rDD’
als we veronderstellen dat de delen equivalent zijn kunnen we uitdrukking [Q] gebruiken om de betrouwbaarheid te berekenen
Rxx’= 1- ∑S2(Dg)(1-rgg’) / S2(x)
voor de betrouwbaarheid van parallelle testdelen hebben we uitdrukking [6.19] : rXX’=r(XI,XII)
dit leidt weer tot SB
alfa wordt berekend
op basis van de variantie van de totaalscore S²(X) en de inter-item-covarianties S(Yg,Yh) of de inter-item-varianties S² (Yg)
α kan dus best gezien worden als ondergrens van de betrouwbaarheid
α is dus een conservatieve schatting van de betrouwbaarheid
effect van testverlenging op betrouwbaarheid
rKK’ = betrouwbaarheid van de verlengde test
rXX’ = betrouwbaarheid van de originele test
K = verlengingsfactor
= aantal items verlengde test/aantal items originele test
Rkk’= Krxx’/ 1+(k-1)rxx’
de Spearman-Brown formule
de betrouwbaarheid van de verlengde test is groter dan die van de oorspronkelijke test
dus we kunnen berekenen met hoeveel parallelle deeltests we een test moeten verlengen om een gewenste betrouwbaarheid te bereiken
K = Rkk’(1-Rxx) / Rxx’(1-Rkk”)
validiteit
betrouwbaarheid speelt ook een belangrijke rol bij validiteit
validiteit wordt vaak uitgedrukt aan de hand van de correlatie coëfficiënt tussen twee testscores, X en Y : r(X,Y)
effect van testverlenging op validiteit
rK(X,Y) = r(X,Y) √rKK’/rXX’
rK(X,Y) : validiteit van de verlengde test
r(X,Y) : validiteit van de oorspronkelijke test
rXX’ : betrouwbaarheid van de oorspronkelijke test
rKK’ : betrouwbaarheid van de verlengde test
rK(X,Y) = r(X,Y) √[k/(1+k-1) rxx’]
rK(X,Y) : validiteit van de verlengde test
r(X,Y) : validiteit van de oorspronkelijke test
rXX’ : betrouwbaarheid van de oorspronkelijke test
K = verlengingsfactor
= aantal items verlengde test/aantal items oorspronkelijke test
Wat als K oneindig validiteit
rK(X,Y) = r(TX,Y)
testverlenging is dus geen goede manier om validiteit te
verhogen
bij te lage validiteit maak je beter een nieuwe test
gebruikers van de KTT veronderstellen vaak dat de scores van intervalniveau zijn
maar dat is niet controleerbaar
betrouwbare scores kunnen enkel zinvol vergeleken worden als
personen exact dezelfde test hebben gemaakt
bij gebruik van KTT moet iedereen dezelfde (of minstens een gelijkwaardige aka parallelle) test maken als we verschillen tussen personen willen kennen
de nieuwe psychometrie
is vooral gekend als item-responstheorie
of ook als latente trek theorie (latent trait theory)