Klassieke Testtheorie deel 2 Flashcards

1
Q

Betrouwbaarheid verschilscores

A

Rvv’= 1- S2(X1)(1-R11’)+S2(X2)(1-R22’) /

S2(X1)+S2(X2)-2S(X1,X2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

als we verschilscores willen gebruiken moeten we dus streven naar

A
  • zo betrouwbaar mogelijke tests
  • zo onafhankelijk mogelijke tests (hoe lager hun testscores correleren, hoe beter)

bij het interpreteren van verschilscores moet men zeer voorzichtig zijn, vooral bij testscores die onderling samenhangen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

attenuatie

A

neem twee testen met geobserveerde scores X en Y

stel dat we zouden weten dat de correlatie tussen de betrouwbare scores gelijk is aan 0.5

de betrouwbaarheid waarmee X bepaald wordt is 0.4 en de betrouwbaarheid waarmee Y bepaald wordt is 0.6

r(X,Y) = r(TX,TY) √rXX’ √ rYY’
= 0.5 x √0.4 x √0.6
= 0.5 x 0.63 x 0.77
=0.24

geobserveerde correlatie is kleiner geworden dan de correlatie tussen de betrouwbare scores .23

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

door onbetrouwbaarheid is de correlatie tussen de geobserveerde scores lager dan de correlatie tussen de betrouwbare scores

A

attenuatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

correctie voor attenuatie

A

r(TX,TY) =r(X,Y)/√rXX’ √ rYY’

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

het product van betrouwbaarheidsindeces is een bovengrens voor validiteit

A

r(X,Y) <= rXX’ rYY’

het product van betrouwbaarheidsindeces is een bovengrens voor validiteit

correlatie tussen een test en een criterium kan nooit groter zijn dan de wortel uit het product van de betrouwbaarheid van de testen

r(X,Y) <= rXX’
de betrouwbaarheidsindex is bovengrens voor validiteit

correlatie tussen een test en een criterium kan nooit groter zijn dan de wortel uit de betrouwbaarheid van de test

betrouwbaarheid is een noodzakelijke voorwaarde voor validiteit

betrouwbaarheid is echter geen voldoende voorwaarde voor validiteit: hoge betrouwbaarheid impliceert niet automatisch hoge validiteit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

correctie voor dilutie

A

b = Rxx’ bT

als bT ≥ 0 dan volgt, omdat rXX’ ≤ 1, dat

b ≤ bT

dus als bv bT=3.33 en rXX’ = .9 dan is b=.300

als bT ≤ 0 dan volgt, omdat rXX’ ≤ 1, dat

b ≥ bT

dus als bv bT=-3.33 en rXX’ = .9 dan is b=-.300

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

dilutie of regressive attenuatie

A

in beide gevallen drukt b een minder sterke relatie uit dan bT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

een lage betrouwbaarheid leidt tot

A

onnauwkeurige schattingen van de betrouwbare score

lage betrouwbaarheid van de verchilscore

een verlaging van de correlatie en dus een lage validiteit (attenuatie)

lage validiteit (bovengrens)

een verlaging van de regressie coefficient (dilutie)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

op basis van twee afnames

A

parallellie: test-hertestbetrouwbaarheid

paralleltestbetrouwbaarheid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

op basis van één afname in 2 gesplitst

A

splitsingsbetrouwbaarheid

equivalentie: guttman; flanagan; rulon; lambda 4
parallellie: spearman-brown

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

op basis van één afname in k gesplitst

A

equivalentie: cronbach (alfa)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

betrouwbaarheid bepalen op basis van twee afnames

A

noteer de scores met XI en XII

als we er van uitgaan dat de tests I en II equivalent zijn, dan geldt

RX1 X1’= S(X1,X2) / S2(X1)
RX2 X2’= S(X1,X2) / S2(X2)

RX1 X1 /= RX2 X2’

Deze methode niet gebruikt omdat niet duidelijke welke betrouwbaarheid

als parallel

RX1 X1 = RX2 X2’ = Rxx’ = R(X1,X2)

als testen parallel zijn is er maar één betrouwbaarheid

dit leidt tot een werkwijze om betrouwbaarheid te schatten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

test-hertest

A

neem tweemaal dezelfde test af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de afnames

bereken de correlatie tussen geobserveerde scores op de twee afnames van dezelfde test (XA en XB)

dit is de schatting van de betrouwbaarheid van deze test, als we er van uitgaan dat een test parallel is aan zichzelf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

paralleltest

A

neem twee parallelle tests (XI en XII) af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de tests

bereken de correlatie tussen geobserveerde scores op de twee tests

dit is een schatting van de betrouwbaarheid van elke van deze tests

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

betrouwbaarheid bepalen op basis van één afname in twee gesplitst

A

stel dat we één test afnemen bij een groep personen

we noteren de geobserveerde scores X

we splitsen de test in twee delen (bvb de even items vs de oneven items)

we noteren de deelscore op deel 1 met D1 en de deelscore op deel 2 met D2

als de delen equivalent zijn dan is de geschatte betrouwbaarheid van een test volgens [Ra] met K=2 gelijk aan

17
Q

de coëfficiënt van flanagan

A

Rxx’=4* S(D1, D2) / S2(X)

18
Q

de coefficient van guttman

A

Rxx’= 2(1- [S2(D1)+S2(D2)]/s2(X))

19
Q

de coefficient van rulon

A

Rxx’= 1- [ S2(D1-D2)]/ S2(X)

20
Q

de coëfficiënt van flanagan, De coefficient van guttman,

de coefficient van rulon

A

deze uitdrukkingen zijn zo belangrijk dat ze een eigen symbool krijgt lambda 4
als de beide testdelen niet equivalent zijn dan Rxx’ >= lamda4

21
Q

lamda4

A

kan dus best gezien worden als ondergrens van de betrouwbaarheid

22
Q

als we veronderstellen dat de delen parallel zijn kunnen we uitdrukking [T] gebruiken om de betrouwbaarheid te berekenen

A

Rxx’= KrDD’ / 1+(K-1)rDD’

als de delen parallel zijn dan is de geschatte betrouwbaarheid van een test volgens [T] met K=2 gelijk aan

Rxx’= 2rDD’ / 1+rDD’

23
Q

de coëfficiënt van spearman-brown

A

SB = Rxx’= 2rDD’ / 1+rDD’

24
Q

als we veronderstellen dat de delen equivalent zijn kunnen we uitdrukking [Q] gebruiken om de betrouwbaarheid te berekenen

A

Rxx’= 1- ∑S2(Dg)(1-rgg’) / S2(x)

voor de betrouwbaarheid van parallelle testdelen hebben we uitdrukking [6.19] : rXX’=r(XI,XII)
dit leidt weer tot SB

25
Q

alfa wordt berekend

A

op basis van de variantie van de totaalscore S²(X) en de inter-item-covarianties S(Yg,Yh) of de inter-item-varianties S² (Yg)

α kan dus best gezien worden als ondergrens van de betrouwbaarheid

α is dus een conservatieve schatting van de betrouwbaarheid

26
Q

effect van testverlenging op betrouwbaarheid

A

rKK’ = betrouwbaarheid van de verlengde test
rXX’ = betrouwbaarheid van de originele test
K = verlengingsfactor
= aantal items verlengde test/aantal items originele test

Rkk’= Krxx’/ 1+(k-1)rxx’

de Spearman-Brown formule

de betrouwbaarheid van de verlengde test is groter dan die van de oorspronkelijke test

27
Q

dus we kunnen berekenen met hoeveel parallelle deeltests we een test moeten verlengen om een gewenste betrouwbaarheid te bereiken

A

K = Rkk’(1-Rxx) / Rxx’(1-Rkk”)

28
Q

validiteit

A

betrouwbaarheid speelt ook een belangrijke rol bij validiteit

validiteit wordt vaak uitgedrukt aan de hand van de correlatie coëfficiënt tussen twee testscores, X en Y : r(X,Y)

29
Q

effect van testverlenging op validiteit

A

rK(X,Y) = r(X,Y) √rKK’/rXX’

rK(X,Y) : validiteit van de verlengde test
r(X,Y) : validiteit van de oorspronkelijke test
rXX’ : betrouwbaarheid van de oorspronkelijke test
rKK’ : betrouwbaarheid van de verlengde test

rK(X,Y) = r(X,Y) √[k/(1+k-1) rxx’]
rK(X,Y) : validiteit van de verlengde test
r(X,Y) : validiteit van de oorspronkelijke test
rXX’ : betrouwbaarheid van de oorspronkelijke test
K = verlengingsfactor
= aantal items verlengde test/aantal items oorspronkelijke test

30
Q

Wat als K oneindig validiteit

A

rK(X,Y) = r(TX,Y)

testverlenging is dus geen goede manier om validiteit te
verhogen

bij te lage validiteit maak je beter een nieuwe test

31
Q

gebruikers van de KTT veronderstellen vaak dat de scores van intervalniveau zijn

A

maar dat is niet controleerbaar

32
Q

betrouwbare scores kunnen enkel zinvol vergeleken worden als

A

personen exact dezelfde test hebben gemaakt

bij gebruik van KTT moet iedereen dezelfde (of minstens een gelijkwaardige aka parallelle) test maken als we verschillen tussen personen willen kennen

33
Q

de nieuwe psychometrie

A

is vooral gekend als item-responstheorie

of ook als latente trek theorie (latent trait theory)