6. Betrouwbaarheid Flashcards

1
Q

Basis idee van testen (Naïve testtheorie volgens Verhelst (1999)) bestaande uit 3 punten.

  1. Eigenschappen
  2. meetbaar hoe?
  3. Kwantitatief verschil
A
  1. Stabiele eigenschap; Te meten eigenschap van een persoon bestaat en is redelijk stabiel (is niet uiterst situatie specifiek).
  2. Kwantitatief meetbaar (laat zich uitdrukken in getallen).
  3. Betekenisvol Kwantitatief verschil; Kwantitatief verschil in waarden is betekenisvol (persoon x scoort hoger en is dus beter dan persoon y die lager scoort).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Belangrijkste formule van klassieke testtheorie:

Xij = Ti + Eij

A
Response = ware score + meetfout
Xij = score van persoon i tijdens replicatie j
Ti = ware score van deze persoon
Eij = de meetfout op het moment van de replicatie.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Ware score in populatie

X1 = T1 +E1

A

X1 = T1 +E1

is ware score van persoon 1 en zijn of haar meetfout

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

r(E, T) = 0

r(E, Y) = 0

A

correlatie tussen meetfout en ware score is 0.

Dit geldt ook voor de correlatie tussen de meetfout en andere variabelen zoals Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

S2(X) = S2(T) + S2(E)

A

De variantie (S2) is gelijk aan de variantie van ware score (T) en meetfout (E)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is variantie? S2(X)

A

Het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde.

Hoe hoger het getal hoe meer spreiding er is van scores rondom de gemiddelde score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Betrouwbaarheid => rxx’=S2(T)/S2(X). Welke vuistregel houdt met hierin aan?

A

(Betrouwbaarheid) rxx’ = gelijk aan de variantie van de ware(true)/ betrouwbare score gedeeld door de variantie van de geobserveerde score

Vuistregel van betrouwbaarheid > 0.7. Alles daaronder betekent dat testscore voor groot deel uit meetfouten bestaat. Bij individuele diagnostiek > 0.9.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hoe wordt de klassieke testtheorie ook wel genoemd, wat doet het en waar houdt het zich mee bezig?

A
  • Ook wel genoemd: Ware-score theorie. Alle afwijkingen zijn ruis rond de waarheid.

Houdt zich bezig met het in kaart brengen van relatieve inbreng van de over afneming onvoorspelbare invloeden en systematische werkzame eigenschappen van personen op de testprestatie.

  • Houdt zich bezig met het opsplitsen van een constant of systematische deel en een toevallig of niet-constant deel.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Betrouwbare variantie en foutenvariantie. Hoe kan de betrouwbaarheid nu worden gedefinieerd

A
  • Betrouwbare variantie: variantie van de ware score.
  • Foutenvariantie: variantie van meetfouten

De betrouwbaarheid van een test kan nu worden gedefinieerd als de ratio van de variantie van de betrouwbare score en de geobserveerde score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cronbach’s alphacoëfficiënt?
probleem van kleine steekproeven?
Illusie bij lange tests?
Vergelijken van ca met verschillende testlengte?
Hoe groot moet de steekproef zijn om populatiewaarde te benaderen?

A

Populairste betrouwbaarheidscoëfficiënt. Ondergrens van de betrouwbaarheid dus levert systematische onderschatting van de betrouwbaarheid op.

Is op z’n best gelijk aan de populatiebetrouwbaarheid.

Vooral bij kleine steekproeven kan CA ook hoger uitvallen dan werkelijke betrouwbaarheid.

Bij lange tests kan een hoge alpha de illusie geven van een betere consistentie, doordat CA afhankelijk is van testlengte. Hierdoor zijn CA’s met verschillende testlengte niet goed met elkaar te vergelijken.

Grote steekproef van 500 proefpersonen benadert de populatiewaarde van Alpha behoorlijk goed

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Spearman-Brown-formule:

Rkk=KRxx’/1+(K-1)Rxx’

  • Toepassingen?
  • Splitsing 2 voorwaarden
  • K berekenen
  • Rekenvoorbeeld:
    15 items in test
    Rxx’ = .40 maar onderzoeker wil naar een betrouwbaarheid van RKK = .80.
    Hoeveel langer moet test zijn om dit te bereiken?
A
  • Rxx’ = originele betrouwbaarheid (dus de betrouwbaarheid van de originele test zonder verlenging of verkorting)
  • Rkk= betrouwbaarheid aangepaste schaal
  • K= verlenging- of verkortingssfactor: K=2 betekent dat een test 2x zo lang wordt. K=0.5 betekent dat een test gehalveerd wordt qua lengte.

Toepassingen: bereiken van gewenste betrouwbaarheid en vergelijken of eventueel verkorten van testen.

  • Splitsing voorwaarden: 1. gelijke moeilijkheid, 2. volgorde van vragen aanhouden. Selectie van even en oneven nummers.

K = items verlenging of verkorting / originele items. Dus stel je wil van 21 items naar 10 items dan is de berekening: 10/21 = 0.48. Dit vul je vervolgens in bij K in de spearman-Brown-Formule.

Rekenvoorbeeld:
15 items in test
Rxx’ = .40 maar onderzoeker wil naar een betrouwbaarheid van RKK = .80.
Hoeveel langer moet test zijn om dit te bereiken?

Stap 1. K = .8 x .6/ .4x .2 = 6
Stap 2. 6 x 15 = 90 dus 90 items (+75 items bovenop de 15 bestaande) zijn nodig om betrouwbaarheid van .80 te bereiken.

Let op: items zijn niet zomaar inwisselbaar. Sommige items zeggen meer over het onderzochte construct dan anderen. Hierdoor kan bij verkorting bv de betrouwbaarheid lager of hoger uitvallen dan berekend. Er moet gewerkt worden naar een eendimentionale eigenschap (meet maar 1 eigenschap).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  • Meetfouten in de populatie van n personen is gelijk aan? Hoe komt dat?
  • correleren meetfouten in een test in de populatie met andere variabelen?

r(E,Y) = 0
r(E,X) >0
r(E,T)=0

A
  • Meetfouten in de populatie van n personen is gelijk aan 0. Positieve en negatieve meetfouten heffen elkaar op. Geluk (positief) en pech (negatief) komt even vaak voor.
  • Meetfouten op een test in de populatie correleren met geen enkele andere variabele tenzij de proefpersoon hier zelf deel van uitmaakt. Anders is er geen sprake van ‘toevalligheid’ meer.
Y= willekeurige andere variabele 
E= meetfout 
r= correlatie 
T = (true) betrouwbare score (is in de praktijk niet te vinden omdat het over de ware score van de populatie gaat). 
  • Wanneer meetfout wel correleert met variabele dan r(E,X) >0
  • r(E,T)=0 wanneer meetfout en toevallige, systematische deel van de testscore in dit geval niet correleren terwijl ze dit eigenlijk wel doen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Standaardmeetfout: waarvoor dient het?

S(E) = S(X)V~~1 - rXX’.

(V~~ = wortel)

A

S(E) = Standaardmeetfout (standard error)
S(X) = standaarddeviatie van testscore
- rxx’ = originele betrouwbaarheid (dus de betrouwbaarheid van de originele test zonder verlenging of verkorting.

Dient, net als de betrouwbaarheid, om een schatting te krijgen van de nauwkeurigheid van de meting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Schatten van (true) betrouwbare score middels 2 mothode:

  1. schattingsmethode volgens klassieke testmodel
    ^T = X
  2. lineaire regressie-formule
    ^T = rxx’X+ (1-rxx’)x̄.
    (^ = dakje boven de T)

Standaardschattingsfout-formule
S(T-^T) = S(T)V~~1-rxx’.

Wanneer de betrouwbaarheid bv al geschat is met cronbach’s Alpha dan wordt formule:
S2(T) = V~~rxx’S(X)
Het resultaat van S(T) wordt samen met cronbach’s Alpha ingevoerd in Standaardschattingsfout-formule

Bereken stap voor stap adhv voorbeeld: persoon i heeft op een test een score Xi = 110. In populatie geldt gemiddelde van x̄ = 100 en S(X) = 15. De betrouwbaarheid is 0.84

A
  • rxx’ = originele betrouwbaarheid (dus de betrouwbaarheid van de originele test zonder verlenging of verkorting.
  • S(T-^T) = Standaardschattingsfout

S2(T) = kwadraat van de standaarddeviatie van T (true score).

  1. ^T = X. X verschilt alleen van T door een meetfout E. T kan dus geschat worden middels X.
  2. Standaardschattingsfout-formule: S(T-^T) = S(T)V~~1-rxx’
    * Voorbeeld: persoon i heeft op een test een score Xi = 110. In populatie geldt gemiddelde van x̄ = 100 en S(X) = 15. De betrouwbaarheid is 0.84

stap 1. ^Ti = betrouwbaarheid x score Xi + (1 - betrouwbaarheid) x populatiegemiddelde x̄ = .84 x 110 + .16 x 100 = 108.4

stap 2. S(T) = V~~.84 x 225 (score Xi + x̄ + S(X)??? ) = 13.75

stap 3. S(T-^T) = 13.75V~~.16 =5.5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is betrouwbaarheid?

A

De mate van herhaalbaarheid van metingen.
Wanneer test onder gelijkblijvende condities (omgeving, psychologisch, fysiologisch) aan dezelfde persoon wordt voorgelegd, in hoeverre varieert de verkregen testscore dan over de testprestaties?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Bedoelde en onbedoelde eigenschappen

A
  • Bedoelde eigenschappen; eigenschappen die je wil meten bv dmv wiskundetoets rekenvaardigheid meten.
  • Onbedoelde eigenschappen; eigenschappen die je niet wil meten bv woordbegrip bij maken van wiskundetoets.
17
Q

Wat is de geobserveerde score?

A

De som van de variantie van de betrouwbare score en de variantie van de meet fout. X = (S2(T) + S2(E))

Betrouwbaarheid: rxx’ = (S2(T) / S2(X))

18
Q

Schatten van de betrouwbaarheid: Paralleltests, paralleltestbetrouwbaarheid en test-hertestbetrouwbaarheid (betrouwbaarheid, splitsingsmethode en interne consistentiemethode). En wat geeft Alpha aan?

Eisen van parallelie op ruwe score x:
x̄1 = x̄2
S2(X1) = S2(X2)
r(x1,Y) = r(x2,Y)??

A
  • Paralleltests; twee verschillende testen die aan proefpersoon worden voorgelegd die inwisselbaar zijn.
  • Paralleltestbetrouwbaarheid; de correlatie tussen de twee afgenomen paralleltests.
  • Test-hertestbetrouwbaarheid; het afnemen van 2x dezelfde test. De correlatie tussen deze is de Test-hertestbetrouwbaarheid. Vertelt ondanks leereffect wel in hoeverre testprestatie stabiel blijft (vaak betrouwbaarheid genoemd).
  • Bij weinig wijzigende eigenschappen van onderzochte geeft test een goede indruk van de betrouwbaarheid volgens de parallelvormmethode.
  • Splitsing: verdelen van de test in twee helften met evenwichtige spreiding, evenredige verdeling en aselecte toewijzing aan beide helften.
  • Interne consistentie: adhv Cronbachs Alpha (groepjes)items inwisselbaarheid van items berekenen. Veruit de meest populaire methode om betrouwbaarheid te schatten.
  • r(x1,Y) = r(x2,Y): belangrijkste eis. correlatie paralleltest 1 en 2 moeten ook correleren met willekeurige variabele Y. Kan in praktijk niet getest worden voor alle variabelen, maar als beiden met Y1…Y5 willekeurige variabelen correleren moet T1 en T2 wel hoog zijn.
19
Q

Item-restcorrelatie en inter-item-covariatie

A

De correlatie van een item met de andere items. Wordt in de praktijk het meest gebruikt. Efficiënter dan inter-item-covariatie wat alleen de covariatie weergeeft met een ander item.

20
Q

standaardschattingsfout, bij wie groot en klein?

A

De standaarddeviatie van de schattingsfout (hoever de geschatte waarde van de true score ligt).

  • Groot bij mensen met grote T-waarde (weinig weten en dus veel gissen).
  • Klein bij mensen met kleine T-waarde (veel weten).
21
Q

De generaliseerbaarheidstheorie van Cronbach (1972). Wat is hierin het universum en universumscore?

A

Is er op gericht om testresultaten te generaliseren bijvoorbeeld naar soortgelijke tests.

Het totaal van condities waarnaar men wenst te generaliseren wordt het universum genoemd.

De universumscore is de betrouwbare score van de verschillende condities (het universum) samen. Bv de gemiddelde score over gesloten en open vragen, wanneer vraagvorm en vraaginhoud gegeneraliseerd worden.

22
Q

Wat is KR-20 en Lambda2, mucoëfficiënten en hoe geordend? En welke gebruiken bij enkele items?

A

KR-20: Een andere bekende vorm om betrouwbaarheid te voorspellen. Is gelijk aan Alpha wanneer alle items dichotoom zijn.

Lambda2: alternatief voor Alpha en geeft ook ondergrens van betrouwbaarheid aan.

  • Mucoëfficiënten: alpha is mu0, Lambda2 is mu1. Kunnen worden geordend naar oplopende grootte. Mu2 en Mu3 beter bij enkele items?
23
Q

Standaardmeetfout en schattingsfout in relatie tot de betrouwbaarheid?

A

Standaardmeetfout en schattingsfout geven in relatie tot de lengte meer info over de nauwkeurigheid van de meting dan de betrouwbaarheid.

24
Q

Wat zijn verschilscores en waar naar streven?

A

Verschilscores: verschil tussen twee testscores in psychodiagnostische praktijk. Streven naar zo onafhankelijk en betrouwbaar mogelijke tests

25
Q

Wat is de latente-klasseanalyse

A

Classificatie van mensen op basis van scoreprofielen op tests of items. Op basis hiervan wordt nagegaan in hoeverre de groep te onderscheiden is van andere groepen op basis van scoreprofiel.

mensen opdelen in verschillende klasse.