6. Betrouwbaarheid Flashcards
Basis idee van testen (Naïve testtheorie volgens Verhelst (1999)) bestaande uit 3 punten.
- Eigenschappen
- meetbaar hoe?
- Kwantitatief verschil
- Stabiele eigenschap; Te meten eigenschap van een persoon bestaat en is redelijk stabiel (is niet uiterst situatie specifiek).
- Kwantitatief meetbaar (laat zich uitdrukken in getallen).
- Betekenisvol Kwantitatief verschil; Kwantitatief verschil in waarden is betekenisvol (persoon x scoort hoger en is dus beter dan persoon y die lager scoort).
Belangrijkste formule van klassieke testtheorie:
Xij = Ti + Eij
Response = ware score + meetfout Xij = score van persoon i tijdens replicatie j Ti = ware score van deze persoon Eij = de meetfout op het moment van de replicatie.
Ware score in populatie
X1 = T1 +E1
X1 = T1 +E1
is ware score van persoon 1 en zijn of haar meetfout
r(E, T) = 0
r(E, Y) = 0
correlatie tussen meetfout en ware score is 0.
Dit geldt ook voor de correlatie tussen de meetfout en andere variabelen zoals Y.
S2(X) = S2(T) + S2(E)
De variantie (S2) is gelijk aan de variantie van ware score (T) en meetfout (E)
Wat is variantie? S2(X)
Het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde.
Hoe hoger het getal hoe meer spreiding er is van scores rondom de gemiddelde score.
Betrouwbaarheid => rxx’=S2(T)/S2(X). Welke vuistregel houdt met hierin aan?
(Betrouwbaarheid) rxx’ = gelijk aan de variantie van de ware(true)/ betrouwbare score gedeeld door de variantie van de geobserveerde score
Vuistregel van betrouwbaarheid > 0.7. Alles daaronder betekent dat testscore voor groot deel uit meetfouten bestaat. Bij individuele diagnostiek > 0.9.
Hoe wordt de klassieke testtheorie ook wel genoemd, wat doet het en waar houdt het zich mee bezig?
- Ook wel genoemd: Ware-score theorie. Alle afwijkingen zijn ruis rond de waarheid.
Houdt zich bezig met het in kaart brengen van relatieve inbreng van de over afneming onvoorspelbare invloeden en systematische werkzame eigenschappen van personen op de testprestatie.
- Houdt zich bezig met het opsplitsen van een constant of systematische deel en een toevallig of niet-constant deel.
Betrouwbare variantie en foutenvariantie. Hoe kan de betrouwbaarheid nu worden gedefinieerd
- Betrouwbare variantie: variantie van de ware score.
- Foutenvariantie: variantie van meetfouten
De betrouwbaarheid van een test kan nu worden gedefinieerd als de ratio van de variantie van de betrouwbare score en de geobserveerde score.
Cronbach’s alphacoëfficiënt?
probleem van kleine steekproeven?
Illusie bij lange tests?
Vergelijken van ca met verschillende testlengte?
Hoe groot moet de steekproef zijn om populatiewaarde te benaderen?
Populairste betrouwbaarheidscoëfficiënt. Ondergrens van de betrouwbaarheid dus levert systematische onderschatting van de betrouwbaarheid op.
Is op z’n best gelijk aan de populatiebetrouwbaarheid.
Vooral bij kleine steekproeven kan CA ook hoger uitvallen dan werkelijke betrouwbaarheid.
Bij lange tests kan een hoge alpha de illusie geven van een betere consistentie, doordat CA afhankelijk is van testlengte. Hierdoor zijn CA’s met verschillende testlengte niet goed met elkaar te vergelijken.
Grote steekproef van 500 proefpersonen benadert de populatiewaarde van Alpha behoorlijk goed
Spearman-Brown-formule:
Rkk=KRxx’/1+(K-1)Rxx’
- Toepassingen?
- Splitsing 2 voorwaarden
- K berekenen
- Rekenvoorbeeld:
15 items in test
Rxx’ = .40 maar onderzoeker wil naar een betrouwbaarheid van RKK = .80.
Hoeveel langer moet test zijn om dit te bereiken?
- Rxx’ = originele betrouwbaarheid (dus de betrouwbaarheid van de originele test zonder verlenging of verkorting)
- Rkk= betrouwbaarheid aangepaste schaal
- K= verlenging- of verkortingssfactor: K=2 betekent dat een test 2x zo lang wordt. K=0.5 betekent dat een test gehalveerd wordt qua lengte.
Toepassingen: bereiken van gewenste betrouwbaarheid en vergelijken of eventueel verkorten van testen.
- Splitsing voorwaarden: 1. gelijke moeilijkheid, 2. volgorde van vragen aanhouden. Selectie van even en oneven nummers.
K = items verlenging of verkorting / originele items. Dus stel je wil van 21 items naar 10 items dan is de berekening: 10/21 = 0.48. Dit vul je vervolgens in bij K in de spearman-Brown-Formule.
Rekenvoorbeeld:
15 items in test
Rxx’ = .40 maar onderzoeker wil naar een betrouwbaarheid van RKK = .80.
Hoeveel langer moet test zijn om dit te bereiken?
Stap 1. K = .8 x .6/ .4x .2 = 6
Stap 2. 6 x 15 = 90 dus 90 items (+75 items bovenop de 15 bestaande) zijn nodig om betrouwbaarheid van .80 te bereiken.
Let op: items zijn niet zomaar inwisselbaar. Sommige items zeggen meer over het onderzochte construct dan anderen. Hierdoor kan bij verkorting bv de betrouwbaarheid lager of hoger uitvallen dan berekend. Er moet gewerkt worden naar een eendimentionale eigenschap (meet maar 1 eigenschap).
- Meetfouten in de populatie van n personen is gelijk aan? Hoe komt dat?
- correleren meetfouten in een test in de populatie met andere variabelen?
r(E,Y) = 0
r(E,X) >0
r(E,T)=0
- Meetfouten in de populatie van n personen is gelijk aan 0. Positieve en negatieve meetfouten heffen elkaar op. Geluk (positief) en pech (negatief) komt even vaak voor.
- Meetfouten op een test in de populatie correleren met geen enkele andere variabele tenzij de proefpersoon hier zelf deel van uitmaakt. Anders is er geen sprake van ‘toevalligheid’ meer.
Y= willekeurige andere variabele E= meetfout r= correlatie T = (true) betrouwbare score (is in de praktijk niet te vinden omdat het over de ware score van de populatie gaat).
- Wanneer meetfout wel correleert met variabele dan r(E,X) >0
- r(E,T)=0 wanneer meetfout en toevallige, systematische deel van de testscore in dit geval niet correleren terwijl ze dit eigenlijk wel doen.
Standaardmeetfout: waarvoor dient het?
S(E) = S(X)V~~1 - rXX’.
(V~~ = wortel)
S(E) = Standaardmeetfout (standard error)
S(X) = standaarddeviatie van testscore
- rxx’ = originele betrouwbaarheid (dus de betrouwbaarheid van de originele test zonder verlenging of verkorting.
Dient, net als de betrouwbaarheid, om een schatting te krijgen van de nauwkeurigheid van de meting.
Schatten van (true) betrouwbare score middels 2 mothode:
- schattingsmethode volgens klassieke testmodel
^T = X - lineaire regressie-formule
^T = rxx’X+ (1-rxx’)x̄.
(^ = dakje boven de T)
Standaardschattingsfout-formule
S(T-^T) = S(T)V~~1-rxx’.
Wanneer de betrouwbaarheid bv al geschat is met cronbach’s Alpha dan wordt formule:
S2(T) = V~~rxx’S(X)
Het resultaat van S(T) wordt samen met cronbach’s Alpha ingevoerd in Standaardschattingsfout-formule
Bereken stap voor stap adhv voorbeeld: persoon i heeft op een test een score Xi = 110. In populatie geldt gemiddelde van x̄ = 100 en S(X) = 15. De betrouwbaarheid is 0.84
- rxx’ = originele betrouwbaarheid (dus de betrouwbaarheid van de originele test zonder verlenging of verkorting.
- S(T-^T) = Standaardschattingsfout
S2(T) = kwadraat van de standaarddeviatie van T (true score).
- ^T = X. X verschilt alleen van T door een meetfout E. T kan dus geschat worden middels X.
- Standaardschattingsfout-formule: S(T-^T) = S(T)V~~1-rxx’
* Voorbeeld: persoon i heeft op een test een score Xi = 110. In populatie geldt gemiddelde van x̄ = 100 en S(X) = 15. De betrouwbaarheid is 0.84
stap 1. ^Ti = betrouwbaarheid x score Xi + (1 - betrouwbaarheid) x populatiegemiddelde x̄ = .84 x 110 + .16 x 100 = 108.4
stap 2. S(T) = V~~.84 x 225 (score Xi + x̄ + S(X)??? ) = 13.75
stap 3. S(T-^T) = 13.75V~~.16 =5.5
Wat is betrouwbaarheid?
De mate van herhaalbaarheid van metingen.
Wanneer test onder gelijkblijvende condities (omgeving, psychologisch, fysiologisch) aan dezelfde persoon wordt voorgelegd, in hoeverre varieert de verkregen testscore dan over de testprestaties?