Hoofdstuk 6. Betrouwbaarheid Flashcards
Betrouwbaarheid en de vragen die het oproept
Betrouwbaarheid is de mate van herhaalbaarheid van metingen. Hierbij dringen zich twee vragen op.
• Kan je dezelfde persoon wel meermalen zinvol testen?
• Wat moeten we verstaan onder gelijkblijvende condities?
Kan je dezelfde persoon meermalen zinvol testen?
Zinvolle herhaalbaarheid van metingen wordt bemoeilijkt door geheugeneffecten en leerprocessen wat al bij de tweede test kan gelden. Hierdoor moet herhaalbaarheid gezien worden als een hypothetische situatie.
Wat moet je je voorstellen bij gelijkblijvende condities?
Onder gelijkblijvende condities vallen doorgaans allerlei kenmerken van de testomgeving en de testprocedure (gelijkblijven van items, instructie, ruimte, materiaal), de voor de meting relevante psychologische eigenschappen van de persoon (gelijkblijven van woordbegrip bij een numerieke vaardighedentest; gelijkblijven van de emotionele reactie op items) en de lichamelijke en fysiologische processen in een persoon (gelijkblijvende motoriek en/of waarneming).
Hoe kan het dat testscores bij herhaalde metingen onder gelijkblijvende condities toch fluctueren?
Er zijn invloeden op de testprestatie werkzaam die op een onvoorspelbare of toevallige wijze variëren over herhaalde afnemingen van de test. Deze invloeden kunnen nadelig maar ook voordeling zijn, zodat ze de score verhogen of verlagen. Voorbeelden van toevallige invloeden zijn een black-out of een helder moment, een hoestbui, laag overkomend vliegtuig enz. enz.
Klassieke testtheorie
De klassieke testtheorie brengt de relatieve inbreng van de onvoorspelbare invloeden op de testprestatie in kaart. Daarnaast brengt het de systematische werkzame eigenschappen van personen en testsituaties in kaart. De klassieke testtheorie vindt zijn oorsprong in begin 1900 door Spearman en is verder ontwikkeld door Gulliksen (1950) en Lord en Novick (1968). De klassieke testtheorie is een gedachte-experiment waarbij er sprake is van onafhankelijke replicaties. Dit is in de praktijk onmogelijk. Belangrijke onderscheidingen zijn:
• Betrouwbare score en meetfout.
• Betrouwbaarheid van testscores en de standaardmeetfout.
• Bedoelde en onbedoelde scorecomponent.
Onafhankelijke replicaties
Herhaalde metingen. Testprestaties zijn bij verschillende afnemingen onafhankelijk van elkaar. Er zijn geen leer- en herinnereffecten.
Basisidee van testen (naïeve testtheorie)
Bij een test gaan we ervan uit dat wat we meten
• Bestaat en redelijk stabiel is
• Kwantitatief meetbaar is
• Kwantitatieve verschillen in waarden hebben betekenis.
Ware score
Ook wel True score of betrouwbare score genoemd (T). De gemiddelde score van alle onafhankelijke metingen van één persoon. Vanuit de klassieke testtheorie. Dit is dus een gedachte-experiment. De betrouwbare score representeert de eigenschap van de persoon die men met de test wil meten.
Meetfout
De afwijking tussen de individuele score en de ware score. De meetfout vertegenwoordigt toevallige en onbedoelde omstandigheden in de persoon en de testsituatie die aanleiding geven tot het lager of hoger uitvallen van de geobserveerde score, vergeleken met de ware (betrouwbare) score.
Respons
Ware score + meetfout. Oftewel: de individuele score.
Formule ware score
X=T+E. Deze moet je kennen! Wordt niet gegeven.
XIJ = Score van persoon I tijdens de replicatie J.
TI = Ware score van deze persoon.
EIJ = Meetfout (error) op moment van replicatie. De gemiddelde meetfout is altijd 0.
Eigenschappen betrouwbare score en meetfout voor een individu
- Gemiddelde meetfout is 0
- Standaarddeviatie is de standaardmeetfout van persoon i. Voor specifieke persoon i geldt over onafhankelijke replicaties dat de spreiding van de meetfouten gelijk is aan de spreiding van de geobserveerde scores. Uitgangspunt in praktijk is dat de standaardmeetfout voor iedereen identiek is. Maar dit is niet juist: personen die weinig weten gissen meer (en dus grotere standaardmeetfout). Dus: de ‘persoonsgebonden’ standaardmeetfout neemt af bij een toenemende waarde T.
- De standaardmeetfout van psychologische metingen (testscores) is vaak aanzienlijk. Reden: onderliggende psychologische processen kunnen m.b.v. een test niet zo nauwkeurig worden beschreven als bv fysische processen
- Meetfouten correleren altijd 0 met de ware score van dezelfde test.
Eigenschappen betrouwbare score en meetfout in een populatie
• In een populatie van personen correleert de meetfout (E) met geen enkel andere variabele (Y), tenzij ze er zelf deel van uitmaken. Formule: r(E,Y) = 0. Zouden ze
wel correleren dan zijn de omstandigheden niet meer toevallig.
• De correlatie tussen de meetfout E en de score X is altijd groter dan 0. Formule: r(E,X)>0. Uitgangspunt is de formule X = T + E. Vervolgens gaan we ervan uit dat X altijd een meetfout bevat, dat betekent dat E niet gelijk is aan 0. Dan is er altijd sprake van een correlatie tussen E en X die groter is dan 0. Deze correlatie hoort
wel klein te zijn. Is dat niet het geval, dan is X voornamelijk een meetfout in plaats van een representatie van de ware score T.
• De meetfouten en de ware score correleren niet. r(E,T)=0
• S(T)
Variantie
Variantie is het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde. Dit is altijd een positief getal. Hoe hoger het getal, hoe meer spreiding er is van de geobserveerde scores rondom de gemiddelde score.
Definitie en formule van betrouwbaarheid
De betrouwbaarheid van de testscore gemeten in een populatie van personen (rXX’) wordt gedefinieerd als de verhouding van de varianties van betrouwbare score en geobserveerde score. De betrouwbaarheid is dus de proportie van de variantie van de testscores, X, die systematisch is. Betrouwbaarheid kan de waarden 0 (verschillen in testscores zijn puur aan toeval toe te schrijven, meetinstrument mislukt) tot 1 (iedereen dezelfde meetfout) aannemen.
Formulie: rxx’ = S2(T) gedeeld door S2(X)
Standaardmeetfout
De standaardmeetfout is de standaarddeviatie van de meetfouten die zouden optreden als de test een groot aantal malen zou worden afgenomen bij dezelfde persoon. Dus hoe observaties van elkaar verschillen. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score. De formule van de standaardmeetfout is. Waarbij
S (E) = variantie van de meetfout
S (X) = variantie van de testscore
Rxx’ = betrouwbaarheid.
Standaardschattingsfout
De standaardschattingsfout is de standaarddeviatie van de fouten die het gevolg zijn van de afwijking van de geschatte ware score ten opzichte van de ware score. Dit is de SD van T-T. Her gaat om hoe nauwkeurig is de steekproef voor het ware populatiegemiddelde. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.
Belang betrouwbaarheid en standaardmeetfout
De betrouwbaarheid en de standaardmeetfout worden in de klassieke testtheorie gebruikt om een schatting te krijgen van de nauwkeurigheid van een meting met behulp van een specifieke test. Met andere woorden: beide maten worden gebruikt om een indruk te krijgen van de mate waarin de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.
Bedoelde v.s. onbedoelde scorecomponent
Er zijn bedoelde en onbedoelde factoren die een testprestatie beïnvloeden. De bedoelde scorecomponenten is dat psychologische construct wat je wilt meten, dit valt niet samen met de betrouwbare score. De onbedoelde scorecomponenten zijn datgene wat invloed heeft op de bedoelde component, inclusief de meetfout.