Hoofdstuk 6. Betrouwbaarheid Flashcards
Betrouwbaarheid en de vragen die het oproept
Betrouwbaarheid is de mate van herhaalbaarheid van metingen. Hierbij dringen zich twee vragen op.
• Kan je dezelfde persoon wel meermalen zinvol testen?
• Wat moeten we verstaan onder gelijkblijvende condities?
Kan je dezelfde persoon meermalen zinvol testen?
Zinvolle herhaalbaarheid van metingen wordt bemoeilijkt door geheugeneffecten en leerprocessen wat al bij de tweede test kan gelden. Hierdoor moet herhaalbaarheid gezien worden als een hypothetische situatie.
Wat moet je je voorstellen bij gelijkblijvende condities?
Onder gelijkblijvende condities vallen doorgaans allerlei kenmerken van de testomgeving en de testprocedure (gelijkblijven van items, instructie, ruimte, materiaal), de voor de meting relevante psychologische eigenschappen van de persoon (gelijkblijven van woordbegrip bij een numerieke vaardighedentest; gelijkblijven van de emotionele reactie op items) en de lichamelijke en fysiologische processen in een persoon (gelijkblijvende motoriek en/of waarneming).
Hoe kan het dat testscores bij herhaalde metingen onder gelijkblijvende condities toch fluctueren?
Er zijn invloeden op de testprestatie werkzaam die op een onvoorspelbare of toevallige wijze variëren over herhaalde afnemingen van de test. Deze invloeden kunnen nadelig maar ook voordeling zijn, zodat ze de score verhogen of verlagen. Voorbeelden van toevallige invloeden zijn een black-out of een helder moment, een hoestbui, laag overkomend vliegtuig enz. enz.
Klassieke testtheorie
De klassieke testtheorie brengt de relatieve inbreng van de onvoorspelbare invloeden op de testprestatie in kaart. Daarnaast brengt het de systematische werkzame eigenschappen van personen en testsituaties in kaart. De klassieke testtheorie vindt zijn oorsprong in begin 1900 door Spearman en is verder ontwikkeld door Gulliksen (1950) en Lord en Novick (1968). De klassieke testtheorie is een gedachte-experiment waarbij er sprake is van onafhankelijke replicaties. Dit is in de praktijk onmogelijk. Belangrijke onderscheidingen zijn:
• Betrouwbare score en meetfout.
• Betrouwbaarheid van testscores en de standaardmeetfout.
• Bedoelde en onbedoelde scorecomponent.
Onafhankelijke replicaties
Herhaalde metingen. Testprestaties zijn bij verschillende afnemingen onafhankelijk van elkaar. Er zijn geen leer- en herinnereffecten.
Basisidee van testen (naïeve testtheorie)
Bij een test gaan we ervan uit dat wat we meten
• Bestaat en redelijk stabiel is
• Kwantitatief meetbaar is
• Kwantitatieve verschillen in waarden hebben betekenis.
Ware score
Ook wel True score of betrouwbare score genoemd (T). De gemiddelde score van alle onafhankelijke metingen van één persoon. Vanuit de klassieke testtheorie. Dit is dus een gedachte-experiment. De betrouwbare score representeert de eigenschap van de persoon die men met de test wil meten.
Meetfout
De afwijking tussen de individuele score en de ware score. De meetfout vertegenwoordigt toevallige en onbedoelde omstandigheden in de persoon en de testsituatie die aanleiding geven tot het lager of hoger uitvallen van de geobserveerde score, vergeleken met de ware (betrouwbare) score.
Respons
Ware score + meetfout. Oftewel: de individuele score.
Formule ware score
X=T+E. Deze moet je kennen! Wordt niet gegeven.
XIJ = Score van persoon I tijdens de replicatie J.
TI = Ware score van deze persoon.
EIJ = Meetfout (error) op moment van replicatie. De gemiddelde meetfout is altijd 0.
Eigenschappen betrouwbare score en meetfout voor een individu
- Gemiddelde meetfout is 0
- Standaarddeviatie is de standaardmeetfout van persoon i. Voor specifieke persoon i geldt over onafhankelijke replicaties dat de spreiding van de meetfouten gelijk is aan de spreiding van de geobserveerde scores. Uitgangspunt in praktijk is dat de standaardmeetfout voor iedereen identiek is. Maar dit is niet juist: personen die weinig weten gissen meer (en dus grotere standaardmeetfout). Dus: de ‘persoonsgebonden’ standaardmeetfout neemt af bij een toenemende waarde T.
- De standaardmeetfout van psychologische metingen (testscores) is vaak aanzienlijk. Reden: onderliggende psychologische processen kunnen m.b.v. een test niet zo nauwkeurig worden beschreven als bv fysische processen
- Meetfouten correleren altijd 0 met de ware score van dezelfde test.
Eigenschappen betrouwbare score en meetfout in een populatie
• In een populatie van personen correleert de meetfout (E) met geen enkel andere variabele (Y), tenzij ze er zelf deel van uitmaken. Formule: r(E,Y) = 0. Zouden ze
wel correleren dan zijn de omstandigheden niet meer toevallig.
• De correlatie tussen de meetfout E en de score X is altijd groter dan 0. Formule: r(E,X)>0. Uitgangspunt is de formule X = T + E. Vervolgens gaan we ervan uit dat X altijd een meetfout bevat, dat betekent dat E niet gelijk is aan 0. Dan is er altijd sprake van een correlatie tussen E en X die groter is dan 0. Deze correlatie hoort
wel klein te zijn. Is dat niet het geval, dan is X voornamelijk een meetfout in plaats van een representatie van de ware score T.
• De meetfouten en de ware score correleren niet. r(E,T)=0
• S(T)
Variantie
Variantie is het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde. Dit is altijd een positief getal. Hoe hoger het getal, hoe meer spreiding er is van de geobserveerde scores rondom de gemiddelde score.
Definitie en formule van betrouwbaarheid
De betrouwbaarheid van de testscore gemeten in een populatie van personen (rXX’) wordt gedefinieerd als de verhouding van de varianties van betrouwbare score en geobserveerde score. De betrouwbaarheid is dus de proportie van de variantie van de testscores, X, die systematisch is. Betrouwbaarheid kan de waarden 0 (verschillen in testscores zijn puur aan toeval toe te schrijven, meetinstrument mislukt) tot 1 (iedereen dezelfde meetfout) aannemen.
Formulie: rxx’ = S2(T) gedeeld door S2(X)
Standaardmeetfout
De standaardmeetfout is de standaarddeviatie van de meetfouten die zouden optreden als de test een groot aantal malen zou worden afgenomen bij dezelfde persoon. Dus hoe observaties van elkaar verschillen. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score. De formule van de standaardmeetfout is. Waarbij
S (E) = variantie van de meetfout
S (X) = variantie van de testscore
Rxx’ = betrouwbaarheid.
Standaardschattingsfout
De standaardschattingsfout is de standaarddeviatie van de fouten die het gevolg zijn van de afwijking van de geschatte ware score ten opzichte van de ware score. Dit is de SD van T-T. Her gaat om hoe nauwkeurig is de steekproef voor het ware populatiegemiddelde. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.
Belang betrouwbaarheid en standaardmeetfout
De betrouwbaarheid en de standaardmeetfout worden in de klassieke testtheorie gebruikt om een schatting te krijgen van de nauwkeurigheid van een meting met behulp van een specifieke test. Met andere woorden: beide maten worden gebruikt om een indruk te krijgen van de mate waarin de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.
Bedoelde v.s. onbedoelde scorecomponent
Er zijn bedoelde en onbedoelde factoren die een testprestatie beïnvloeden. De bedoelde scorecomponenten is dat psychologische construct wat je wilt meten, dit valt niet samen met de betrouwbare score. De onbedoelde scorecomponenten zijn datgene wat invloed heeft op de bedoelde component, inclusief de meetfout.
Twee benaderingen voor het schatten van betrouwbaarheid
- Gebaseerd op twee testafnemingen (herhaalde meting). Deze is verdeeld onder de parallelvormmethode en de test-hertestmethode.
- Gebaseerd op een enkele testafneming (eenmalige meting). Deze is verdeeld onder de splitsingsmethode en de interne-consistentiemethode
Parallelvormmethode voor het schatten van betrouwbaarheid
Er wordt gebruik gemaakt van twee onafhankelijke (equivalente en inwisselbare) tests die aan één groep proefpersonen wordt voorgelegd. De correlatie tussen parallelle tests wordt de paralleltestbetrouwbaarheid genoemd. En de correlatie tussen scores van beide is gelijk aan de betrouwbaarheid van afzonderlijke scores. Vooronderstellingen van de paralleltest is;
• Bepaalde persoon i geeft op twee paralleltests identieke betrouwbare scores
• Spreiding van de ruwe score in de populatie is op beide tests gelijk
Eigenschappen van de paralleltest zijn:
• Testscore van iedere persoon is in beide tests gelijk
• Gem. betrouwbare score op de test is gelijk aan gem. geobserveerde score
• Varianties van geobserveerde scores is in beide tests identiek.
• Met iedere willekeurige variabele (Y) heeft de paralleltest dezelfde correlatie. Dit is de belangrijkste.
Het is moeilijk om daadwerkelijk paralleltests te construeren en pas na het testen weet je of het werkt. In de praktijk zullen testversies niet precies parallel zijn. Het gevolg is dat in de populatie de correlatie tussen de resulterende scores op beide versies kleiner is dan wanneer beide versies wel parallel zouden zijn.
Test-hertestmethode
Twee afnemingen van dezelfde test aan dezelfde groep met een behoorlijke tussentijd. De test speelt bij de tweede afneming zelf de rol van onafhankelijke replicatie. De correlatie tussen beide verkregen ruwe scores is in de populatie gelijk aan de betrouwbaarheid van de test, mits beide afnemingen onafhankelijke replicaties zijn. R(X1,X2) = rxx’ De correlatie tussen de twee testscores wordt de test- hertestbetrouwbaarheid genoemd.
Wanneer er veranderingen plaatsvinden tussen de eerste en de tweede test geeft de test-hertestmethode afwijkende resultaten. Bij weinig wijzigende eigenschappen geeft de test-hertestmethode een goede indruk van de betrouwbaarheid volgens de parallelvormmethode. Er zijn diverse redenen waarom r(X1,X2) soms geen goede bepaling van rxx’ geeft.
• Veranderingen in de gemeten eigenschap na de eerste meting.
• Geheugen van de respondent.
• Een persoonlijkheidsvragenlijst of attitude test kan men aan het denken zetten
Bepaling van de grootte van het testinterval is lastig. Deze mag niet te groot en niet te klein zijn. Dit maakt dat X1 en X2 vaak niet als onafhankelijke replicaties kan worden beschouwd. De correlatie r (en dus betrouwbaarheid) zal hierdoor te hoog of te laag uitvallen. De test-hertestmethode kan wel aangeven of de testprestatie stabiel is gebleven
Splitsingsmethode
Een splitsing van één test in twee halve testen waarbij iedere helft evenveel items bevat. Deze twee halve testen spelen de rol van parallelle tests. Per testhelft wordt een ruwe score bepaald. Als de beide scores werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test. Via een wiskundige ingreep wordt gecorrigeerd om de betrouwbaarheid van de gehele test te bepalen en het resultaat hiervan is een schatting van de paralleltestbetrouwbaarheid. De betrouwbaarheid van de gehele test is via de Spearman-Brown-formule te bepalen waarbij K dan 2 is want je test is tweemaal zo lang als de betrouwbaarheid van een halve test. De formule van splitsingsmethode suggereert dat beide helften parallel zijn. Dit is zelden het geval. Er zijn een aantal vuistregels voor het vormen van twee helften.
• Een evenwichtige spreiding van gemakkelijke en moeilijke items.
• Niet 1e en 2e helft maar even en oneven.
• Heterogeniteit qua inhoud: paren maken van vragen die op elkaar lijken.
De cronbachs alfa is precies gelijk aan de gemiddelde splitsingsbetrouwbaarheid, berekend over alle mogelijke splitsingen van een test in twee helften. Bovenstaande splitsing hoeft dus niet uitgevoerd te worden.
Rekenregels
Eerst tussen haakjes.
Machten en wortsels van links naar rechts.
Vermenigvuldigen en delen van links naar rechts
Optellen van links naar rechts.