H6: Betrouwbaarheid Flashcards
Belangrijk! Formules uit hoofdstuk 6
Wanneer er bij een vraag op het tentamen een formule een rol speelt, dan staat die formule erbij. U hoeft dus geen formule uit het hoofd te leren. U moet wel de formules begrijpen en u moet wel weten wat u met de formule kunt berekenen.
Aangezien het in hoofdstuk 6 formules regent geven we hier de formules die u echt moet kennen (dit betekent niet dat u die uit het hoofd moet leren en reproduceren):
6.1, 6.9, 6.10, 6.11, 6.16, 6.25, 6.26, 6.40, 6.45, 6.46, de formule onder 6.46, 6.47 en de formule onder 6.47.
Wat zijn 3 basisaannames bij testen volgens de naieve testtheorie?
- Wat we meten bestaat en is (redelijk) stabiel
- Wat we meten is kwantitatief meetbaar
- Kwantitatief verschil in waarden is betekenisvol
Wat zijn de hoofdconcepten van de Klassieke Testtheorie?
- Ware score (in individu en in populatie)
- Meetfout is willekeurig
- Betrouwbaarheid
Wat is de belangrijkste formule van de klassieke testtheorie?
Xij = Ti + Eij
Respons = ware score + meetfoutq
Wat is de belangrijkste formule van de klassieke testtheorie?
Xij = Ti + Eij
Respons = ware score + meetfout
Hierbij is de respons een willekeurige score (X), gekozen uit al de verschillende keren dat de respondent de vragenlijst heeft ingevuld.
Wat is de ware score bij de klassieke testtheorie?
Gemiddelde van alle scores van een persoon bij eenzelfde meting op verschillende momenten (dus eenzelfde vragenlijst op verschillende momenten ingevuld. score zou hetzelfde moeten zijn, maar is het niet)
Wat is een synoniem voor de ware score?
Betrouwbare score
Wat is de som van alle meetfouten van replicaties?
0
Wat is de correlatie tussen E (meetfout) en T (score)?
r(E,T) = 0
Want meetfout en score zijn onafhankelijk van elkaar.
Wat is variantie?
Variantie is het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde.
Variantie is altijd een positief getal. Hoe hoger het getal, hoe meer spreiding er is van de geobserveerde scores rondom de gemiddelde score.
Wat is de formule voor betrouwbaarheid?
Variantie van de ware score gedeeld door variantie van de geobserveerde score.
Wat zijn voordelen van de klassieke testtheorie? 3x
- Veel valide vragenlijsten zijn erop gebaseerd
- Vrij goede resultaten voor totale scores
- Eenvoudiger toe te passen
Hoe is de klassieke testtheorie samen te vatten?
De ware score bestaat, maar ruis (oftewel meetfouten) zorgen voor variatie in de scores
Wat is de definitie van betrouwbaarheid?
Wat zijn hier 2 kanttekeningen bij?
De mate waarin een test bij herhaalde afnamen onder dezelfde condities dezelfde score oplevert
- In de praktijk blijkt dat een persoon tussen herhaalde afnames verandert, wat de uitslag bij een volgende afname systematisch kan veranderen.
- Gelijktijdige omgevingscondities kunnen niet worden gegarandeerd bij herhaalde afname
Wat is een andere naam voor de klassieke testtheorie?
De ware-score theorie
Wat is de centrale veronderstelling bij de klassieke testtheorie?
dat de testscore van een persoon kan worden opgevat als bestaande uit een ‘ware’ component en een meetfout, die het gevolg is van toevalsinvloeden. De ware component wordt ook wel de betrouwbare component genoemd, in plaats van component wordt ook wel over score gesproken.
Bij een realisatie van herhaalde afnamen zullen effecten van toevallige invloeden elkaar opheffen en dus is het gemiddelde van de behaalde scores gelijk aan de ware of betrouwbare score en de standaarddeviatie van de behaalde scores gelijk aan de standaarddeviatie van de meetfouten.
Wat wordt er verstaan onder toevalsinvloeden die zorgen voor meetfouten bij de klassieke testtheorie?
factoren die aan de persoon zijn gebonden maar niet blijvend van aard zijn (bijvoorbeeld het niveau van concentratie of stemming als het gaat om iemands intelligentie), en factoren die aan de omgeving zijn gebonden (bijvoorbeeld de temperatuur, de hoeveelheid verkeerslawaai).
Om alle meetfout als willekeurige ruis rond een ware score te zien moet de ruis aan een aantal voorwaarden voldoen. Welke?
- Wanneer een test aan een voldoende grote groep personen of meerdere malen aan een persoon wordt afgenomen, kan op grond van het bovenstaande worden afgeleid dat de gemiddelde meetfout 0 is en dat het gemiddelde van de geobserveerde testscores gelijk is aan het gemiddelde van de ware scores.
- Omdat iedere individuele testscore een meetfout bevat, bestaat de variantie van de scores bij de afnames bij meerdere personen niet alleen uit variantie van de ware scores (betrouwbare variantie), maar ook uit variantie die aan de meetfouten kan worden toegeschreven (foutenvariantie).
Er zijn twee klassieke testtheoretische benaderingen om de betrouwbaarheid te schatten, elk bestaande uit 2 vormen. Welke 2?
- De eerste methode die twee vormen kent is gebaseerd op herhaalde testafnamen.
- Bij de tweede methode om betrouwbaarheid te bepalen kan worden volstaan met één testafname
De eerste methode om betrouwbaarheid in te schatten is gebaseerd op herhaalde testafnamen. Welke 2 vormen kent deze methode?
- De eerste vorm daarvan is gebaseerd op het berekenen van de correlatie tussen twee tests die equivalent of inwisselbaar zijn; zogenoemde paralleltests (zie § 6.3.1). Het equivalentiebegrip wordt geoperationaliseerd door de eis dat de gemiddelden en standaarddeviaties van deze beide tests gelijk zijn en dat de scores op beide tests dezelfde correlatie met een extern criterium hebben. Constructie van dergelijke paralleltests is in de regel moeilijk te realiseren, uitgezonderd enkele nauw omschreven variabelen, zoals rekenvaardigheid en spelling.
De correlatie tussen deze twee tests wordt de paralleltestbetrouwbaarheid genoemd. - De tweede vorm binnen de eerste methode blijft het dichtst bij het theoretische betrouwbaarheidsbegrip (herhaalbaarheid van metingen) en bestaat uit het herhaalde afnemen van dezelfde test, de test-hertestmethode (zie § 6.3.2). De betrouwbaarheid wordt dan bepaald door een index dat aangeeft hoe goed de scores van de meerdere afnames overeenkomen (dit kan een correlatie zijn, maar ook een ander kengetal dat de overeenkomst statistisch verwoordt). De correlatie tussen de twee testscores wordt de ▌test-hertestbetrouwbaarheid genoemd.
Bij de tweede methode om betrouwbaarheid te bepalen kan worden volstaan met één testafname. Deze methode kent ook 2 vormen. Welke 2?
- De eerste vorm bestaat uit het verdelen van de test in twee helften en staat bekend als de splitsingsmethode (zie § 6.3.3). Bij de splitsing dient te worden gestreefd naar een evenwichtige spreiding, een evenredige verdeling en/of een aselecte toewijzing van items aan een van beide helften. De test wordt vervolgens voorgelegd aan de respondenten en achteraf wordt per testhelft een ruwe score bepaald. Indien de scores op beide testhelften werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op de halve test.
- Bij de tweede vorm wordt de betrouwbaarheid van een test bepaald op basis van de inwisselbaarheid van individuele items, een minder strenge eis dan parallellie. De test wordt dan in zijn geheel voorgelegd aan een representatieve groep respondenten, waarna de scores worden gebruikt voor de berekening van de interne-consistentiecoëfficiënt. Deze interne-consistentiemethode (zie § 6.3.4) heeft als basis de covarianties tussen alle paren opgaven (de covariantie van twee variabelen is gelijk aan het product van de correlatie en de beide standaarddeviaties).
Wat is de populairste betrouwbaarheidscoëfficiënt?
Cronbach’s alfacoëfficiënt
Wat zijn de kanttekeningen bij de Cronbach’s alfacoëfficiënt?
- Allereerst is de alfa een ondergrens van de betrouwbaarheid en levert dus een systematische onderschatting van de betrouwbaarheid op.
Maar let op: enkel de alfa in de populatie (als men die kan vaststellen) is altijd kleiner of gelijk aan de werkelijke betrouwbaarheid. Dat wil zeggen dat - op haar best - de berekende alfa gelijk is aan de populatiebetrouwbaarheid.
Echter kunnen we eigenlijk vrijwel nooit de Cronbach’s alfa berekenen in de populatie. Concreet betekent dit dat een alfa in een steekproef ook bij vlagen hoger kan uitvallen dan de alfa in de populatie. Daarmee zou de alfa hoger kunnen zijn dan de werkelijke betrouwbaarheid, vooral bij kleinere steekproeven. - Daarnaast is de alfa rekenkundig afhankelijk van het aantal items in een test. Alfa neemt toe met meer items in de test. Deze toename is niet, zoals bij andere maten van interne consistentie, het gevolg van hogere inter-itemcorrelaties. Doordat alfa rekenkundig afhankelijk is van de testlengte kan bij een lange test met zeer lage inter-itemcorrelaties, ofwel een test met heterogene items, toch een hoge alfa worden gevonden. De hogere alpha geeft dan een illusie van betere interne consistentie bij langere tests.
Kun je Cronbach’s alfa’s met elkaar vergelijken?
Doordat de Cronbach’s alfa rekenkundig afhankelijk is van het aantal items, is het niet altijd gemakkelijk om alfa’s met elkaar te vergelijken, Het aantal items in de test moet namelijk ook in ogenschouw genomen worden. In § 6.4.2. wordt ingegaan op hoe de lengte van een test gemanipuleerd kan worden om hogere betrouwbaarheden te sorteren (zie verder hieronder). De formule in 6.4.2 kan ook gebruikt worden om alfa’s van schalen met verschillende testlengte met elkaar te vergelijken.
Welke formule kan worden gebruikt om te berekenen wat de alfa van een korte test zou zijn als deze even lang zou zijn als een langere test?
De Spearman-Brown formule
Hoewel veelvoorkomend, is het dus niet zo zuiver om alfa te interpreteren als een maat voor de interne consistentie of de homogeniteit van de testopgaven. Indien men de interne consistentie van een test wil weten, dan staan daarvoor andere technieken. Zoals welke?
Factoranalyse
Welke conclusie kan over het gebruik van Cronbach’s alfa worden getrokken?
Concluderend kunnen we stellen dat hoewel alfa als ondergrens van betrouwbaarheid bij grotere steekproeven gebruikt kan worden, is het beter om alfa niet als de maat van homogeniteit of eendimensionaliteit te interpreteren vanwege haar rekenkundige afhankelijkheid van het aantal items.
Hoewel de betrouwbare (ware) score niet observeerbaar is, kan deze worden geschat. De eenvoudigste schatting is de geobserveerde score; deze schatting staat los van de waarde van de betrouwbaarheid, maar is geldig omdat aangetoond kan worden dat bij een willekeurige afname de meest waarschijnlijke waarde voor de meetfout nul is. Hoe kan een meer verfijnde schatting van de betrouwbare score worden gemaakt?
Door gebruik van een regressiemodel waarin de waarde van de twee constanten door de betrouwbaarheid wordt bepaald. Beide schattingen hebben een standaarddeviatie. Onder aanname van een normale verdeling kan een betrouwbaarheidsinterval berekend worden (bij 95 procent betrouwbaarheidsinterval zullen 95 procent van de berekende intervallen de ware score bevatten).
Wanneer een test een betrekkelijk lage betrouwbaarheid heeft, kan men deze verhogen door ….
testverlenging
Hoe kan worden uitgerekend hoeveel opgaven moeten worden toegevoegd om een vereiste betrouwbaarheid te krijgen?
Welke veronderstelling geldt hierbij?
Spearman-Brownformule
erbij geldt de vooronderstelling dat de toe te voegen opgaven onderling even hoog moeten correleren als de reeds beschikbare opgaven.
Op verschillende plaatsen wordt aan de orde gesteld dat betrouwbaarheid niet een puur technische eigenschap van een test is. Het streven naar de constructie van een test met een hoge betrouwbaarheid moet gebaseerd zijn op?
Het streven naar een test die een eendimensionale eigenschap meet.
Om dat te realiseren is een grote vakinhoudelijke deskundigheid vereist. Uit een hoge betrouwbaarheid mag niet zonder meer worden afgeleid dat een eendimensionale eigenschap wordt gemeten.
Een testresultaat wordt doorgaans gebruikt om een voorspelling te doen over de toekomstige score op een bepaald criterium. Hoe wordt het voorspellingssucces uitgedrukt?
Het voorspellingssucces wordt uitgedrukt in een correlatiecoëfficiënt tussen de testscore en het criterium en wordt de validiteit van een test genoemd.
De validiteit van een test hangt ten dele af van de hoogte van de betrouwbaarheid van de test. Op welke manier?
De correlatie van testscore X met een willekeurige variabele Y zal altijd lager zijn dan of gelijk aan de wortel uit de betrouwbaarheid.
n een concreet geval zal de validiteit worden gedrukt doordat ook de betrouwbaarheid van het criterium niet 1.00 is.
Voor de theorievorming is het van belang de berekende validiteit te corrigeren met welke formule?
In welke vraag geeft de gecorrigeerde validiteit inzicht?
Attenuatiecorrectie
De gecorrigeerde validiteit kan inzicht geven in de vraag in hoeverre test en criterium een beroep doen op dezelfde psychologische eigenschap.
Wat zijn toepassingen van de Spearman Brown formule? 2x
- Vragenlijst verkorten of verlengen
- Vragenlijsten van verschillende lengtes met elkaar vergelijken
Waar heeft de vraag naar de betrouwbaarheid van een test betrekking op?
De vraag naar de betrouwbaarheid van een test heeft betrekking op de vraag in hoeverre de verkregen testscore varieert over verschillende testsessies, wanneer een test onder gelijkblijvende condities tweemaal of vaker aan dezelfde persoon wordt voorgelegd.
Welke effecten bemoeilijken de herhaalbaarheid van metingen van psychologische eigenschappen? 2x
a Geheugeneffecten: het herhaald voorleggen van dezelfde test zal vaak dezelfde testscore opleveren. De persoon zal zich kunnen herinneren wat hij/zij een vorige keer heeft geantwoord en doorgaans hetzelfde antwoord geven (consistent willen overkomen).
b Leereffecten: het herhaald afnemen van dezelfde test kan leiden tot een toename van de testscore. De persoon zal door het beantwoorden van de items bijleren en bij herhaalde afname dus vaker een ‘goed’ antwoord geven (oefenen in oplossen van specifieke problemen; aanleren van trucjes).
Wat kunnen we verstaan onder het afnemen van tests onder gelijkblijvende condities?
Onder gelijkblijvende condities vallen doorgaans allerlei kenmerken van de testomgeving en de testprocedure (gelijkblijven van items, instructie, ruimte, materiaal), de voor de meting relevante psychologische eigenschappen van de persoon (gelijkblijven van woordbegrip bij een numerieke vaardighedentest; gelijkblijven van de emotionele reactie op items) en de lichamelijke en fysiologische processen in een persoon (gelijkblijvende motoriek en/of waarneming).
Waar houdt de klassieke testtheorie zich mee bezig?
De klassieke testtheorie houdt zich bezig met het in kaart brengen van de relatieve inbreng van de voor afneming onvoorspelbare invloeden op de testprestatie en de bij afnemingen systematisch werkzame eigenschappen van personen en testsituatie.
Geef een omschrijving van het begrip ‘ware (betrouwbare) score’.
De ware (betrouwbare) score is de vaste, systematische component van de geobserveerde score. De betrouwbare score representeert de eigenschap van de persoon die men met de test wil meten.
Geef een omschrijving van het begrip ‘meetfout’.
De meetfout is de niet-systematische component van de geobserveerde score. De meetfout vertegenwoordigt toevallige en onbedoelde omstandigheden in de persoon en de testsituatie die aanleiding geven tot het lager of hoger uitvallen van de geobserveerde score, vergeleken met de ware (betrouwbare) score.
Leg uit wat bedoeld wordt met de veronderstelling dat in een populatie van personen meetfouten nergens mee correleren.
Formule 6.9 luidt als volgt: r(E,Y) = 0. Hier staat dat de meetfout van X een correlatie van 0 heeft met elke willekeurige variabele Y. Dit betekent geenszins dat de correlatie tussen X en Y gelijk is aan 0. Immers, X bestaat gedeeltelijk uit een ware score en gedeeltelijk uit een meetfout: X = T + E. Het gedeelte ware score van X kan wel degelijk correleren met Y. De meetfout (E) van X (bestaande uit allerlei toevallige omstandigheden) mag niet correleren met Y. Zou dit wel het geval zijn, dan zijn de omstandigheden niet meer toevallig.
Beredeneer dat de correlatie tussen de meetfout en X groter is dan 0 in de populatie.
Formule 6.10 luidt als volgt: r(E,X) > 0. Uitgangspunt is de formule X = T + E. Vervolgens gaan we ervan uit dat X altijd een meetfout bevat, dat betekent dat E niet gelijk is aan 0. Dan is er altijd sprake van een correlatie tussen E en X die groter is dan 0. In de populatie hebben we meerdere T’s (mensen verschillen in hun T scores). Bij een specifiek getal E kunnen dan enkele X-scores horen. We willen dat de correlatie tussen E en X zo klein mogelijk is. Als we meerdere metingen hebben bij eenzelfde persoon dan is T bij deze persoon gelijk aan één specifiek getal. De correlatie tussen X en E voor deze persoon wordt dan 1. Zie ook pagina 159 waar gesteld wordt dat bij een lineaire relatie de correlatie 1 wordt.
Wat kan men concluderen uit de formules 6.9, 6.10 en 6.11?
De conclusie uit de formules 6.9, 6.10 en 6.11 is dat meetfouten niet met de betrouwbare score correleren en evenmin met een willekeurige andere variabele. Dat betekent dat de meetfout bestaat uit toevalligheden die zich bij een tweede meting niet herhalen. Uiteraard treden er dan wel weer andere toevallige omstandigheden op die meetfouten veroorzaken.
Geef een omschrijving van het begrip ‘standaardmeetfout’.
De standaardmeetfout is de standaarddeviatie van de meetfouten die zouden optreden als de test een groot aantal malen zou worden afgenomen bij dezelfde persoon. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.
Geef een omschrijving van het begrip ‘standaardschattingsfout’.
De standaardschattingsfout is de standaarddeviatie van de fouten die het gevolg zijn van de afwijking van de geschatte ware score ten opzichte van de ware score. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.
Wat is het belang van de betrouwbaarheid [6.15] en de standaardmeetfout [6.16] in de klassieke testtheorie?
De betrouwbaarheid en de standaardmeetfout worden in de klassieke testtheorie gebruikt om een schatting te krijgen van de nauwkeurigheid van een meting met behulp van een specifieke test. Met andere woorden: beide maten worden gebruikt om een indruk te krijgen van de mate waarin de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.
Welke benaderingen voor het schatten van de betrouwbaarheid van een test worden in het algemeen onderscheiden?
De eerste benadering is gebaseerd op twee testafnemingen. Dit kunnen twee verschillende tests zijn die equivalent of inwisselbaar zijn (parallelvormmethode) of twee afnemingen van dezelfde test (test-hertestmethode). De tweede benadering is gebaseerd op één enkele testafneming. Dit kan een splitsing van de test in twee halve tests met evenveel items zijn (splitsingsmethode) of een aantal berekeningen met de scores op de items van een test, afgenomen bij een representatieve groep respondenten (interne-consistentiemethode).
Geef een omschrijving van de splitsingsmethode.
De splitsingsmethode is een manier waarop de betrouwbaarheid berekend kan worden. Het is niet de naam van formule 6.25. Volgens deze methode wordt de betrouwbaarheid geschat door de test in twee stukken te splitsen en vervolgens de correlatiecoëfficiënt van de twee testhelften te berekenen. Dit geeft een schatting van de betrouwbaarheid. Op deze manier wordt de betrouwbaarheid (rxx) van de halve test verkregen. Voor de betrouwbaarheid van de hele test moet voor K het getal 2 worden ingevuld. De hele test is immers tweemaal zo lang als de halve test. De waarde van de betrouwbaarheid wordt dan dus groter, om de eenvoudige reden dat je in de hele test meer items hebt dan in de halve test. Op pagina 213 van het handboek wordt deze berekening getoond. Formule 6.26
Kan de splitsingsmethode gebruikt worden wanneer de test te lang wordt bevonden?
De splitsingsmethode kan ook gebruikt worden als de test die afgenomen dient te worden, te lang is. Formule 6.25 dient in dit geval te worden gebruikt. Op deze manier kan nagegaan worden hoe groot de betrouwbaarheid nog is wanneer een gedeelte van de test wordt weggelaten. Omgekeerd kunnen voor een test met een lage betrouwbaarheid nieuwe items worden gemaakt, zodat de test wordt verlengd. Met behulp van formule 6.25 kan nagegaan worden wat het effect van het toevoegen van items op de betrouwbaarheid is. In het algemeen is K het quotiënt van het aantal items in de verlengde dan wel de verkorte test en het aantal items in de oorspronkelijke test. K is dus een getal groter dan 1 wanneer de test verlengd wordt, en kleiner dan 1 als de test verkort wordt. Bij testverlenging neemt de betrouwbaarheid toe, bij testverkorting wordt de betrouwbaarheid kleiner.
Wat is de meest bekende coëfficiënt voor het schatten van de betrouwbaarheid bij één testafname?
De bekendste coëfficiënt van interne consistentie is de alfacoëfficiënt. Deze coëfficiënt wordt ook vaak aangeduid met de benaming Cronbach’s alfa.
Waarom kan een maat voor interne consistentie beter niet gebruikt worden in de zin van een maat voor de homogeniteit van de items in een test?
Het gebruik van interne consistentie in de zin van de homogeniteit van de items in een test weerspiegelt de veronderstelling van vele onderzoekers dat de alfa tot uiting zou brengen in hoeverre items in een test dezelfde eigenschap(pen) meten. Aangetoond is echter dat alfa in veel gevallen toeneemt met het toenemen van het aantal items in een test en dat alfa een hoge waarde kan hebben terwijl de test in sterke mate heterogeen is. Alfa kan dus beter als maat voor de ondergrens van de betrouwbaarheid van een test gebruikt worden dan als maat voor interne consistentie in de zin van homogene items.