Thema 2 Flashcards
Normgroep
Een soort steekproef die men bij de ontwikkeling van een nieuwe test trekt uit een bepaalde populatie. De samenstelling van de normgroep is cruciaal bij relatief meten. Een normgroep dient aan een aantal kwaliteitscriteria te voldoen (EFPA en COTAN).
EFPA kwaliteitscriteria normgroep
(1) Testen met een lage inzet
(2) Testen met een hoge inzet
COTAN kwaliteitscriteria normgroep
(1) Testen voor minder belangrijke beslissingen op individueel niveau
(2) Testen voor belangrijke beslissingen op individueel niveau.
Belangrijke beslissingen: beslissingen die op basis van de testscores worden genomen, die in principe, of op korte termijn, onomkeerbaar zijn, en die voor een belangrijk deel buiten de geteste persoon om worden genomen.
Onderscheidt testen met lage inzet/minder belangrijke beslissingen en testen met hoge inzet/belangrijke beslissingen
De gevolgen van de beslissingen, gebaseerd op de testresultaten, en of degene die getest wordt al dan niet inspraak heeft in deze beslissing.
Representatieve steekproef
EFPA: Een steekproef is representatief voor de bedoelde populatie indien de samenstelling van de steekproef voor een aantal variabelen vergelijkbaar is met die van de populatie, en wanneer de steekproef verzameld werd met behulp van een stochastisch steekproefmodel.
COTAN: Een steekproef is representatief als de samenstelling ervan voor een aantal variabelen overeenkomt met die van de betreffende populatie, waarbij de steekproef wordt verkregen m.b.v een aselect steekproefmodel.
3 overeenkomstige elementen:
(1) Representativiteit geldt voor een aantal variabelen.
(2) De verhouding van de deelgroepen in de steekproef is gelijk aan de verhouding van de deelgroepen in de populatie. Er dient gekeken te worden naar de combinatie van de verschillende variabelen.
(3) De proefpersonen zijn geselecteerd middels een stochastisch of aselect steekproefmodel.
Een beperkte niet-significante afwijking ten opzichte van de verdeling van de populatie is geoorloofd. Of een afwijking significant is kan bijvoorbeeld getoetst worden middels de chi-kwadraat toets. Een andere manier om met een kleine afwijking van de verdeling in de populatie om te gaan is een weging toe te passen op een of meer strata.
Gestratificeerde steekproef
Wanneer voor een variabele verschillende deelgroepen of strata onderscheiden worden. Ook als je geen statistisch significante verschillen verwacht moet je steekproef toch gestratificeerd zijn om de gegevens van beide deelgroepen of strata te kunnen gebruiken. Als het niet zinvol is om deelgroepen te onderscheiden hoeft het niet (zie p. 6 tekst 3). Niet enkel het construct dat je wilt meten, bepaalt voor welke variabelen de steekproef gestratificeerd dient te worden, ook voor wie de vragenlijst bedoeld is, is hiervoor relevant.
Kwaliteitscentrum voor Diagnostiek variabelen
Aangeraden wordt om deelgroepen te onderscheiden in een steekproef met betrekking tot geslacht, leeftijd, nationaliteit/etnisch culturele achtergrond en regio. In de praktijk is dit niet altijd mogelijk. Naast deze vier variabelen moet je ok deelgroepen onderscheiden van die variabelen die mogelijk een invloed hebben op het construct dat gemeten wordt.
Aselect of stochastisch steekproefmodel
De proefpersonen voor de steekproef zijn op een zodanige wijze gerekruteerd dat iedereen uit de populatie een even grote kans heeft om in een steekproef terecht te komen. Mogelijke selectie kan plaatsvinden door de manier waarop een oproep wordt gedaan, betalen voor deelname, eigen netwerk aanspreken proefleider etc. Daarnaast dient deelname vrijwillig te zijn en mag dit enkel na het geven van geïnformeerde toestemming.
Weging toepassen
Door een weging toe te passen krijgt de groep die ondervertegenwoordigd is in de steekproef meer gewicht en/of krijgt de groep die oververtegenwoordigd is minder gewicht. Bij analyses op een gewogen steekproef lijkt het alsof er meer proefpersonen uit de ondervertegenwoordigde groep in de steekproef zitten en/of minder van de oververtegenwoordigde groep. Na weging sluit de verdeling in de steekproef beter aan bij die in de populatie en dit zonder da tje extra proefpersonen moet rekruteren voor je normgroep.
Wegingsfactor > 1 betekent dat aan de scores van die groep meer gewicht wordt toegekend; en vice versa. De wegingsfactor die toegepast mag worden is beperkt; oververtegenwoordiging is geen probleem, maar bij ondervertegenwoordiging is maximaal een factor 2 acceptabel; dit betekent dat de score van elke proefpersoon uit de groep waarvoor gewogen wordt dubbel meetelt. Een zwaardere weging is niet verantwoord, omdat bepaalde toevallige fluctuaties in de scores van een proefpersoon dan te zwaar zouden doorwegen in de uiteindelijke gewogen steekproef en dus in de normtabel die wordt toegepast op basis van deze gewogen steekproef. Om dit reden wordt oververtegenwoordiging dus niet als een probleem beschouwd.
Wanneer mogen niet-Vlaamse normgegevens gebruikt worden
Een steekproef dient te bestaan uit Vlaamse proefpersonen; gebeurt dit niet dan kan dit aanleiding geven tot een verschuiving in normgegevens (evenals bij een selectieve steekproeftrekking) en dat is niet wenselijk.
Wanneer het niet mogelijk is om Vlaamse normgegevens te verzamelen, bijvoorbeeld omwille van de kostprijs, dan mogen niet-Vlaamse normen gebruikt worden wanneer schaalequivalentie wordt aangetoond.
Daarnaast is het belangrijk om dit duidelijk te rapporteren in je verslag en voorzichtig te zijn met conclusies.
Belang van een recente steekproef
Ondertussen kan een verschuiving optreden in de populatie wat betreft het concept dat gemeten wordt. Dit betekent dat de interpretatie van de bekomen normscore niet correct meer is. Bijvoorbeeld Flynn-effect intelligentie.
EFPA en COTAN hebben criteria voor wat zij als voldoende recente normgegevens beschouwen.
EFPA:
Onvoldoende (20 jaar of ouder)
Voldoende (tussen 15 en 19 jaar oud)
Goed (tussen 10 en 14 jaar oud)
Uitstekend (minder dan 10 jaar oud)
COTAN:
Onvoldoende: na 20 jaar
Verouderd: na 15 jaar
Schaalequivalentie
Dit betekent dat de testuitgever bewijst dat de normgegevens in de oorspronkelijke niet-Vlaamse groep dezelfde zijn als in een groep Vlaamse proefpersonen. Voordeel; deze analyses kunnen op een kleinere steekproef worden uitgevoerd dan degene die nodig is om nieuwe, Vlaamse normen op te stellen.
COTAN zal de normen van een test die gebaseerd zijn op louter Vlaamse normen als onvoldoende beoordelen. Andersom betekent een beoordeling van de normen als goed door de COTAN niet automatisch dat deze beoordeling ook geldt voor gebruik in Vlaanderen.
Voldoende grote steekproef
Klassieke normering: gebaseerd op de verdeling van de proefpersonen uit de normgroep: rangscores, standaardscores op basis van lineaire transformatie, standaardscores die genormaliseerd worden op basis van niet-lineaire transformatie.
EFPA:
- Gebruik met lage inzet
Onvoldoende: < 200
Voldoende : 200-299
Goed: 300-999
Uitstekend: minstens 1000
- Gebruik met hoge inzet
Onvoldoende: 200-299
Voldoende: 300-399
Goed: 400-999
Uitstekend: minstens 1000
COTAN:
- Minder belangrijke beslissingen op individueel niveau
Onvoldoende: < 200
Voldoende: 200-299
Goed: minstens 300
- Belangrijke beslissingen op individueel niveau
Onvoldoende: < 300
Voldoende: 300-399
Goed: minstens 400
Nadeel klassieke normering: wanneer veel afzonderlijke normtabellen opgesteld moeten worden, kan het vereiste totaal aantal proefpersonen erg groot worden –> continu normering
Continu normering: de scores die behaald werden door alle proefpersonen uit de volledige normgroep worden gebruikt om via statistische software een lijn te laten schatten, die het best past bij de geobserveerde scores. Lijn wordt dusdanig getrokken dat de afwijkingen van de observaties ten opzichte van deze lijn zo klein mogelijk zijn. Vervolgens wordt deze lijn gebruikt om voor elke leeftijdsgroep te voorspellen welke score verwacht wordt dat iemand van deze leeftijd behaald. De verwachte score en de afwijking ten opzichte van deze score wordt vervolgens gebruikt om voor elke leeftijdsgroep de normtabel op te stellen. Verwachte score voor een bepaalde leeftijd = schaalgemiddelde.
Bij klassieke normering voor verschillende leeftijdsgroepen worden afzonderlijke normtabellen opgesteld, waardoor elke normtabel enkel gebaseerd is op de gegevens van de proefpersonen uit de normgroep van die bepaalde leeftijd. Elke leeftijdsgroep moet daarom voldoend aan de criteria van de EFPA en de COTAN. Bij continu normering wordt bij het schatten van de best passende lijn de gegevens van de proefpersonen van alle leeftijdsgroepen uit de normgroep gebruikt. Aan de hand van de lijn wordt per leeftijdsgroep ene ruwe score voorspeld, die word gebruikt om normtabellen op te stellen. Elke normtabel is daarom gebaseerd p[ gegevens van de volledige normgroep, waardoor minder proefpersonen nodig zin. Er zijn tot op heden nog geen duidelijke criteria opgesteld om te bepalen hoeveel proefpersonen beschouwd worden als voldoende of als goed in het geval van continu normering. Ook bij continu normering is het mogelijk om afzonderlijke normtabellen op te stellen voor bijvoorbeeld jongens en meisjes. Voor elke deelsteekproef wordt dan de best passende lijn geschat en vervolgens gebruikt om een normtabel op te stellen.
Regressie: statistische methode waarmee de best passende lijn wordt geschat. Kan op verschillende manieren geschat worden.
Rangscores
Op basis van het percentage proefpersonen uit de normgroep dat een bepaalde of een lagere score behaalde.
Standaardscores op basis van lineaire transformatie
Uitgevoerd aan de hand van het rekenkundig gemiddelde en de standaarddeviatie van de ruwe scores.
Standaardscores die genormaliseerd worden op basis van niet-lineaire transformatie
Uitgevoerd op basis van de percentielen van de ruwe scores, die gelinkt worden aan de percentielen onder de normale verdeling.
Validiteit
Meet de test wat het behoort te meten. Een test kan niet valide zijn, zonder ook betrouwbaar te zijn.
Het is nodig om de validiteit van een testscore vast te stellen, wanneer deze wordt gebruikt voor een bepaald doel; de interpretatie van een score bij een bepaald doel. Niet is de Rorschach valide, maar is de depressie index van de Rorschach valide voor het identificeren van ernst van depressie?
Validiteit is niet een kwestie van alles of niets; sommige testen kunnen geen validiteit hebben voor een bepaald doel, maar er zijn geen testscores die perfect valide zijn voor een bepaald doel. Gekeken moet worden of de mate van validiteit volstaat. Bijvoorbeeld: in welke mate is de depressie index van de Rorschach valide voor het identificeren van ernst van depressie?
Betrouwbaarheid
Gaat over de consistentie van de metingen. Een test kan betrouwbaar zijn, zonder dat deze valide is.
Betrouwbare test
Een test die consistent dezelfde score voor een individu oplevert. De score kan gerepliceerd worden op zijn minst binnen een bepaalde foutmarge.
Wat is geen bron van onbetrouwbaarheid
Echte veranderingen binnen de gemeten trek.
Constante fouten (constant errors)
Een fout die ertoe leidt dat de score van een individu systematisch hoog of laag, ongeacht de stabiliteit in de status van de persoon op de eigenschap die wordt gemeten. Betrouwbaarheid ziet niet op constante fouten, maar enkel op niet-systematische fouten.
Wat zijn bronnen van onbetrouwbaarheid
Alles wat leidt tot niet-systematische variatie in testscores. Er zijn vier hoofdcategorieën: (1) testscoring, (2) testinhoud, (3) afnamecondities, (4) persoonlijke omstandigheden.
Test scoring
Variatie in test scoring is een bron van onbetrouwbaarheid. Dit kan bijvoorbeeld het gevolg zijn van verschillen in scoring tussen personen (scoorder 1 en scoorder 2) (wie scoort de antwoorden). Een groter probleem bij open vragen. Deze variatie kan geëlimineerd worden door scoring door machines bij meerkeuzevragen. Hoe meer menselijke beoordeling nodig is, hoe meer deze bron van onbetrouwbaarheid een rol kan spelen. Indien menselijke beoordeling noodzakelijk is, is het belangrijk om scoringhandleidingen te hebben.
Test content
Variaties in de selectie van items in een test kan resulteren in niet-systematische fouten in testscores. De scores van individuen zijn hoger of lager als gevolg random veranderingen in een bepaalde set van items in de test, niet als gevolg van echte verschillen in de trek die wordt gemeten.
Test administration conditions
Een test dient gestandaardiseerde procedures voor afname te hebben. Het gaat daarbij om factoren zoals instructies, tijdlimieten en fysieke regels omtrent afname.
Personal conditions
De tijdelijke condities van personen die de test maken kunnen niet-systematische invloeden hebben op de testscores. Variaties in deze factoren leiden niet automatisch tot onbetrouwbaarheid, het kan zijn dat factoren de prestatie op de test niet beïnvloeden. Dit betreft een empirische vraag.
True score theory
(1) Classical test theory (CTT), (2) item response theory (IRT), (3) generalizability theory (GT). De meerderheid van de informatie omtrent betrouwbaarheid in testhandleiding, tijdschriften en rapporten over scoring is gebaseerd op CTT.
Classical test theory (CTT)
O = observed score = echte score van een individu op een test = ruwe score/standaardscore.
T = true score = score die en persoon zou krijgen wanneer alle bronnen van onbetrouwbaarheid werden weggenomen = gemiddelde score op basis van meerdere afnames van de test op verschillende momenten en in verschillende condities –> deze score hebben we nooit echt, enkel de geobserveerde score.
E = error score = T - O; deze score kan positief of negatief zijn.
r (reliability) = variantie T/variantie O
= variantie O - variantie E/ variantie O
Methoden om betrouwbaarheid vast te stellen
(1) test-retest betrouwbaarheid
Test-retest reliability
Dezelfde test wordt op meerdere momenten afgenomen bij hetzelfde individu. De tijd tussen twee momenten varieert meestal tussen een dag en een maand.
r = correlatie tussen scores op moment 1 en scores op moment 2 = stability coefficient.
Het helpt bij het verminderen van de invloed van veranderingen in persoonlijke condities, maar helpt niet bij de invloed van veranderingen in testinhoud, omdat dezelfde test op meerdere momenten wordt afgenomen. Soms kan het ook helpen bij de invloed van testafname als bron van onbetrouwbaarheid, afhankelijk van of de test in dezelfde omgeving/door dezelfde persoon wordt afgenomen. Soms kan het ook helpen bij de invloed van inter-scorer variation, afhankelijk van of de test wordt gescoord door dezelfde persoon op beide momenten.
Nadelen test-retest reliability: (1) houdt geen rekening met niet-systematische fouten als gevolg van testinhoud, (2) behalve voor simpele testen is het een lastige taak om de test-hertest betrouwbaarheid te verkrijgen, (3) de eerste testafname kan invloed hebben op de tweede afname.
Daarnaast is ook de tijdsduur tussen beide momenten van afname belangrijk; interval moet lang genoeg zijn om te zorgen dat de eerste afname minimale invloed heeft op de tweede afname, maar aan de andere kant moet het interval ook niet te lang zijn, omdat een trek misschien echte veranderingen doorgaat tussen twee momenten van afname.
Inter-scorer reliability/inter-observer reliability/inter-rater reliability
Niet-systematische variantie is het gevolg van wie de test scoort. Dezelfde test wordt tweemaal gescoord, door twee individuen.
r = correlatie tussen scores van scoorder 1 en scoorder 2.
Bij meer dan twee scoorders wordt de intraclass correlation coefficient (ICC) gebruikt in plaats van de pearson correlation.
De scoorders dienen onafhankelijk te weren, ze dienen niet beïnvloed te worden door de andere scoorder.
Deze vorm van betrouwbaarheid ziet op variatie tussen scoorders, maar geeft geen informatie over een andere bron van fouten
Alternate form reliability/parallel form reliability/equivalent form reliability
Er worden twee of meer versies van testen afgenomen. Deze dienen vergelijkbaar te zijn in termen van hoeveelheid items, tijdslimieten, inhoudspecificaties en andere factoren. Beide versies worden bij dezelfde persoon afgenomen.
r = correlatie tussen score op versie 1 en score op versie 2.
Beide versies kunnen afgenomen worden achter elkaar als ze kort en niet te veeleisend zijn.
Worden beide versies direct na elkaar afgenomen, dan wordt enkel onbetrouwbaarheid als gevolg van testinhoud gemeten. Is er een interval tussen beide afnames, dan wordt ook onbetrouwbaarheid als gevolg van test-retest betrouwbaarheid, veranderingen in persoonlijke condities en afnamecondities gemeten.
Niet alle testen hebben een alternatieve versie; daarom wordt dit niet zeer frequent gemeten.
Internal consistency reliability
Een van de meest gebruikte methoden. Drie methoden: (1) split-half, (2) Kuder-Richardson, (3) coefficient alpha.
Split-half reliability (internal consistency)
Een test, die in twee delen wordt gescoord, alsof ieder helft een alternatieve versie is van de test. Vervolgens wordt de correlatie berekend tussen de twee helften van de test. Een soort van mini-alternate forms meting van betrouwbaarheid.
Odd-even reliability: split-half reliability in which even numbers are scored and odd-numbers.
De correlatie tussen beide helften van de test geeft geen informatie over de betrouwbaarheid van de hele test, tenzij de Spearman-Brown correction wordt toegepast.
Kuder-Richardson formulas (internal consistency)
KR-20 en KR-21 werden vroeger veel gebruikt. Gingen uit van items met twee zijden (ja/nee, goed/fout etc.).
Coefficient Alpha (internal consistency)
Vereist in tegenstelling tot de Kuder-Richardson formulas geen items met twee zijden.
Coefficient alpha = Chronbach’s alpha.
Elk item kan gezien worden als een mini-versie van de test. Er kan dan gekeken worden hoe elk item overeenstemt met al de andere items (mini-forms) in de test.
- Wanneer de hoeveelheid items toeneemt, neemt betrouwbaarheid toe.
- Wanneer de inter-item correlatie toeneemt, neemt de betrouwbaarheid toe.
Wanneer er een grote hoeveelheid items is en de inter-item correlatie is laag, dan is de betrouwbaarheid nog relatief hoog. Alpha steunt op de gemiddelde correlatie tussen items, en de hoeveelheid items is ook belangrijk. Alpha geeft de mate aan waarin items in de test hetzelfde construct of trek meten. Het is een meting van item homogeniteit: mate waarin de items vergelijkbaar zijn in wat zij meten.
Het is een meting van onbetrouwbaarheid als gevolg van content sampling, maar niet van testafname, persoonlijke condities of scoring.
De metingen van interne consistentie zijn niet geschikt voor speeded tests.
Standard error of measurement (SEM)
SEM = SD * wortel (1-r)
SEM = standaarddeviatie van een hypothetisch oneindige hoeveelheid scores rondom de true score van een persoon.
Als r = 1 dan SEM = 0
Als r = 0 dan SEM = SD test
SEM kan gebruikt worden om een betrouwbaarheidsinterval te verkrijgen.
68% true score (+/- 1 SEM) van geobserveerde score.
Standard errors
(1) Standard error of measurement, (2) standard error of the mean, (3) standard error of estimate/standard error of prediction.
(1) SD van een hypothetische populatie geobserveerde scores verdeelt rondom de werkelijke score van een individu.
(2) SD van een hypothetische populatie van steekproefgemiddelden verdeelt rondom het populatiegemiddelde. Gebruikt voor tests of significance (t-testen, z-testen).
(3) SD van de echte Y-waarden rondom de geschatte Y-waarden, waneer Y wordt geschat aan de hand van X.
Hoe hoog moet betrouwbaarheid zijn
(1) Afhankelijk van wat je wil doen met de test; bij belangrijke beslissing of zware weging resultaat –> hoge betrouwbaarheid (.90 of hoger), bij meerdere bronnen –> gemiddelde betrouwbaarheid, bij groepsgemiddeldes –> nog minder betrouwbaarheid volstaat.
Excellent: .90 of hoger
Goed: .80-.89 –> andere informatie dient bekeken te worden naast de score.
Voldoende: .70-.79 –> bedachtzaam zijn en andere informatie dient bekeken te worden naast de score.
Research use: .60-.69
<.60 –> andere test
Construct
Een trek of karakteristiek. Bijvoorbeeld depressie of rekenvaardigheden. Een test meet idealiter het complete construct.