Thema 2 Flashcards
(104 cards)
Normgroep
Een soort steekproef die men bij de ontwikkeling van een nieuwe test trekt uit een bepaalde populatie. De samenstelling van de normgroep is cruciaal bij relatief meten. Een normgroep dient aan een aantal kwaliteitscriteria te voldoen (EFPA en COTAN).
EFPA kwaliteitscriteria normgroep
(1) Testen met een lage inzet
(2) Testen met een hoge inzet
COTAN kwaliteitscriteria normgroep
(1) Testen voor minder belangrijke beslissingen op individueel niveau
(2) Testen voor belangrijke beslissingen op individueel niveau.
Belangrijke beslissingen: beslissingen die op basis van de testscores worden genomen, die in principe, of op korte termijn, onomkeerbaar zijn, en die voor een belangrijk deel buiten de geteste persoon om worden genomen.
Onderscheidt testen met lage inzet/minder belangrijke beslissingen en testen met hoge inzet/belangrijke beslissingen
De gevolgen van de beslissingen, gebaseerd op de testresultaten, en of degene die getest wordt al dan niet inspraak heeft in deze beslissing.
Representatieve steekproef
EFPA: Een steekproef is representatief voor de bedoelde populatie indien de samenstelling van de steekproef voor een aantal variabelen vergelijkbaar is met die van de populatie, en wanneer de steekproef verzameld werd met behulp van een stochastisch steekproefmodel.
COTAN: Een steekproef is representatief als de samenstelling ervan voor een aantal variabelen overeenkomt met die van de betreffende populatie, waarbij de steekproef wordt verkregen m.b.v een aselect steekproefmodel.
3 overeenkomstige elementen:
(1) Representativiteit geldt voor een aantal variabelen.
(2) De verhouding van de deelgroepen in de steekproef is gelijk aan de verhouding van de deelgroepen in de populatie. Er dient gekeken te worden naar de combinatie van de verschillende variabelen.
(3) De proefpersonen zijn geselecteerd middels een stochastisch of aselect steekproefmodel.
Een beperkte niet-significante afwijking ten opzichte van de verdeling van de populatie is geoorloofd. Of een afwijking significant is kan bijvoorbeeld getoetst worden middels de chi-kwadraat toets. Een andere manier om met een kleine afwijking van de verdeling in de populatie om te gaan is een weging toe te passen op een of meer strata.
Gestratificeerde steekproef
Wanneer voor een variabele verschillende deelgroepen of strata onderscheiden worden. Ook als je geen statistisch significante verschillen verwacht moet je steekproef toch gestratificeerd zijn om de gegevens van beide deelgroepen of strata te kunnen gebruiken. Als het niet zinvol is om deelgroepen te onderscheiden hoeft het niet (zie p. 6 tekst 3). Niet enkel het construct dat je wilt meten, bepaalt voor welke variabelen de steekproef gestratificeerd dient te worden, ook voor wie de vragenlijst bedoeld is, is hiervoor relevant.
Kwaliteitscentrum voor Diagnostiek variabelen
Aangeraden wordt om deelgroepen te onderscheiden in een steekproef met betrekking tot geslacht, leeftijd, nationaliteit/etnisch culturele achtergrond en regio. In de praktijk is dit niet altijd mogelijk. Naast deze vier variabelen moet je ok deelgroepen onderscheiden van die variabelen die mogelijk een invloed hebben op het construct dat gemeten wordt.
Aselect of stochastisch steekproefmodel
De proefpersonen voor de steekproef zijn op een zodanige wijze gerekruteerd dat iedereen uit de populatie een even grote kans heeft om in een steekproef terecht te komen. Mogelijke selectie kan plaatsvinden door de manier waarop een oproep wordt gedaan, betalen voor deelname, eigen netwerk aanspreken proefleider etc. Daarnaast dient deelname vrijwillig te zijn en mag dit enkel na het geven van geïnformeerde toestemming.
Weging toepassen
Door een weging toe te passen krijgt de groep die ondervertegenwoordigd is in de steekproef meer gewicht en/of krijgt de groep die oververtegenwoordigd is minder gewicht. Bij analyses op een gewogen steekproef lijkt het alsof er meer proefpersonen uit de ondervertegenwoordigde groep in de steekproef zitten en/of minder van de oververtegenwoordigde groep. Na weging sluit de verdeling in de steekproef beter aan bij die in de populatie en dit zonder da tje extra proefpersonen moet rekruteren voor je normgroep.
Wegingsfactor > 1 betekent dat aan de scores van die groep meer gewicht wordt toegekend; en vice versa. De wegingsfactor die toegepast mag worden is beperkt; oververtegenwoordiging is geen probleem, maar bij ondervertegenwoordiging is maximaal een factor 2 acceptabel; dit betekent dat de score van elke proefpersoon uit de groep waarvoor gewogen wordt dubbel meetelt. Een zwaardere weging is niet verantwoord, omdat bepaalde toevallige fluctuaties in de scores van een proefpersoon dan te zwaar zouden doorwegen in de uiteindelijke gewogen steekproef en dus in de normtabel die wordt toegepast op basis van deze gewogen steekproef. Om dit reden wordt oververtegenwoordiging dus niet als een probleem beschouwd.
Wanneer mogen niet-Vlaamse normgegevens gebruikt worden
Een steekproef dient te bestaan uit Vlaamse proefpersonen; gebeurt dit niet dan kan dit aanleiding geven tot een verschuiving in normgegevens (evenals bij een selectieve steekproeftrekking) en dat is niet wenselijk.
Wanneer het niet mogelijk is om Vlaamse normgegevens te verzamelen, bijvoorbeeld omwille van de kostprijs, dan mogen niet-Vlaamse normen gebruikt worden wanneer schaalequivalentie wordt aangetoond.
Daarnaast is het belangrijk om dit duidelijk te rapporteren in je verslag en voorzichtig te zijn met conclusies.
Belang van een recente steekproef
Ondertussen kan een verschuiving optreden in de populatie wat betreft het concept dat gemeten wordt. Dit betekent dat de interpretatie van de bekomen normscore niet correct meer is. Bijvoorbeeld Flynn-effect intelligentie.
EFPA en COTAN hebben criteria voor wat zij als voldoende recente normgegevens beschouwen.
EFPA:
Onvoldoende (20 jaar of ouder)
Voldoende (tussen 15 en 19 jaar oud)
Goed (tussen 10 en 14 jaar oud)
Uitstekend (minder dan 10 jaar oud)
COTAN:
Onvoldoende: na 20 jaar
Verouderd: na 15 jaar
Schaalequivalentie
Dit betekent dat de testuitgever bewijst dat de normgegevens in de oorspronkelijke niet-Vlaamse groep dezelfde zijn als in een groep Vlaamse proefpersonen. Voordeel; deze analyses kunnen op een kleinere steekproef worden uitgevoerd dan degene die nodig is om nieuwe, Vlaamse normen op te stellen.
COTAN zal de normen van een test die gebaseerd zijn op louter Vlaamse normen als onvoldoende beoordelen. Andersom betekent een beoordeling van de normen als goed door de COTAN niet automatisch dat deze beoordeling ook geldt voor gebruik in Vlaanderen.
Voldoende grote steekproef
Klassieke normering: gebaseerd op de verdeling van de proefpersonen uit de normgroep: rangscores, standaardscores op basis van lineaire transformatie, standaardscores die genormaliseerd worden op basis van niet-lineaire transformatie.
EFPA:
- Gebruik met lage inzet
Onvoldoende: < 200
Voldoende : 200-299
Goed: 300-999
Uitstekend: minstens 1000
- Gebruik met hoge inzet
Onvoldoende: 200-299
Voldoende: 300-399
Goed: 400-999
Uitstekend: minstens 1000
COTAN:
- Minder belangrijke beslissingen op individueel niveau
Onvoldoende: < 200
Voldoende: 200-299
Goed: minstens 300
- Belangrijke beslissingen op individueel niveau
Onvoldoende: < 300
Voldoende: 300-399
Goed: minstens 400
Nadeel klassieke normering: wanneer veel afzonderlijke normtabellen opgesteld moeten worden, kan het vereiste totaal aantal proefpersonen erg groot worden –> continu normering
Continu normering: de scores die behaald werden door alle proefpersonen uit de volledige normgroep worden gebruikt om via statistische software een lijn te laten schatten, die het best past bij de geobserveerde scores. Lijn wordt dusdanig getrokken dat de afwijkingen van de observaties ten opzichte van deze lijn zo klein mogelijk zijn. Vervolgens wordt deze lijn gebruikt om voor elke leeftijdsgroep te voorspellen welke score verwacht wordt dat iemand van deze leeftijd behaald. De verwachte score en de afwijking ten opzichte van deze score wordt vervolgens gebruikt om voor elke leeftijdsgroep de normtabel op te stellen. Verwachte score voor een bepaalde leeftijd = schaalgemiddelde.
Bij klassieke normering voor verschillende leeftijdsgroepen worden afzonderlijke normtabellen opgesteld, waardoor elke normtabel enkel gebaseerd is op de gegevens van de proefpersonen uit de normgroep van die bepaalde leeftijd. Elke leeftijdsgroep moet daarom voldoend aan de criteria van de EFPA en de COTAN. Bij continu normering wordt bij het schatten van de best passende lijn de gegevens van de proefpersonen van alle leeftijdsgroepen uit de normgroep gebruikt. Aan de hand van de lijn wordt per leeftijdsgroep ene ruwe score voorspeld, die word gebruikt om normtabellen op te stellen. Elke normtabel is daarom gebaseerd p[ gegevens van de volledige normgroep, waardoor minder proefpersonen nodig zin. Er zijn tot op heden nog geen duidelijke criteria opgesteld om te bepalen hoeveel proefpersonen beschouwd worden als voldoende of als goed in het geval van continu normering. Ook bij continu normering is het mogelijk om afzonderlijke normtabellen op te stellen voor bijvoorbeeld jongens en meisjes. Voor elke deelsteekproef wordt dan de best passende lijn geschat en vervolgens gebruikt om een normtabel op te stellen.
Regressie: statistische methode waarmee de best passende lijn wordt geschat. Kan op verschillende manieren geschat worden.
Rangscores
Op basis van het percentage proefpersonen uit de normgroep dat een bepaalde of een lagere score behaalde.
Standaardscores op basis van lineaire transformatie
Uitgevoerd aan de hand van het rekenkundig gemiddelde en de standaarddeviatie van de ruwe scores.
Standaardscores die genormaliseerd worden op basis van niet-lineaire transformatie
Uitgevoerd op basis van de percentielen van de ruwe scores, die gelinkt worden aan de percentielen onder de normale verdeling.
Validiteit
Meet de test wat het behoort te meten. Een test kan niet valide zijn, zonder ook betrouwbaar te zijn.
Het is nodig om de validiteit van een testscore vast te stellen, wanneer deze wordt gebruikt voor een bepaald doel; de interpretatie van een score bij een bepaald doel. Niet is de Rorschach valide, maar is de depressie index van de Rorschach valide voor het identificeren van ernst van depressie?
Validiteit is niet een kwestie van alles of niets; sommige testen kunnen geen validiteit hebben voor een bepaald doel, maar er zijn geen testscores die perfect valide zijn voor een bepaald doel. Gekeken moet worden of de mate van validiteit volstaat. Bijvoorbeeld: in welke mate is de depressie index van de Rorschach valide voor het identificeren van ernst van depressie?
Betrouwbaarheid
Gaat over de consistentie van de metingen. Een test kan betrouwbaar zijn, zonder dat deze valide is.
Betrouwbare test
Een test die consistent dezelfde score voor een individu oplevert. De score kan gerepliceerd worden op zijn minst binnen een bepaalde foutmarge.
Wat is geen bron van onbetrouwbaarheid
Echte veranderingen binnen de gemeten trek.
Constante fouten (constant errors)
Een fout die ertoe leidt dat de score van een individu systematisch hoog of laag, ongeacht de stabiliteit in de status van de persoon op de eigenschap die wordt gemeten. Betrouwbaarheid ziet niet op constante fouten, maar enkel op niet-systematische fouten.
Wat zijn bronnen van onbetrouwbaarheid
Alles wat leidt tot niet-systematische variatie in testscores. Er zijn vier hoofdcategorieën: (1) testscoring, (2) testinhoud, (3) afnamecondities, (4) persoonlijke omstandigheden.
Test scoring
Variatie in test scoring is een bron van onbetrouwbaarheid. Dit kan bijvoorbeeld het gevolg zijn van verschillen in scoring tussen personen (scoorder 1 en scoorder 2) (wie scoort de antwoorden). Een groter probleem bij open vragen. Deze variatie kan geëlimineerd worden door scoring door machines bij meerkeuzevragen. Hoe meer menselijke beoordeling nodig is, hoe meer deze bron van onbetrouwbaarheid een rol kan spelen. Indien menselijke beoordeling noodzakelijk is, is het belangrijk om scoringhandleidingen te hebben.