TT5 Flashcards
Afnemen
Het doel van het afnemen van een test (waaronder ook een vragenlijst of een systematische observatie wordt verstaan) is een zo nauwkeurig mogelijke meting van een eigenschap van de
onderzochte persoon. Om dit doel te bereiken, is het noodzakelijk dat de test qua inhoud en
meettechnische eigenschappen aan hoge eisen voldoet. Op deze vereisten wordt in andere hoofdstukken ingegaan.
In dit hoofdstuk wordt de test als een gegeven geaccepteerd; voorwaarden voor een adequate
meting zijn:
- de bereidheid tot medewerking van de onderzochte persoon en
- het vermogen van de testleider, een duidelijke uitleg te geven en een goed ‘testklimaat’ te
scheppen.
amenvattend: de testleider dient te zorgen voor een gestandaardiseerde testsituatie
Tests met een vrije-antwoordenvorm worden handmatig gescoord.
De scoringscategorieën moeten:
- zo duidelijk mogelijk zijn gedefinieerd en
- door verschillende beoordelaars op dezelfde wijze worden geïnterpreteerd
Tests met een meerkeuze-antwoordenvorm kunnen op drie manieren worden gescoord.
* In de eerste plaats wordt ook voor deze tests de handscoring genoemd. Deze scoringsvorm
bestaat doorgaans in het leggen van een sjabloon over het antwoordformulier, waarna de
verkregen scores op hetzelfde formulier of een apart scoreformulier worden genoteerd.
* Bij zelfscoring geeft de onderzochte persoon zijn antwoorden op een doordrukformulier, zodat de score van een antwoord op het onderliggende formulier direct zichtbaar is.
* Bij machinale scoring worden de antwoorden in de vorm van streepjes op een optisch leesbaar formulier gegeven. Het formulier wordt door een leesapparaat gelezen en door een
hieraan gekoppelde computer gescoord. Deze scoringsvorm is aantrekkelijk wanneer zeer
veel personen worden getest, zoals bij schoolvorderingentests,intelligentietests en multiplechoice-tentamens vaak het geval is
Bovendien is machinale scoring (voordelen):
- weinig arbeidsintensief en dus goedkoop en
- worden er geen scoringsfouten gemaakt.
Een nadeel is dat de formulieren: gevoelig zijn voor kleine afwijkingen van de gebruiksaanwijzing; hierdoor zijn zij minder geschikt voor jonge kinderen.
Testen per computer
Behalve bij de scoring kan de computer ook een rol spelen bij de afname van de test. Wanneer
een zogenoemde itembank aanwezig is, kan de computer volgens een bepaald programma een
test samenstellen. In het geval van capaciteitentests kan men op basis van de gegeven antwoorden op enkele items beslissen op welk niveau de rest van de test wordt afgenomen (zogenoemd
adaptief testen). Vergeleken met een traditionele afname levert adaptief testen een aanzienlijke tijdsbesparing op
Bewerkte scores en normen
In sommige gevallen beoogt men met een test een absolute meting te realiseren, dat wil zeggen
dat men het testresultaat alleen interpreteert als wel of niet voldoend aan een minimumnorm. Voorbeelden van een absolute meting zijn:
- vlot lezen en
- leesbaar schrijven.
n de meeste onderzoeken wordt gewerkt met een normatieve meting (ook wel vergelijkende
meting genoemd); in deze onderzoeken is men geïnteresseerd in de plaats die een persoon inneemt in de scoreverdeling van de groep waarvan hij deel uitmaakt. Een gegeven antwoord
wordt gescoord als goed of fout of behorend tot een bepaalde scoringscategorie. Doorgaans
worden bij elkaar passende scores bij elkaar opgeteld tot een ruwe totaalscore.(Gewoonlijk wordt
met de score van een persoon de ruwe totaalscore bedoeld.) De (ruwe) score moet worden omgezet in een zogenoemde genormeerde score.
Er zijn vele soorten genormeerde scores in gebruik. Onderscheid wordt gemaakt tussen
* normscores die op een rangorde van de ruwe scores zijn gebaseerd, zoals percentielen
(percentiele scores)
* normscores die op het gemiddelde en de spreiding van de ruwe scores zijn gebaseerd,
zoals lineaire standaardscores (z-scores).
persoon.
Percentielen zijn voor zowel leken als psychologen bruikbaar vanwege de ondubbelzinnige
interpretatie. Bij onderzoekers die enige kennis van statistiek hebben, zijn z-scores populair.
Een z-score geeft het aantal standaarddeviaties weer dat de oorspronkelijke score onder of
boven het gemiddelde ligt. Omdat veel scoreverdelingen min of meer normaal zijn, is een zscore gemakkelijk te koppelen aan het percentage personen dat lager scoort dan de betreffende
persoon; een z-score is in die gevallen even goed interpreteerbaar als een percentiel. Voor
communicatie met niet-statistisch geschoolden zijn z-scores minder geschikt, onder meer vanwege
het voorkomen van negatieve scores.
Wanneer men genormeerde scores gebruikt, die de oorspronkelijke vorm van een verdeling veranderen in een normale vorm, spreekt men van genormaliseerde standaardscores. Een bekend
voorbeeld zijn IQ-scores (doorgaans worden WAIS-deviatie-IQ-scores bedoeld), die genormeerd
zijn op een gemiddelde van 100 en een standaarddeviatie van 15.
Het bekendste voorbeeld van genormaliseerde percentielscores zijn stanines, een afkorting van
standard nine. Zoals de naam aangeeft, lopen stanines van1-9.
Gebruik van de stanine-schaal is aantrekkelijk, omdat;
- het aantal mogelijke scores beperkt is en
- omdat de associatie met de schaal van rapportcijfers voor de hand ligt.
Bedacht moet worden dat bij rapportcijfers het cijfer 6 voor een ‘voldoende’ en het gemiddelde staat, terwijl op de stanine-schaal 5 het gemiddelde is. Sommigen zijn van mening dat de
stanine-schaal te grof is, vooral in het midden van de verdeling.
Open vragen
1.Met de standaardisatie kunnen zich de volgende 3 problemen voordoen:
** variatie in de testsituatie ( bv temperatuursverschillen, lawaai)
** variatie in de situatie waarin de onderzochte zich bevindt (motivatie, onbevangenheid)
** variatie in het gedrag van de proefleider (zakelijk, belangstellend, sekse, leeftijd)
2.Standaardisatie is van belang als we iemands testprestatie kunnen en willen vergelijken met de
prestaties van anderen op dezelfde psychologische test. Indien niet is getest onder maximaal dezelfde testcondities en / of er voldoende of geen controle is uitgeoefend op de omstandigheden
waarin de proefpersoon getest is en / of benaderd wordt door de proefleider, zijn variaties in
testsituaties niet puur en alleen toe te schrijven aan de verschillen tussen de proefpersonen. Een
deel van de variatie zal toe te schrijven zijn aan de verschillen in testafname
3.Schafer stelde voor om langs klinisch-intuïtieve weg de testsituatie (aard en verloop van de interactie tussen proefpersoon en proefleider) in de evaluatie (van de testresultaten) te verwerken.
Bezwaar van Drenth en Sijtsma tegen dit voorstel is dat hierbij subjectieve impressies en ideeën
van de psycholoog een rol zullen gaan spelen.
Indien men uit is op het genereren van hypothesen en / of het zoeken naar wegen voor verder onderzoek , is de methode aanvaardbaar en nuttig.
Wanneer men voorspellende of classificerende uitspraken wil doen, is het beter om te proberen
zoveel mogelijk vergelijkbaarheid en objectiviteit (bij de testafname) te bewaren.
5.De voornaamste zorg bij de scoring van de keuze antwoordvorm betreft accuraatheid en efficientie.
3 mogelijkheden → handscoring, zelfscoring en machinale scoring.
Handscoring → meest bewerkelijke vorm, kost veel tijd en bij grote aantallen neemt het aantal
fouten bij de scoring toe.
Zelfscoring → hoge kosten i.v.m. de speciale scoringsformulieren
Machinale verwerking → snelste methode, de meest moderne variant is dat de proefpersoon de
antwoorden direct op de pc invult, moderne computerprogramma’s kunnen de antwoorden onmiddellijk coderen, een testscore berekenen en de onderzochte feedback geven.
6.Kanttekeningen bij de correctieformules:
** de formules houden geen rekening met het feit dat er vaak een vloeiende overgang bestaat tussen het wel en niet weten van een antwoord op de vraag.
** door partiële kennis kan dan ook geen reële giskans kleiner of groter zijn dan de theoretisch
blinde gokkans
** de formules houden ook geen rekening met het feit dat men een fout antwoord kan geven op basis van een verkeerd inzicht of onjuiste informatie, gevallen die niet gelijk zijn aan blind gokken.
** voor toeval gecorrigeerde scores geven een grotere spreiding in scores te zien, waardoor ten
onrechte zou kunnen worden geconcludeerd dat de effectiviteit van meten is toegenomen.
** de formules maken de scoring onnodig complex, waardoor de kans op fouten toeneemt.
** de formules verbeteren de predictieve (voorspellende)waarde van de testscore niet door de
bijzondere relatie die bestaat tussen de ongecorrigeerde en de gecorrigeerde testscore.
7.Technologische bijdragen m.b.t. computergebruik liggen voornamelijk in de administratieve
sfeer → afneming, opslag, administratie van items, administratie van testgegevens, rapportage.
Wetenschappelijke bijdragen liggen bijvoorbeeld in:
- de facilitatie (voorziening) van het onderzoek naar individuele verschillen en
- de mogelijkheid tot adaptief testen (inhoudelijk psychologische veranderingen; psychometrische veranderingen).
Normen van de conventionele tests kunnen niet zonder meer worden overgenomen voor de computergestuurde tests, mensen reageren anders op een pc dan op een schriftelijke test
8.Voordelen adaptief testen:
** iedere respondent krijgt een test die op haar zijn niveau is toegesneden.
** de meting van de eigenschap van een persoon vindt met grotere nauwkeurigheid plaats
** de meetwaarden van verschillende personen kunnen met elkaar vergeleken worden ook al
maken zij tests van een verschillende moeilijkheidsniveau.
8.Adaptief testen kan niet efficiënt plaatsvinden zonder een itembank waaruit de computer
items kan selecteren van gevarieerde moeilijkheid. Een dergelijke itembank dient geheel te voldoen aan de eisen van de item-respons theorie
9.Ruwe score → de basis score die nog geen verdere bewerking heeft ondergaan.
10.Bewerkte scores:
Type 1 is gebaseerd op een vergelijking met een absolute standaard.
Type 2 is gebaseerd op een deling door leeftijd, schoolklas e.d.
Type 3 is gebaseerd op de relatieve positie in een vergelijkingsgroep.
11.Norm → referentiekader voor de evaluatie van ruwe scores, dat is gebaseerd op de kenmerken
van verdeling van de ruwe scores in de populatie. Deze kenmerken worden geschat op basis
van een representatieve steekproef.