H5: Afnemen en verwerken Flashcards
Hoe moet de testafname verlopen om het mogelijk te maken om informatie uit de test goed te interpreteren en tussen respondenten te vergelijken?
zo gestandaardiseerd mogelijk
Wat zijn de voorwaarden voor een adequate meting? 3x
- afwezigheid van storende omgevingsinvloeden
- bereidheid tot medewerking van de onderzochte persoon
- Vermogen van de testleider een duidelijke uitleg te geen en een goed testklimaat te scheppen
Hoe worden tests met een open-antwoordvorm gescoord?
Wat is daarbij belangrijk? 2x
Handmatig
Op welke 3 manieren kunnen tests met een meerkeuze-antwoordvorm worden gescoord?
- Handscoring bestaat doorgaans uit het leggen van een sjabloon over het antwoordformulier, waarna de verkregen scores op hetzelfde formulier of een apart scoreformulier worden genoteerd.
- Bij zelfscoring geeft de onderzochte persoon zijn antwoorden op een doordrukformulier, zodat de score van een antwoord op het onderliggende formulier direct zichtbaar is.
- Bij machinale scoring worden de vragen via een computer afgenomen. In het boek wordt ook de inmiddels iets verouderde vorm beschreven waarin de antwoorden in de vorm van streepjes op een optisch leesbaar formulier gegeven. Het formulier wordt door een leesapparaat gelezen en door een computer gescoord. Machinale scoring is aantrekkelijk wanneer zeer veel personen worden getest, zoals bij schoolvorderingentests, intelligentietests en multiple-choicetentamens. Bovendien is machinale scoring weinig arbeidsintensief en dus goedkoop en worden er geen scoringsfouten gemaakt.
Wat zijn 2 lastigheden bij het scoren van antwoorden op meerkeuzetests?
- De onderzochte kan door te raden een hogere score krijgen
- De weging van items: moeten alle items even zwaar meetellen voor de te meten eigenschap?
Hoe wordt de lastigheid bij scoren van antwoorden op meerkeuzetests namelijk het gissen opgelost?
door toevalscorrecties toe te passen
Wat is adaptief testen?
De respondent krijgt items voorgelegd die zijn toegespitst o zijn of haar (ingeschatte) niveau.
Iedere respondent krijgt dus een andere subset van vragen, namelijk vragen die voor deze respondent het meest informatief zijn om zijn of haar niveau in te schatten.
Wat is er voor nodig om adaptief te kunnen testen?
Voor adaptief testen is een grote itembank noodzakelijk met items die variëren in moeilijkheidsniveau
Wat is een voordeel van adaptief testen?
Tijdsbesparing
Waarom wordt er in de praktijk vaak met bewerkte scores gewerkt?
Omdat ruwe scores op tests meestal op zichzelf weinig betekenis hebben.
Welke 3 typen bewerkte scores zijn er?
- Score vergelijken met een absolute standaard
- Testscores delen door een andere variabele (bijv. leeftijd) en daardoor onafhankelijk gemaakt van die variabele bijv. IQ
- Relatieve positie in een referentiegroep
Let erop dat pas wanneer de testscores worden vergeleken met een representatieve steekproef waarvan de kenmerken bekend zijn, er wordt gesproken over een genormeerde score.
Er zijn vele soorten genormeerde scores in gebruik. Onderscheid wordt gemaakt tussen welke 2 normscores?
- normscores die op een rangorde van de ruwe scores zijn gebaseerd, zoals percentielen (percentielscores),
- normscores die op het gemiddelde en de spreiding van de ruwe scores zijn gebaseerd, zoals standaardscores (onder andere z-scores en genormaliseerde standaardscores)
Bij onderzoekers die enige kennis van statistiek hebben, zijn z-scores populair. Wat geeft deze aan?
Een z-score geeft het aantal standaarddeviaties weer dat de ruwe score onder of boven het gemiddelde ligt. Als de scoreverdeling min of meer normaal is, is een z-score gemakkelijk te koppelen aan het percentage personen dat lager scoort dan de desbetreffende persoon; een z-score is in die gevallen even goed interpreteerbaar als een percentiel. Voor communicatie met niet-statistisch geschoolden zijn z-scores minder geschikt, onder meer vanwege het voorkomen van negatieve scores.
Wanneer spreekt men van een genormaliseerde standaardscore?
Wanneer men genormeerde scores gebruikt, waarbij de oorspronkelijke vorm van een verdeling is omgezet in een normaalverdeling.
Wat is het bekendste voorbeeld van een genormaliseerde score?
Stanines (afkorting van standard nine)
Waarom is het gebruik van een stanineschaal aantrekkelijk?
Zoals de naam aangeeft, lopen stanines van 1–9. Gebruik van de stanineschaal is aantrekkelijk, omdat het aantal mogelijke scores beperkt is en omdat de associatie met de schaal van rapportcijfers voor de hand ligt. Hierbij moet wel bedacht worden dat rapportcijfers lopen van 1 tot 10 en het cijfer 6 voor een ‘voldoende’ staat, terwijl op de stanineschaal 5 het gemiddelde is. Verder zijn sommigen van mening dat de stanineschaal te grof is, vooral in het midden van de verdeling.
Ten aanzien van welke ‘zaken’ kunnen zich problemen voordoen met standaardisatie?
- variatie in de testsituatie (bijvoorbeeld temperatuurverschillen, schrijfcondities, individuele of groepsgewijze afname);
- variatie in de situatie waarin de onderzochte verkeert (bijvoorbeeld motivatie, coöperatie, onbevangenheid);
- variatie in het gedrag van de proefleider (bijvoorbeeld zakelijk, belangstellend, sekse, leeftijd).
Waarom is standaardisatie van belang en wat is het gevolg van niet-gestandaardiseerde testafname?
Standaardisatie is van belang indien we iemands testprestatie willen kunnen vergelijken met de prestaties van anderen op dezelfde psychologische test. Indien niet getest is onder maximaal gelijke testcondities en/of er onvoldoende of geen controle is uitgeoefend op de omstandigheden waarin de proefpersoon getest is en/of benaderd wordt door de proefleider, zijn variaties in testprestaties niet puur en alleen toe te schrijven aan verschillen tussen de proefpersonen. Een deel van de variatie zal toe te schrijven zijn aan verschillen in de testafnames.
Wat is volgens de auteurs het bezwaar tegen de klinisch-intuïtieve weg? Waarom of wanneer is het voorstel bezwaarlijk?
Volgens de klinisch-intuïtieve weg kunnen elementen van de testsituatie (aard en verloop van de interactie tussen onderzochte en proefleider) in de evaluatie (van de testresultaten) worden verwerkt. Het bezwaar van Drenth en Sijtsma tegen dit voorstel is dat hierbij subjectieve impressies en ideeën van de psycholoog een rol zullen gaan spelen. Indien men uit is op het genereren van hypothesen en/of het zoeken naar wegen voor verder onderzoek, is de methode aanvaardbaar en nuttig. Wanneer men echter voorspellende of classificerende uitspraken wil doen, is het beter om te trachten zo veel mogelijk vergelijkbaarheid en objectiviteit (bij de testafname!) te bewaren.
Wat wordt geadviseerd en wat wordt afgeraden ten aanzien van de score bij de open-vraagvorm?
Bij tests die een open-vraagvorm hebben, doen zich gevaren van subjectiviteit en lage interbeoordelaarbetrouwbaarheid voor. Ter reductie van deze gevaren is een volledig, duidelijk en ondubbelzinnig coderingssysteem vereist. Zonder een voldoende interbeoordelaarovereenstemming is het onmogelijk tot zinvolle uitspraken en predicties te komen. Ook is validiteitsonderzoek op basis van onvoldoende betrouwbare variabelen een verspilling van tijd. Van belang is bij het gebruik van de open-vraagvorm zo veel mogelijk vooraf de beslissingen omtrent de coderingen te nemen en de coderingswerkzaamheden zo veel mogelijk te delegeren aan een belangeloze medewerker. Ad-hoccodering dient om reden van contaminatie vermeden te worden.
Welke scoringsvormen kunnen onderscheiden worden ten aanzien van reacties op geprecodeerde items? Welke voor- en/of nadelen zijn aan elke vorm verbonden?
De voornaamste zorg bij de scoring van meerkeuzevragen betreft accuraatheid en efficiëntie. Men kan bij de scoring een keuze maken uit drie mogelijkheden:
- de handscoring, de zelfscoring en de machinale scoring. De handscoring is de meest bewerkelijke scoringsmethode. Bij grotere aantallen testformulieren neemt de tijdsduur en (de correctie van) het aantal fouten toe.
- De methode van zelfscoring leidt tot een aanzienlijk snellere en efficiëntere verwerking dan de methode van de handscoring. Omdat iedere onderzochte echter de beschikking dient te hebben over speciale scoringsformulieren, waarvan de corrector eenvoudig de markeringen kan overnemen, is het per situatie de vraag of de grotere efficiëntie opweegt tegen de hogere kosten voor het materiaal.
- De snelste methode van verwerking is de machinescoring. Hoe groter de schaal waarop getest wordt en hoe routinematiger de afname (CITO-toetsen en tentamens), hoe meer machinale scoring aangewezen is. De modernste scoringsvariant is die waarbij de testafname op de computer geschiedt en de onderzochte de antwoorden rechtstreeks in de computer invoert. Moderne computerprogrammatuur maakt het bovendien mogelijk de antwoorden onmiddellijk te coderen, een testscore te berekenen en de onderzochte feedback te verschaffen.
Welke kanttekeningen kunnen gemaakt worden bij het gebruik van formules voor toevalscorrectie?
- De formules houden geen rekening met het feit dat er vaak een vloeiende overgang bestaat tussen het wel en niet weten van het juiste antwoord op een vraag. Door partiële kennis kan dan ook een reële giskans groter of kleiner zijn dan de theoretische, blinde giskans.
- De formules houden ook geen rekening met het feit dat men een fout antwoord kan geven op basis van een verkeerd inzicht of onjuiste informatie, gevallen die niet gelijk zijn aan blind gissen.
- Voor toeval gecorrigeerde scores geven een grotere spreiding in scores te zien, waardoor ten onrechte zou kunnen worden geconcludeerd dat de effectiviteit van meten is toegenomen. De formules maken de scoring (onnodig) complex, waardoor de kans op fouten toeneemt.
- En, tot slot, de formules verbeteren de predictieve waarde van de testscore niet door de bijzondere relatie die bestaat tussen de ongecorrigeerde en de gecorrigeerde testscore.
Op welke vlakken doen zich mogelijkheden en problemen voor als gevolg van het gebruik van computers voor testafname en scoring?
De computer levert zowel op het technologische als het wetenschappelijke vlak een bijdrage aan de testpraktijk.
Technologische bijdragen liggen voornamelijk in de administratieve sfeer (afneming, opslag en administratie van items; administratie van testgegevens; rapportage).
Wetenschappelijke bijdragen liggen bijvoorbeeld in de facilitatie van het onderzoek naar individuele verschillen en de mogelijkheid tot adaptief testen (inhoudelijk-psychologische veranderingen; psychometrische veranderingen).
Problemen van computergebruik houden verband met het feit dat personen anders kunnen reageren op een conventionele schriftelijke testafname dan op een afname per computer. Normen behorend bij een conventionele test kunnen dus niet zonder meer worden overgenomen voor de computergestuurde testversie.
Wat zijn de voordelen van en de voorwaarden bij adaptief testen?
De voordelen van adaptief testen bestaan daarin dat
1. iedere respondent een test krijgt voorgelegd die op zijn of haar niveau is toegesneden;
2. de meting van de eigenschap van een persoon met grotere nauwkeurigheid plaatsvindt dan bij de klassieke wijze van testen;
3. de meetwaarden van verschillende personen met elkaar vergeleken kunnen worden ondanks dat zij tests van verschillend moeilijkheidsniveau hebben gemaakt.
Adaptief testen kan niet (efficiënt) plaatsvinden zonder een itembank waaruit de computer items kan selecteren van gevarieerde moeilijkheid. Een dergelijke itembank dient geheel te voldoen aan de eisen van de item-responstheorie. (Of voldaan wordt aan deze eisen dient dus eerst langs empirische weg vastgesteld te worden!)
Wat wordt bedoeld met ‘de ruwe score’?
De basisscore waarin in eerste instantie de testuitslag wordt uitgedrukt, noemen we de ruwe score (bijvoorbeeld aantal goed, aantal fout, aantal pogingen). De ruwe score is dus in ieder geval een eerste score die geen verdere bewerking heeft ondergaan.
Welke 3 typen bewerkte scores kunnen onderscheiden worden?
Het eerste type bewerkte scores is gebaseerd op een vergelijking met een absolute standaard;
het tweede type is gebaseerd op een deling door leeftijd, schoolklas en dergelijke;
het derde type is gebaseerd op de relatieve positie in een vergelijkingsgroep.
Wat wordt onder een norm verstaan?
Onder een norm verstaan we een referentiekader voor de evaluatie van de ruwe scores, dat is gebaseerd op de kenmerken van de distributie van de ruwe scores in een populatie. Deze kenmerken worden geschat op basis van een representatieve steekproef.
Wanneer is het gewenst en wanneer onnodig om normen te berekenen?
Met het gebruik van normen worden de grenzen van de groep die men onderzoekt, doorbroken; de toevalligheden van de groep (qua niveau, qua spreiding) hebben geen invloed op de beoordeling van het individu, omdat in feite een vergelijking wordt getrokken van deze score met de scoreverdeling binnen de referentiegroep.
Het is onnodig normen te berekenen of te gebruiken indien men geïnteresseerd is in bijvoorbeeld de rangschikking van een persoon binnen de onderzochte groep of het percentage goede antwoorden dat men moet halen om zelfstandig te mogen werken. Is men voor onderzoeksdoeleinden geïnteresseerd in de samenhang tussen test- en criteriumscore, dan kan men zich beperken tot ruwe scores.