Hoofdstuk 5. Afneming en verwerking van tests Flashcards
Tests afnemen (complex)
Een test afnemen is een complex en veelzijdig proces.
• De testsituatie kan variëren van zakelijk neutraal (b.v. schriftelijke test met enkel instructie zoals een persoonlijkheidstest) tot een vorm van onderzoek die zowel voor de proefpersoon- als de proefleider een hoge mate van persoonlijke inzet vraagt (b.v. rollenspel of test voor leerpotentieel)
• Proefpersonen verschillen in motivatie, samenwerking, onbevangenheid enz. die de relatie met de proefleider beïnvloeden. Een apart probleem is test-wiseness
• Er bestaat een grote variëteit in instructietechniek en hoeveelheid oefening die voor een test nodig zijn. (RAKIT heeft b.v. veel tijd nodig).
Aspecten van standaardisatie
- Objectieve testsituatie: Goed uitgewerkte instructie en de eis aan de proefleider zich hieraan te houden. Weren van opvallende of specifieke omgevingsinvloeden.
- Gedrag van de proefpersoon. Het constant houden hiervan is een stuk moeilijker. Vermoeidheid of verwachtingen inlossen speelt mee, ook relatie met proefleider, deze dient normaal en natuurlijk te zijn. Ook motivatie of angst voor de uitslag beïnvloed de testprestatie. Een ongedwongen relatie kan hierin helpen.
- Gedrag van de proefleider. Door wisselwerking testleider-proefpersoon speelt dit vooral bij individuele test. Strikte zelfcontrole en zelfcorrectie is belangrijk.
Ondervangen van problemen van standaardisatie
Als het gaat om hypotheses vinden of wegen voor vervolgonderzoek dan kunnen de uitkomsten (ook bij problemen met standaardisatie) benoemd worden maar moeten de uitkomsten met voorzichtigheid worden gesteld. Dit omdat de subjectiviteit van de proefleiders meespeelt. Bij voorspellende of classificerende uitspraken is het belangrijk zoveel mogelijk objectiviteit en vergelijkbaarheid te trachten. Dit kan het beste worden bereikt door een zo normaal mogelijke relatie op te bouwen met een positieve, stimulerende en vriendelijke toon.
State anxiety vs. trait anxiety
State anxiety is testangst, dit kan het testen en daarmee de uitslag beïnvloeden. Trait anxiety. Angstigheid als stabiele persoonlijkheidstrek. Deze zal de test minder beïnvloeden en wordt onderscheiden in positieve en negatieve faalangst. Positieve faalangst is meer een vorm van extraversie of impulsiviteit en kan de test bevorderen.
Scoring van antwoorden
Hoe meer het scoringsproces gebaseerd is op subjectieve oordelen, hoe groter de foutenmarge. Er wordt onderscheid gemaakt tussen
• Scoring van reacties op items met open vragen. Kan verbaal en niet-verbaal. Bij scoring dreigen de gevaren van subjectiviteit en een lage overeenstemming tussen beoordelaars. Dit kan worden gereduceerd door een zo goed mogelijk coderingssysteem (een duidelijk en ondubbelzinnig stelsel van regels, b.v. checklist) en door beoordelaars goed te instrueren en te laten oefenen. Hoge overeenstemming leidt overigens nog niet tot goede validiteit.
• Scoring van geprecodeerde items. Nauwkeurigheid en efficiëntie zijn hierbij van belang. Er zijn drie mogelijkheden voor scoring. Handscoring (goede en foute of niet gemaakte opgaven worden geteld. Problemen zijn tijdsduur en (correctie van) gemaakte fouten), zelfscoring (onder het antwoordformulier ligt een ander vel waar de juiste antwoorden direct op zichtbaar worden. Is efficiënter maar ook duurder) en machinale scoring (met potloodstreepje op een optisch leesbaar formulier, of via beeldscherm. Directe berekening, normvergelijking en terugkoppeling. Ook controle op kwaliteitskenmerken van de test mogelijk).
Toevalscorrectie
Door goed te gokken kan een proefpersoon een beter resultaat behalen bij meerkeuzevragen. Hiervoor is een toevalscorrectie nodig.
A= aantal antwoordmogelijkheden per item
X= aantal juiste antwoorden door kennis
Xc= aantal juiste antwoorden door gissen
k= aantal items
Stel: A = 4
-> Gokkans (success) = 1/A = 1⁄4
-> Gokkans (fout) = (A-1)/A = 3⁄4 → tegenover 1 goed gegokt antwoord staan 3 fouten.
Er zijn drie soorten antwoorden.
• Goede antwoorden ten gevolge van kennis
• Goede antwoorden ten gevolge van gokken
• Foute antwoorden ten gevolge van gokken.
Aantal fouten is: k-X. Deze deel je door het aantal fout gegokte vragen (A-1). Hiermee krijg je het aantal goed gegokte vragen. Van het totale aantal goede vragen X trek je het aantal goed gegokte vragen af. Dit is Xc. Deze formule geldt alleen voor gevallen waarbij partiële kennis niet bestaat.
Binominale verdeling
De verdeling van het aantal successen in een reeks van onafhankelijke alternatieven.
Toevalscorrectie bij aantal niet beantwoorde items
Wanneer respondenten voor niet beantwoorde items alsnog punten ontvangen kan daar ook een correctie op gemaakt worden.
Xf= aantal fouten.
k-X-Xf is dan het aantal items dat onbeantwoord is gebleven.
Kritiek op toevalscorrecties
- De formules gaan uit van vooronderstelling dat er een scherp onderscheid bestaat tussen wel en niet weten. Dit gaat voorbij aan partiële kennis: proefpersoon weet wel iets maar niet om met zekerheid antwoord te geven. Door partiële kennis wordt de reële giskans groter of kleiner dan de theoretische, blinde giskans. B.v. door het kunnen wegstrepen van foute antwoorden. Dit leidt tot overcorrectie.
- Het is ook mogelijk dat iemand een fout antwoord geeft op basis van verkeerd inzicht. Er is niet gegist. Het aftrekken van punten van het aantal goede antwoorden kan als onrechtvaardig worden gezien.
- De voor toeval gecorrigeerde testscores Xc hebben een grotere variantie (spreiding) dan X waardoor ten onrechte zou kunnen worden geconcludeerd dat de effectiviteit van meten is toegenomen. Dit kan doorwerken als resultaat het gevolg is van deeltesten die worden samengenomen
- Er is een lineaire relatie tussen X en Xc. De correlatie r van beide is dan 1. De giscorrectie heeft voor onderlinge ordening geen gevolgen. Daarnaast wordt de predictieve (voorspellende) waarde op de criteriumscore niet verbetert door de formules en is de nauwkeurigheid of betrouwbaarheid voor X en Xc gelijk.
Door genoemde bezwaren is conclusie dat correctieformules beter niet kunnen worden gebruikt. Gisstrategie is voor iedereen voordeliger dan een vraag open laten. Beter is de aftestgrens te herijken (grens van slagen of zakken), en gokkans als
ondergrens van beoordelingsschaal te hanteren. Bij meerkeuzevragen is de beste scoringsmethode eenvoudigweg het tellen van het aantal goede antwoorden (geen correctie of herijking).
Weging van itemscores
Het is verleidelijk de items die de eigenschap beter meten zwaarder te wegen. Gebleken is echter dat weging van items maar weinig invloed heeft op de betrouwbaarheid en validiteit. Als je over het laatste ontevreden bent zijn betere strategieën dan weging:
• Meer items in de test opnemen. = meer info = grotere betrouwbaarheid.
• Beter nadenken over inhoud van de items. = betere representatie van de te meten eigenschap = meer validiteit.
Technologische bijdragen en veranderingen door gebruik computers
Testen, coderen en terugkoppeling gaat sneller. Het veranderen, toevoegen en verwijderen van items idem. Wel moet onthouden worden dat de betrouwbaarheid en validiteit van testscores kunnen veranderen bij verandering van items.
• Itembank. De computer biedt de mogelijkheid tot aanleg itembank. Behalve items kunnen de moeilijkheid van het item (p-waarde), kwaliteit van afleiders in vorm van frequentieverdeling en administratieve gegevens opgeslagen worden.
• Online-testing. Docent komt in directe zin niet meer aan te pas. Surveillance is belangrijk om fraude te voorkomen.
• Diagnostische toetsen. Zoals b.v. de cognitive skills diagnostics. Hiermee kan d.m.v. een verzameling van goed gekozen items geschat worden wat de mate van beheersing is van de vaardigheden die nodig zijn om een item op te lossen. Dit kan binnen onderwijs helpen om leerlingen die deelvaardigheden missen te
ondersteunen.
• Vorm van items (b.v. film of audiofragmenten), wijze van reageren (b.v. typen, slepen), type verzamelde gegevens (b.v. reactietijd, goed/fout), scoring van items.
Wetenschappelijke bijdrage en veranderingen door gebruik computers
De computer kan een bijdrage leveren aan de meting van intelligentiecomponenten. Vooral de mogelijkheid op het meten van individuele verschillen in ruimtelijk-visueel redeneren, geheugen en aandacht en het bepalen van leerpotentieel zou zonder pc moeilijker zijn.
Problemen die met pc kunnen voortkomen zijn testangst en ervaring met computers, dit laatste loopt steeds meer terug. Er is onderzoek gedaan naar gebruik pc en schriftelijk op de itemsvormen goud/fout, meerkeuze en matching. Op matching bleek bij pc-gebruik een lagere score en minder aantal veranderingen of pogingen dan schriftelijk. Bij de andere twee was geen verschil. Ook bij persoonlijkheidsvragenlijsten was er slechts gering verschil. Normering van conventionele test mag zodoende niet zonder meer overgenomen worden voor pc test.
Adaptief testen
Test is toegespitst op eigen niveau. Hierdoor is grote verzameling items nodig in itembank. Deze itembank vervangt de standaardtest (waarbij iedereen dezelfde krijgt) en de item-responstheorie vervangt de klassieke testtheorie. De kans op goed of fout is even groot. Computergestuurde adaptief testen zijn in staat om zich aan te passen aan het niveau van de cliënt. Hoe meer items, hoe meer nauwkeurigheid daarin.
Item respons theorie
De meting van een eigenschap van een persoon met een bepaald item heeft de grootste nauwkeurigheid als de moeilijkheid van het item en het niveau van de persoon op die psychologische eigenschap, beide gemeten op dezelfde schaal, samenvallen. Is dit het geval, dan is de subjectieve kans op een positief antwoord op het item gelijk aan 0,5.
Verschillen klassieke test en computer adaptief test
- Bij klassiek krijgt iedereen dezelfde test gepresenteerd waardoor de succeskans sterk afwijkt van 0,5. Adaptief testen lost dit probleem op.
- Adaptief test met een lengte van de helft van de lengte van standaardtest is even nauwkeurig.