Hoofdstuk 5. Afneming en verwerking van tests Flashcards by Janet Ham

Tests afnemen (complex)

Een test afnemen is een complex en veelzijdig proces.
• De testsituatie kan variëren van zakelijk neutraal (b.v. schriftelijke test met enkel instructie zoals een persoonlijkheidstest) tot een vorm van onderzoek die zowel voor de proefpersoon- als de proefleider een hoge mate van persoonlijke inzet vraagt (b.v. rollenspel of test voor leerpotentieel)
• Proefpersonen verschillen in motivatie, samenwerking, onbevangenheid enz. die de relatie met de proefleider beïnvloeden. Een apart probleem is test-wiseness
• Er bestaat een grote variëteit in instructietechniek en hoeveelheid oefening die voor een test nodig zijn. (RAKIT heeft b.v. veel tijd nodig).

How well did you know this?

Not at all

Perfectly

Aspecten van standaardisatie

Objectieve testsituatie: Goed uitgewerkte instructie en de eis aan de proefleider zich hieraan te houden. Weren van opvallende of specifieke omgevingsinvloeden.
Gedrag van de proefpersoon. Het constant houden hiervan is een stuk moeilijker. Vermoeidheid of verwachtingen inlossen speelt mee, ook relatie met proefleider, deze dient normaal en natuurlijk te zijn. Ook motivatie of angst voor de uitslag beïnvloed de testprestatie. Een ongedwongen relatie kan hierin helpen.
Gedrag van de proefleider. Door wisselwerking testleider-proefpersoon speelt dit vooral bij individuele test. Strikte zelfcontrole en zelfcorrectie is belangrijk.

How well did you know this?

Not at all

Perfectly

Ondervangen van problemen van standaardisatie

Als het gaat om hypotheses vinden of wegen voor vervolgonderzoek dan kunnen de uitkomsten (ook bij problemen met standaardisatie) benoemd worden maar moeten de uitkomsten met voorzichtigheid worden gesteld. Dit omdat de subjectiviteit van de proefleiders meespeelt. Bij voorspellende of classificerende uitspraken is het belangrijk zoveel mogelijk objectiviteit en vergelijkbaarheid te trachten. Dit kan het beste worden bereikt door een zo normaal mogelijke relatie op te bouwen met een positieve, stimulerende en vriendelijke toon.

How well did you know this?

Not at all

Perfectly

State anxiety vs. trait anxiety

State anxiety is testangst, dit kan het testen en daarmee de uitslag beïnvloeden. Trait anxiety. Angstigheid als stabiele persoonlijkheidstrek. Deze zal de test minder beïnvloeden en wordt onderscheiden in positieve en negatieve faalangst. Positieve faalangst is meer een vorm van extraversie of impulsiviteit en kan de test bevorderen.

How well did you know this?

Not at all

Perfectly

Scoring van antwoorden

Hoe meer het scoringsproces gebaseerd is op subjectieve oordelen, hoe groter de foutenmarge. Er wordt onderscheid gemaakt tussen
• Scoring van reacties op items met open vragen. Kan verbaal en niet-verbaal. Bij scoring dreigen de gevaren van subjectiviteit en een lage overeenstemming tussen beoordelaars. Dit kan worden gereduceerd door een zo goed mogelijk coderingssysteem (een duidelijk en ondubbelzinnig stelsel van regels, b.v. checklist) en door beoordelaars goed te instrueren en te laten oefenen. Hoge overeenstemming leidt overigens nog niet tot goede validiteit.
• Scoring van geprecodeerde items. Nauwkeurigheid en efficiëntie zijn hierbij van belang. Er zijn drie mogelijkheden voor scoring. Handscoring (goede en foute of niet gemaakte opgaven worden geteld. Problemen zijn tijdsduur en (correctie van) gemaakte fouten), zelfscoring (onder het antwoordformulier ligt een ander vel waar de juiste antwoorden direct op zichtbaar worden. Is efficiënter maar ook duurder) en machinale scoring (met potloodstreepje op een optisch leesbaar formulier, of via beeldscherm. Directe berekening, normvergelijking en terugkoppeling. Ook controle op kwaliteitskenmerken van de test mogelijk).

How well did you know this?

Not at all

Perfectly

Toevalscorrectie

Door goed te gokken kan een proefpersoon een beter resultaat behalen bij meerkeuzevragen. Hiervoor is een toevalscorrectie nodig.
A= aantal antwoordmogelijkheden per item
X= aantal juiste antwoorden door kennis
Xc= aantal juiste antwoorden door gissen
k= aantal items
Stel: A = 4
-> Gokkans (success) = 1/A = 1⁄4
-> Gokkans (fout) = (A-1)/A = 3⁄4 → tegenover 1 goed gegokt antwoord staan 3 fouten.
Er zijn drie soorten antwoorden.
• Goede antwoorden ten gevolge van kennis
• Goede antwoorden ten gevolge van gokken
• Foute antwoorden ten gevolge van gokken.
Aantal fouten is: k-X. Deze deel je door het aantal fout gegokte vragen (A-1). Hiermee krijg je het aantal goed gegokte vragen. Van het totale aantal goede vragen X trek je het aantal goed gegokte vragen af. Dit is Xc. Deze formule geldt alleen voor gevallen waarbij partiële kennis niet bestaat.

How well did you know this?

Not at all

Perfectly

Binominale verdeling

De verdeling van het aantal successen in een reeks van onafhankelijke alternatieven.

How well did you know this?

Not at all

Perfectly

Toevalscorrectie bij aantal niet beantwoorde items

Wanneer respondenten voor niet beantwoorde items alsnog punten ontvangen kan daar ook een correctie op gemaakt worden.
Xf= aantal fouten.
k-X-Xf is dan het aantal items dat onbeantwoord is gebleven.

How well did you know this?

Not at all

Perfectly

Kritiek op toevalscorrecties

De formules gaan uit van vooronderstelling dat er een scherp onderscheid bestaat tussen wel en niet weten. Dit gaat voorbij aan partiële kennis: proefpersoon weet wel iets maar niet om met zekerheid antwoord te geven. Door partiële kennis wordt de reële giskans groter of kleiner dan de theoretische, blinde giskans. B.v. door het kunnen wegstrepen van foute antwoorden. Dit leidt tot overcorrectie.
Het is ook mogelijk dat iemand een fout antwoord geeft op basis van verkeerd inzicht. Er is niet gegist. Het aftrekken van punten van het aantal goede antwoorden kan als onrechtvaardig worden gezien.
De voor toeval gecorrigeerde testscores Xc hebben een grotere variantie (spreiding) dan X waardoor ten onrechte zou kunnen worden geconcludeerd dat de effectiviteit van meten is toegenomen. Dit kan doorwerken als resultaat het gevolg is van deeltesten die worden samengenomen
Er is een lineaire relatie tussen X en Xc. De correlatie r van beide is dan 1. De giscorrectie heeft voor onderlinge ordening geen gevolgen. Daarnaast wordt de predictieve (voorspellende) waarde op de criteriumscore niet verbetert door de formules en is de nauwkeurigheid of betrouwbaarheid voor X en Xc gelijk.

Door genoemde bezwaren is conclusie dat correctieformules beter niet kunnen worden gebruikt. Gisstrategie is voor iedereen voordeliger dan een vraag open laten. Beter is de aftestgrens te herijken (grens van slagen of zakken), en gokkans als
ondergrens van beoordelingsschaal te hanteren. Bij meerkeuzevragen is de beste scoringsmethode eenvoudigweg het tellen van het aantal goede antwoorden (geen correctie of herijking).

How well did you know this?

Not at all

Perfectly

Weging van itemscores

Het is verleidelijk de items die de eigenschap beter meten zwaarder te wegen. Gebleken is echter dat weging van items maar weinig invloed heeft op de betrouwbaarheid en validiteit. Als je over het laatste ontevreden bent zijn betere strategieën dan weging:
• Meer items in de test opnemen. = meer info = grotere betrouwbaarheid.
• Beter nadenken over inhoud van de items. = betere representatie van de te meten eigenschap = meer validiteit.

How well did you know this?

Not at all

Perfectly

Technologische bijdragen en veranderingen door gebruik computers

Testen, coderen en terugkoppeling gaat sneller. Het veranderen, toevoegen en verwijderen van items idem. Wel moet onthouden worden dat de betrouwbaarheid en validiteit van testscores kunnen veranderen bij verandering van items.
• Itembank. De computer biedt de mogelijkheid tot aanleg itembank. Behalve items kunnen de moeilijkheid van het item (p-waarde), kwaliteit van afleiders in vorm van frequentieverdeling en administratieve gegevens opgeslagen worden.
• Online-testing. Docent komt in directe zin niet meer aan te pas. Surveillance is belangrijk om fraude te voorkomen.
• Diagnostische toetsen. Zoals b.v. de cognitive skills diagnostics. Hiermee kan d.m.v. een verzameling van goed gekozen items geschat worden wat de mate van beheersing is van de vaardigheden die nodig zijn om een item op te lossen. Dit kan binnen onderwijs helpen om leerlingen die deelvaardigheden missen te
ondersteunen.
• Vorm van items (b.v. film of audiofragmenten), wijze van reageren (b.v. typen, slepen), type verzamelde gegevens (b.v. reactietijd, goed/fout), scoring van items.

How well did you know this?

Not at all

Perfectly

Wetenschappelijke bijdrage en veranderingen door gebruik computers

De computer kan een bijdrage leveren aan de meting van intelligentiecomponenten. Vooral de mogelijkheid op het meten van individuele verschillen in ruimtelijk-visueel redeneren, geheugen en aandacht en het bepalen van leerpotentieel zou zonder pc moeilijker zijn.
Problemen die met pc kunnen voortkomen zijn testangst en ervaring met computers, dit laatste loopt steeds meer terug. Er is onderzoek gedaan naar gebruik pc en schriftelijk op de itemsvormen goud/fout, meerkeuze en matching. Op matching bleek bij pc-gebruik een lagere score en minder aantal veranderingen of pogingen dan schriftelijk. Bij de andere twee was geen verschil. Ook bij persoonlijkheidsvragenlijsten was er slechts gering verschil. Normering van conventionele test mag zodoende niet zonder meer overgenomen worden voor pc test.

How well did you know this?

Not at all

Perfectly

Adaptief testen

Test is toegespitst op eigen niveau. Hierdoor is grote verzameling items nodig in itembank. Deze itembank vervangt de standaardtest (waarbij iedereen dezelfde krijgt) en de item-responstheorie vervangt de klassieke testtheorie. De kans op goed of fout is even groot. Computergestuurde adaptief testen zijn in staat om zich aan te passen aan het niveau van de cliënt. Hoe meer items, hoe meer nauwkeurigheid daarin.

How well did you know this?

Not at all

Perfectly

Item respons theorie

De meting van een eigenschap van een persoon met een bepaald item heeft de grootste nauwkeurigheid als de moeilijkheid van het item en het niveau van de persoon op die psychologische eigenschap, beide gemeten op dezelfde schaal, samenvallen. Is dit het geval, dan is de subjectieve kans op een positief antwoord op het item gelijk aan 0,5.

How well did you know this?

Not at all

Perfectly

Verschillen klassieke test en computer adaptief test

Bij klassiek krijgt iedereen dezelfde test gepresenteerd waardoor de succeskans sterk afwijkt van 0,5. Adaptief testen lost dit probleem op.
Adaptief test met een lengte van de helft van de lengte van standaardtest is even nauwkeurig.

How well did you know this?

Not at all

Perfectly

Ruwe score

De basisscore waarin de testuitslag als eerste in wordt uitgedrukt. B.v. het aantal goede of foute antwoorden, de som van de scores op de rating scale, aantal mislukte pogingen op een handvaardigheidstest, enz. Wordt meestal door telling berekend.
De formule voor Ruwe score is: waarbij
k = Aantal items.
g = Identificatienummer van de items
Xg = De score op het item (fout = 0, goed = 1, of rating 0 tot 4)

Typen bewerkte scores

Gebaseerd op een vergelijking met een absolute standaard.
Gebaseerd op een deling door b.v. leeftijd of schoolklas (verhoudingsnormen)
Gebaseerd op de relatieve positie in een referentiegroep (rangorde)

Norm v.s. bewerkte score

Niet iedere bewerkte score heeft een normkarakter. De norm is een referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd op de kenmerken van de verdeling van de ruwe scores in een populatie. Deze kenmerken worden geschat op basis van een representatieve steekproef. Diverse bewerkingen zijn onafhankelijk van de prestaties van anderen. Afhankelijkheid van de scores van anderen is voorwaarde om te kunnen spreken van testnormen.

Wanneer wel of niet normen berekenen

Met het gebruik van normen worden de grenzen van de groep die men onderzoekt, doorbroken; de toevalligheden van de groep (qua niveau, qua spreiding) hebben geen invloed op de beoordeling van het individu, omdat in feite een vergelijking wordt getrokken van deze score met de scoreverdeling binnen de referentiegroep. Het is onnodig normen te berekenen of te gebruiken indien men geïnteresseerd is in bijvoorbeeld de rangschikking van een persoon binnen de onderzochte groep of het percentage goede antwoorden dat men moet halen om zelfstandig te mogen werken. Is men voor onderzoeksdoeleinden geïnteresseerd in de samenhang tussen test- en criteriumscore, dan kan men zich beperken tot ruwe scores.

Bewerkte score vergelijken met een absolute standaard

De testprestatie wordt beoordeeld zonder die van anderen de betrekken. De vraag is: hoe goed is de prestatie in vergelijking met een absolute norm? Dus niet in vergelijking met de populatie. Dit kan bij het meten van kennis, inzicht of vaardigheden. Je wilt bij een schooltoets weten hoe goed iemand de stof beheerst, je hebt niets aan informatie over vergelijking met een ander.
Criterion-referenced-measurement = absoluut meten. Norm-referenced-measurement = normatief meten.
Bij absolute normering is een analyse van de doelen (dat wat je wilt evalueren) essentieel, ook de betrouwbaarheid is zeer belangrijk.

Bewerkte scores vergelijking op verhoudingsnorm + voorbeeld

Bij bewerking van scores om te kijken naar de verhoudingsnorm wordt de testscore gedeeld door een andere variabele (b.v. leeftijd of klasse) en daardoor onafhankelijk gemaakt van die variabele. De bekendste vorm is de formule voor het berekenen van het IQ waarbij de ML wordt gedeeld door de CL. De ML wordt berekend door eerst de basale leeftijd te toetsen. Dit is de laatste leeftijd (norm in de test) waarop nog geen fouten worden gemaakt. Daarna telt elk goed beantwoorde opgave voor 1⁄4 jaar. De mentale leeftijd wordt dan b.v. 6 (na 6 fouten gemaakt) + 12/4 (12 = aantal goede antwoorden na 6) = 9. Stel dat dit kind in werkelijkheid 10,5 is dan is het IQ (9/10,5)x100= 85.7 = 86.

Kritiek op IQ begrip

• De formule suggereert dat ML en CL vergelijkbare grootheden zijn. Dit is niet het geval. Door te delen met CL vergelijk je de testprestatie met anderen.
• IQ is niet constant. Psychologische groei wordt beïnvloed door verschillende lichamelijke factoren, motivatie, leermogelijkheden enz.
• ML heeft een bovengrens (topleeftijd), hierdoor zijn oudere mensen in het nadeel (immers:ML constant en CL oplopend). Daarnaast lopen intellectuele functies
terug bij ouder worden = meer nadeel ouderen
• Niet veel tests voldoen aan de eis van een evenredig toenemende spreiding bij hogere leeftijden. Wanneer men deelt door een steeds grotere noemer (toenemende leeftijd), moet spreiding van de prestaties op hogere leeftijden steeds groter worden om de breuk constant te houden.

Bewerkte scores vergelijking rangorde

Dit is de eenvoudigste vorm van vergelijking van testprestaties tussen individuen. De bewerkte score is het rangnummer: score 1 voor eerste positie enz. Dit leidt niet tot een norm want de rangscores zijn verbonden aan de specifieke groep en groepsgrootte. Zonder kennis van groepsgrootte en buiten de groep heeft deze score geen betekenis.

Percentielscores berekenen

Bij vergelijking op rangorde hoef je geen kennis te hebben van de groepsgrootte als je de percentielscores berekend. De percentielen zijn de 99 punten die een frequentieverdeling verdeling in 100 groepen van dezelfde grootte. Als meerdere mensen dezelfde ruwe score heeft kan je niet zeggen dat de één een lagere percentielscore heeft dan de ander. De percentielscore wordt dan berekend d.m.v. lineaire interpolatie. Stel 28% v.d. respondenten heeft een ruwe score lager dan 61. 34% heeft een ruwe score lager dan 62. Dan heeft 34-28=6% een score gelijk aan 62. 62 loopt eigenlijk van 61,5-62,5 dus precies op de helft daarvan vind je 62. Dit maakt de som dan 28 + 0,5 x 6 = 31. Percentielscores zijn onafhankelijk van groepsgrootte, wel afhankelijk van niveau, spreiding en andere kenmerken van de groep. Dit laatste geldt niet bij percentiele norm waarin een schatting wordt gemaakt van de verdeling in een populatie.

Voor-en nadelen percentielscores

Percentielscores worden veel gebruikt omdat het eenvoudig en snel is, gemakkelijk toepasbaar en inzichtelijk voor iedereen. Het nadeel is dat de schaal van percentielscores ordinaal is. Hierdoor mogen geen gemiddelden en varianties worden berekend. Ook frequentieverdelingen zijn onzinnig omdat ze gelijk zijn. In een normale frequentieverdeling wordt dit ook zichtbaar. De verschillen tussen percentielscores in relatie tot de ruwe scores wordt rond de mediaan overschat en aan de uiteinden onderschat. Decielen: in 10 gelijke groepen verdeeld Vigintielen: in 20 gelijke groepen verdeeld.

Standaardscores (Z-scores) en Standaardnormen

Als ruwe scores worden omgerekend in standaardscore-eenheden zijn dat standaardscores. Standaardnorm is de representatie van een populatie. Beide kennen niet de bezwaren van percentiele normen, de ordinale schaal en de onvergelijkbaarheid met ruwe score eenheden. De Z-score is het aantal getransformeerde meeteenheden boven of onder het getransformeerde gemiddelde én het aantal standaarddeviaties van de oorspronkelijke scores boven of onder het oorspronkelijke gemiddelde

Standaardscore/Zscore berekenen

X = Ruwe score, uitgedrukt in het aantal standaarddeviatie-eenheden dat zij van het gemiddelde af ligt. zx= standaardscore X= het gemiddelde. SX= standaarddeviatie. Ruwe scores die onder het gemiddelde liggen corresponderen met negatieve standaardscores en boven het gemiddelde met positieve scores. Standaardscores behouden, op gemiddelde en SD na, dezelfde verdelingskenmerken als de ruwe scores X. De Z-score is NIET automatisch normaal verdeeld. Het omzetten van ruwe score naar standaardscore is een lineaire transformatie. Dit betekent dat de scoreverdeling gelijk blijft.

Genormaliseerde standaardscore

Genormaliseerde standaardscores worden verkregen uit niet-lineaire transformaties, die de verdeling van X zodanig vervormen dat wel een normaalverdeling ontstaat. Dat betekent dat sommige van de oorspronkelijk eenheden worden uitgerekt en andere ingedrukt. Men zoekt uit welke ruwe scores juist die percentages markeren, de behoren bij de standaard-score-eenheden in een normaalverdeling. Deze ruwe scores worden dan omgezet in genormaliseerde standaardscores. Deze normaliseren suggereert normaalverdeling, ook als hier geen sprake van was bij ruwe scores. In veel gevallen is dit een problemen omdat de werkelijkheid geweld aan wordt gedaan. Rechtvaardiging zit hooguit in gemak en bruikbaarheid.

Verschillende vormen genormaliseerde standaardscore

* T-scores. Bij omzetting van ruwe scores X naar T-scores wordt een gemiddelde aangenomen van 50 en spreiding van 10. Praktisch gezien ligt de verdeling dan tussen 20 en 80 omdat in een normaalverdeling slechts 0.27% erbuiten valt. * Stanines. Tijdens WO II ontwikkeld in de US Air Force. Staat voor ‘sta’ndard score van ‘nine’ eenheden. Stanines vertegenwoordigen een breedte van 1/2 SX. Het midden van de vijfde stanine komt overeen met het gemiddelde van de verdeling. * Deviatie-IQ. Een standaardnorm met een gemiddelde van 100. De testprestaties worden per leeftijdsklasse verwerkt tot genormaliseerde standaardscores. De prestatie wordt in het licht geplaats van bij leeftijd horende normaalverdeling. B.v. de WAIS (gemiddelde 100, Spreiding 15)