H5 Voor dummies deel 1 Flashcards
Het doel van het afnemen van een test,
(Hieronder verstaan we ook een vragenlijst of een systematische
observatie )
is een zo nauwkeurig mogelijke meting van een eigenschap van de
onderzochte persoon te doen. Om dit doel te bereiken, is het noodzakelijk dat de test qua inhoud en
meettechnische eigenschappen aan hoge eisen voldoet.
Een test afnemen lijkt tamelijk eenvoudig, maar in werkelijkheid gaat het om een complex
proces. want
Ten eerste kan de testsituatie variëren van zakelijk neutraal tot een vorm van onderzoek die een hoge mate van inzet vereist. Ten tweede verschillen de onderzochten in motivatie, samenwerking, onbevangenheid en andere eigenschappen die de relatie met de testleider beïnvloeden.
Een apart probleem vormt daarbij de ▌testervaring, of test-wiseness.
Ten slotte bestaat er een grote variëteit
in instructietechniek en hoeveelheid oefening die voor het afnemen van een test nodig is.
Alleen in een gestandaardiseerde testsituatie kunnen waargenomen verschillen tussen de
proefpersonen echt worden toegeschreven aan henzelf.
De objectieve testsituatie
Standaardisatie betekent dat de onderzochten in maximaal gelijke omstandigheden worden
getest.
Dit vraagt om een goed uitgewerkte instructie en de eis aan de proefleider zich hier zo
goed mogelijk aan te houden
Het betekent ook het weren van opvallende of specifieke omgevingsinvloeden.
Diverse condities zijn vooral van belang voor groepstests. Een apart geval
vormen daarbij tests met een snelheidskarakter.
Maar ook bij het afnemen van individuele
tests is standaardisatie van testcondities een belangrijke voorwaarde
Gedrag van de proefpersoon.
Behalve de testomstandigheden zou men ook de situatie waarin de onderzochte verkeert zo
constant mogelijk willen houden.
Dit is veel moeilijker. Proefpersonen kunnen, al of niet bedoeld, een duidelijke invloed uitoefenen op hun prestaties en gedrag. Het gevaar bestaat
bijvoorbeeld dat iemand zich naar verwachtingen van de proefleider gaat gedragen, of op een
sociaal wenselijke manier
Sommige factoren zijn tot op zekere hoogte controleerbaar. Veel zal daarbij afhangen van de
deskundigheid van de proefleider. Moeilijker te controleren is de motivatie van de onderzochte.
De testleider kan gedeeltelijk greep krijgen op deze motivatie door te streven naar een
ongedwongen relatie met de onderzochte. Bij persoonlijkheidstests kan men door een gebrek
aan motivatie met opzet het testonderzoek saboteren.
Ook de angst voor de gevolgen van een slechte testprestatie
kan van invloed zijn op de testresultaten.
▌Testangst, of state anxiety, kan worden onderscheiden van de meer stabiele persoonlijkheidstrek angstigheid, waarvoor situatie-invloeden
minder gelden.
Er wordt wel onderscheid gemaakt tussen positieve en negatieve faalangst
positieve faalangst
(werkt bevorderend op de prestatie, een vorm van extraversie
of impulsiviteit)
negatieve faalangst
(stoort de prestatie, een vorm van angst). Vaak wordt een
geringe mate van angst als bevorderlijk gezien en een zeer sterke angst als schadelijk voor de
testprestatie.
Gedrag van de proefleider
Problemen met de standaardisatie van het gedrag van de testleider spelen vooral bij de individuele test, omdat vooral hier sprake is van een wisselwerking tussen testleider en proefpersoon.
De variatie in gedrag van de testleider kan overigens gemakkelijker worden gecontroleerd dan die van de onderzochte
In het algemeen moet de testleider ernaar streven de
instructie zo goed mogelijk te kennen en naar de letter te volgen. Minder eenvoudig ligt het
bij psychologische mechanismen als vooroordelen, sympathieën en antipathieën en de blijvende invloed van een eerste indruk. Dergelijke mechanismen kunnen het oordeel vertroebelen zonder dat de testleider zich dat realiseert. Sommige factoren zijn daarbij lastiger onder
controle te krijgen dan andere.
Een zo groot mogelijke vergelijkbaarheid en objectiviteit kunnen het
beste worden bereikt door een zo normaal mogelijke relatie op te bouwen, met een positieve
en stimulerende toon. Men zal daarna in de verwerking en berekening van de testscore ‘doen
alsof’ de genoemde invloeden genegeerd kunnen worden.
vraag:
wat is juist.
A De variatie in gedrag van de onderzochte kan overigens gemakkelijker worden gecontroleerd dan die van de testleider.
B De variatie in gedrag van de testleider kan overigens gemakkelijker worden gecontroleerd dan die van de onderzochte
B.
Naarmate het scoringsproces meer gebaseerd is op subjectieve oordeelsvorming, geven de
scores een grotere foutenmarge te zien.
met andere woorden. als mensen beoordelingen geven of scores toekennen op basis van hun persoonlijke meningen en gevoelens, in plaats van op harde feiten of objectieve criteria, de scores minder betrouwbaar zijn. Met andere woorden, ze kunnen meer variëren en minder accuraat zijn omdat het afhangt van wat mensen denken en voelen, wat kan leiden tot fouten of onnauwkeurigheden in de scores.
We maken hier onderscheid tussen scoring van reacties op items met open-vraagvorm en geprecodeerde items.
Scoring van reacties op items met open-vraagvorm. ofwel open vragen.
geprecodeerde items ofwel
gesloten vragen
Scoring van reacties op items met open-vraag vorm.
De reacties op items met een open-vraag vorm kunnen verbaal of niet-verbaal (bvb doolhof) zijn.
Hierbij dreigt het gevaar van subjectiviteit en een lage overeenstemming tussen beoordelaars.
Deze
kunnen worden gereduceerd door een zo goed mogelijk coderingssysteem, bvb een checklist, dat
zowel duidelijk als ondubbelzinnig is.
Om standaardisatie nog te verbeteren dienen beoordelaars
goede instructies en voldoende tijd om te oefenen te krijgen. Dit verhoogt de overeenstemming
tussen hun oordelen.
Opgelet:
hoge overeenstemming tussen de oordelen leidt niet automatisch tot een goed validiteit! Ahv een checklist
kunnen verschillende beoordelaars eenzelfde conclusie vinden, maar of dat gedrag kenmerkend is
voor de eigenschap die men wil weten, is een andere vraag. De overeenstemming tussen
beoordelaar is wel een noodzakelijke, maar niet voldoende voorwaarde voor validiteit.
vraag.
De reacties op items met een …….. kunnen zowel verbaal als niet-verbaal zijn
a open vraag vorm
b geprecodeerde items
Scoring van reacties op items met open-vraag vorm
vraag.
Bij welke vraag vorm dreigt het gevaar van subjectiviteit en een lage overeenstemming tussen beoordelaars.
a open vraag vorm
b geprecodeerde items
A open vraagvorm
Wat is juist
A Hoge overeenstemming leidt
automatisch tot een goed validiteit.
B Hoge overeenstemming leidt niet automatisch tot een goed validitei
Opgelet: hoge overeenstemming leidt niet automatisch tot een goed validiteit!
Ahv een checklist
kunnen verschillende beoordelaars eenzelfde conclusie vinden, maar of dat gedrag kenmerkend is
voor de eigenschap die men wil weten, is een andere vraag. De overeenstemming tussen
beoordelaar is wel een noodzakelijke, maar niet voldoende voorwaarde voor validiteit.
Om de standaardisatie verder te verbeteren, dienen
beoordelaars vooraf goed geïnstrueerd te worden en gelegenheid te krijgen om te oefenen.
Overigens leidt een verbeterde overeenstemming niet vanzelf ook tot een goede validitei
Betrouwbaarheid:
Dit heeft te maken met hoe consistent en herhaalbaar een meting of test is. Als iets betrouwbaar is, betekent dit dat als je het meerdere keren herhaalt, je vergelijkbare resultaten krijgt. Stel je voor dat je een weegschaal hebt die altijd hetzelfde gewicht aangeeft voor een object dat niet beweegt. Die weegschaal is betrouwbaar, omdat hij consequent dezelfde meting geeft.
Validiteit
Dit heeft te maken met of een meting daadwerkelijk meet wat het bedoeld is om te meten. Als een meting valide is, betekent dit dat het echt de eigenschap of het kenmerk meet waarvoor het bedoeld is.
Bijvoorbeeld, als een test bedoeld is om intelligentie te meten, is het valide als het daadwerkelijk de intelligentie van een persoon meet en niet iets anders, zoals hun geheugen
Vraag
wat gaat over validiteit en wat gaat over betrouwbaarheid.
….gaat over consistentie en herhaalbaarheid
…. gaat over of een meting doet wat het zou moeten doen.
Dus, betrouwbaarheid gaat over consistentie en herhaalbaarheid,
terwijl validiteit gaat over of een meting doet wat het zou moeten doen.
Scoring van reacties op geprecodeerde items ofwel meerkeuzevragen.
De voornaamste zorg bij de scoring van meerkeuzevragen betreft de nauwkeurigheid en de
efficiëntie.
Er zijn drie mogelijkheden:
handscoring, zelfscoring en machinale scoring.
handscoring: Correctoren tellen het aantal
goed en fout gemaakte, en indien nodig het aantal overgeslagen en onvoltooide opgaven. Ter
vergelijking maken ze daarbij gebruik van een correct ingevuld voorbeeld of van een sleutel.
Naast de goed-sleutel is vaak ook een fout-sleutel beschikbaar.
▌zelfscoring: nogal verouderde methode.
zelfscoring kent verschillende versies. De meest voorkomende is die waarbij onder het antwoordformulier een tweede vel wordt geplaatst.
Via een
doordrukprocedé wordt de scoring direct op dit formulier geregistreerd. De methode leidt tot
een aanzienlijk snellere en efficiëntere verwerking dan de methode van de handcorrectie
▌machinescoring: De snelste methode van verwerking.
door te antwoorden op een speciaal antwoordformulier of door registratie
met een computer. Via de computer kunnen de testgegevens ook worden toegvoegd aan een
opgeslagen gegevensbestand zodat een voortdurende controle op kwaliteitskenmerken
mogelijk wordt.
De computer geeft naast informatie over de onderzochte ook indicaties over
de test zelf en over de onderzochte groep als geheel: verdelingen, spreidingen, rangordes,
betrouwbaarheden, itembeoordelingen,..
vraag.
Scoring van reacties op geprecodeerde items ofwel meerkeuzevragen.
Welke is de meest bewerkelijke methode
A zelfscoring
B machinescoring
C Handscoring
Het meest bewerkelijke is de methode van de ▌handscoring
Welke methode heeft het volgende :
De voornaamste problemen
bij …….vormen de tijdsduur en de correctie van gemaakte fouten. Vooral bij grotere
aantallen is deze methode dan ook niet zo geschikt
A zelfscoring
B machinescoring
C Handscoring
handscoring
vraag:
Welke van de geprocodeerde methodes geeft naast informatie over de onderzochte ook indicaties over
de test zelf en over de onderzochte groep als geheel: verdelingen, spreidingen, rangordes,
betrouwbaarheden, itembeoordelingen.
A zelfscoring
B machinescoring
C Handscoring
computer geeft naast informatie over de onderzochte ook indicaties over
de test zelf en over de onderzochte groep als geheel: verdelingen, spreidingen, rangordes,
betrouwbaarheden, itembeoordelingen,
Al eerder werd gewezen op een mogelijk bezwaar tegen meerkeuzevragen voor prestatieniveau, ofwel dat de onderzochte door te raden een hogere score kan krijgen.
Hiervoor zijn in de literatuur diverse correcties voorgesteld, die achteraf dienen te worden uitgevoerd. De eenvoudigste methode wordt op het volgende kaartje beschreven.
Meerkeuzevragen voor prestatieniveau zijn vragen die je moet beantwoorden door een van de opties te kiezen die het beste beschrijft hoe goed je iets kunt doen.
Stel je voor dat je een vraag krijgt over je wiskundige vaardigheden, en je hebt opties zoals “goed,” “gemiddeld,” “slecht,” en “heel slecht.” Je kiest de optie die het beste aangeeft hoe goed je bent in wiskunde.
Deze vragen worden vaak gebruikt om te meten hoe bekwaam iemand is in een bepaald onderwerp of vaardigheid.
Er werden verschillende correcties voorgesteld om bij meerkeuze vragen voor prestatieniveau de
gokkans te beperken.De eenvoudigste is:
Dit stuk tekst probeert uit te leggen hoe je de kans op raden bij meerkeuzevragen kunt verminderen. Stel je voor dat je een test doet met meerkeuzevragen, en er zijn meerdere antwoordopties (A).
Als je geen idee hebt welk antwoord juist is en blindelings gokt, is de kans dat je juist gokt 1 op A. Als A bijvoorbeeld 4 is, is de kans op juist raden 1 op 4.
Maar als je het antwoord zeker weet, geef je het juiste antwoord.
Als je blindelings gokt, kunnen er twee dingen gebeuren: je hebt geluk en gokt correct, of je hebt pech en gokt fout.
Dus, bij meerkeuzevragen zijn er eigenlijk drie soorten antwoorden:
1.Juiste antwoorden omdat je het weet.
2.Juiste antwoorden omdat je geluk hebt bij het raden.
3.Foute antwoorden omdat je fout gokt.
Dit tekstgedeelte probeert manieren te bespreken om te voorkomen dat mensen alleen maar raden en probeert ook te begrijpen hoeveel van de juiste antwoorden te danken zijn aan kennis en hoeveel aan geluk bij het raden.
Formule van de toevalscorrectie: pagina (35 en 36 uit proeftoets en vanaf formule 5.1)
Dit hier is de formulle die erbij hoort met uitleg
Stel je hebt een test met meerkeuzevragen, en er zijn A mogelijke antwoordopties voor elke vraag. Er zijn twee situaties voor deelnemers:
Ze weten het juiste antwoord en selecteren dit.
Ze hebben geen idee en raden, met een kans van 1/A om correct te raden.
Dit betekent dat een deel van de juiste antwoorden in de test door kennis komt en een ander deel door puur geluk (raden). We willen weten hoeveel juiste antwoorden te danken zijn aan kennis (Xc).
Laten we zeggen dat je de test hebt afgenomen en dat X het totale aantal juiste antwoorden is. Als er k vragen zijn waarvan de antwoorden fout zijn (bijvoorbeeld omdat mensen verkeerd raden met een kans van 3/4), dan kunnen we berekenen hoeveel juiste antwoorden te danken zijn aan gokken met behulp van deze formule:
Xc = X - k * (A-1) / A
Dit betekent dat Xc het aantal juiste antwoorden door kennis is, en X is het totale aantal juiste antwoorden op de test. We trekken het aantal foute antwoorden door te gokken (k) af van het totaal, en we corrigeren voor het feit dat er A-1 foute antwoorden zijn voor elke juiste gok (1/A kans).
Er is ook een andere correctie als mensen vragen onbeantwoord laten, waarbij ze toch punten kunnen krijgen. Als Xf het aantal fouten en k-X-Xf het aantal onbeantwoorde vragen is, kunnen we het aantal correcte antwoorden door gokken als volgt berekenen:
Xc = X + (k - X - Xf) * (1 - A)
Dit betekent dat Xc het aantal juiste antwoorden door kennis is, en we tellen het aantal correcte antwoorden door te raden toe, waarbij we corrigeren voor het niet beantwoorden van vragen.
Deze correcties helpen om een nauwkeuriger beeld te krijgen van hoe goed deelnemers presteren op de test, rekening houdend met zowel kennis als raden.
Bedenkingen mbt formulle toevalsberekening ofwel correctieformules.
- De formules gaan uit van een scherp onderscheid tussen wel en niet weten, dus zeker weten
of blind gokken. Echter, partiële kennis kan leiden tot een grotere of kleinere reële gokkans
dan de theoretische, blinde giskans. Bvb door partiële kennis kunnen foute antwoorden
weggestreept worden en zal de formule een ondercorrectie tonen, omdat de giskans op groter
is dan 1/A.of onjuiste antwoorden zijn zo verleidelijk of suggestief dat een niet-weter te snel
een keuze zal maken, de kans op het juiste antwoord is dan kleiner dan 1/A en de formule
leidt tot een overcorrectie. De formule is dus enkel geschikt voor situaties waarin partiële
kennis niet bestaat. - Iemand kan fout antwoorden door een verkeerd inzicht of onjuiste informatie, puntenaftrek
kan dan onrechtvaardig lijken.
Door toeval gecorrigeerde testscores Xc hebben een grotere variantie dan de ongecorrigeerde
testscores X. Dit kan een ongewenste invloed hebben op andere berekeningen. Xc is een
lineaire functie van X: Xc = a + bX, met B > 0. Dus Xc = k + A X, de variantie van Xc is een
A-1 A-1
factor b2 = (A/A-1)2 groter dan de variantie van X, de standaarddeviatie is dus 2x zo groot.
met andere woorden: Variantie en Standaarddeviatie: Als we de giscorrectie toepassen op testscores, zorgt dit ervoor dat de scores meer variëren en onnauwkeuriger lijken dan de oorspronkelijke scores. Dit kan een probleem zijn bij het analyseren van de resultaten, omdat de scores moeilijker te vergelijken en te begrijpen zijn. De correctie maakt de standaarddeviatie (een maat voor de spreiding van de scores) twee keer zo groot, wat betekent dat de scores meer uiteenlopen.
Bij een lineaire correlatie geldt dat de correlatie tussen Xc en X gelijk is aan 1, dus r(Xc, X) = 1, met andere woorden:
Correlatie: De giscorrectie heeft geen invloed op de rangschikking van mensen op basis van hun scores. Met andere woorden, mensen zullen nog steeds in dezelfde volgorde staan, maar sommigen kunnen door de correctie onder een bepaalde grens vallen, terwijl ze dat zonder correctie niet zouden doen. Dit kan onrechtvaardig lijken, omdat sommige mensen onterecht als slechter worden beoordeeld door de correctie.
Met beide scores kan men even goed een criteriumscore Y voorspellen. De gecorrigeerde
score is hiervoor niet beter dan de ongecorrigeerde score. met andere woorden.
Voorspelling van Criteriumscore: Zowel de gecorrigeerde als de ongecorrigeerde scores zijn even goed in staat om toekomstige prestaties te voorspellen. Met andere woorden, de correctie voegt geen voorspellende waarde toe aan de scores, en beide kunnen even nuttig zijn bij het voorspellen van iemands prestaties..
De nauwkeurigheid van X en Xc is gelijk. met andere woorden.
Nauwkeurigheid: Zowel de oorspronkelijke scores als de gecorrigeerde scores hebben dezelfde mate van nauwkeurigheid. De correctie verbetert de nauwkeurigheid van de metingen niet
▌binomiale verdeling,
de verdeling van het aantal successen in een reeks van onafhankelijke alternatieven.
Onafhankelijke alternatieven betekenen dat de uitkomst van een gebeurtenis niet wordt beïnvloed door de uitkomst van een andere gebeurtenis. Met andere woorden, wat er gebeurt bij de ene gebeurtenis heeft geen invloed op wat er gebeurt bij de andere gebeurtenis.
de binomiale verdeling betekent simpelweg het volgende: het is een manier om te berekenen hoe waarschijnlijk het is dat er een bepaald aantal “successen” optreedt in een reeks van onafhankelijke kansen of mogelijkheden. Denk aan het gooien van een munt; de binomiale verdeling kan je helpen te begrijpen hoe vaak je bijvoorbeeld kop of munt krijgt als je de munt een bepaald aantal keren gooit. Het is handig voor het voorspellen van kansen en resultaten in situaties met slechts twee mogelijke uitkomsten, zoals ja/nee, succes/mislukking, of kop/munt.
Weging van itemscores.
uitleg de samenvatting.
Het is verleidelijk om items die een eigenschap beter lijken te meten zwaarder te wegen, maar het
is gebleken dat dit slechts weinig invloed heeft op de betrouwbaarheid en validiteit van de
testscore. Als men ontevreden is over de betrouwbaarheid en validiteit, zijn er betere strategieën
dan weging:
- Meer items in de test opnemen, wat de betrouwbaarheid verhoogt.
- Beter nadenken over de inhoud van de items, wat de validiteit en de praktische bruikbaarheid
van de test verhoogt.
hier is een simpelere uitleg:
Soms willen mensen graag dat bepaalde vragen in een test meer invloed hebben op het eindresultaat, omdat ze denken dat die vragen belangrijker zijn. Maar onderzoek heeft aangetoond dat dit meestal niet veel verschil maakt in hoe betrouwbaar en geldig de test is.
Als je de betrouwbaarheid en geldigheid van een test wilt verbeteren (zodat de test consistent en nauwkeurig meet wat hij zou moeten meten), zijn er betere manieren om dat te doen dan alleen maar zwaarder wegen:
Voeg meer vragen aan de test toe. Dit helpt de betrouwbaarheid te vergroten, wat betekent dat de test meer consistente resultaten zal geven.
Denk beter na over de vragen die je in de test opneemt. Zorg ervoor dat ze echt meten wat je wilt meten. Dit zal de validiteit (of nauwkeurigheid) van de test verbeteren, zodat de test daadwerkelijk meet wat hij zou moeten meten en praktisch bruikbaar is.
Met andere woorden, het draait meer om het aantal vragen en de kwaliteit van die vragen dan om het zwaarder wegen van bepaalde vragen.
Testen per computer.
De computer levert technologische en wetenschappelijke bijdrages aan de testpraktijk.
Bij testen per computer wordt de respons direct door de computer geregistreerd en gecodeerd.
We staan hier kort stil bij de gebruiksmogelijkheden van computers, en problemen die
zich hierbij kunnen voordoen.
Daarbij maken we onderscheid tussen de technologische en
wetenschappelijke bijdrage die de computer kan leveren.
Technologische bijdragen en veranderingen.
Het testen per computer leidt tot een aantal administratieve veranderingen, wat betreft het
coderen van reacties, de opslag ervan, de terugkoppeling van resultaten en het veranderen,
toevoegen of verwijderen van items. Het veranderen van een test betekent overigens wel dat
de betrouwbaarheid en validiteit van de scores kunnen veranderen, wat nieuw psychometrisch onderzoek vereist
Een computer biedt de mogelijkheid om een itembank aan te leggen en op te slaan. Hergebruik van items kan vervolgens worden gebaseerd op up-to-date gehouden psychometrische
en inhoudelijke gegevens over de items. Bij een meerkeuzetest kunnen per item de psychometrische gegevens over de moeilijkheid, doorgaans de p-waarde, en de kwaliteit van de
afleiders worden opgeslagen. Dat geldt ook voor belangrijke administratieve gegevens
overige tegnologishe bijdragen zijn online testing,
cognitive skills diagnostics
De automatische scoring
Een psychometrisch onderzoek is een soort studie die zich richt op het meten van eigenschappen, vaardigheden of gedrag van mensen. Het doel is om deze metingen zo nauwkeurig en betrouwbaar mogelijk te maken.
In een psychometrisch onderzoek worden vaak tests en vragenlijsten gebruikt om informatie te verzamelen, zoals intelligentie, persoonlijkheid, of prestaties in een bepaald vakgebied. De onderzoekers willen weten hoe goed deze tests werken, of ze herhaalbare en betrouwbare resultaten opleveren, en of ze echt meten wat ze zouden moeten meten.
Met andere woorden, psychometrische onderzoeken helpen wetenschappers en psychologen om te begrijpen hoe ze eigenschappen en gedragingen van mensen kunnen meten en evalueren, zodat ze bruikbare en betrouwbare informatie kunnen verkrijgen.
waarover gaat het volgende
leerling bepaalt zelf het moment waarop de leerstof voldoende gekend is en
vraagt dan om een toets, die de computer dan selecteert uit de itembank, de reacties worden
door de computer gecodeerd en een eindbeoordeling wordt weergegeven. Gevaren:
misbruiken zoals bekend geraken van items, spieken, identificatiefraude,.
a cognitive skills diagnostic
b De automatische scorin
c online testing
online testing
On-line testing:
leerling bepaalt zelf het moment waarop de leerstof voldoende gekend is en
vraagt dan om een toets, die de computer dan selecteert uit de itembank, de reacties worden
door de computer gecodeerd en een eindbeoordeling wordt weergegeven. Gevaren:
misbruiken zoals bekend geraken van items, spieken, identificatiefraude,.