H5 Voor dummies deel 1 Flashcards by Melissa Simson

Het doel van het afnemen van een test,

(Hieronder verstaan we ook een vragenlijst of een systematische
observatie )

is een zo nauwkeurig mogelijke meting van een eigenschap van de
onderzochte persoon te doen. Om dit doel te bereiken, is het noodzakelijk dat de test qua inhoud en
meettechnische eigenschappen aan hoge eisen voldoet.

Een test afnemen lijkt tamelijk eenvoudig, maar in werkelijkheid gaat het om een complex
proces. want

Ten eerste kan de testsituatie variëren van zakelijk neutraal tot een vorm van onderzoek die een hoge mate van inzet vereist. Ten tweede verschillen de onderzochten in motivatie, samenwerking, onbevangenheid en andere eigenschappen die de relatie met de testleider beïnvloeden.

Een apart probleem vormt daarbij de ▌testervaring, of test-wiseness.

Ten slotte bestaat er een grote variëteit
in instructietechniek en hoeveelheid oefening die voor het afnemen van een test nodig is.

Alleen in een gestandaardiseerde testsituatie kunnen waargenomen verschillen tussen de
proefpersonen echt worden toegeschreven aan henzelf.

How well did you know this?

Not at all

Perfectly

De objectieve testsituatie

Standaardisatie betekent dat de onderzochten in maximaal gelijke omstandigheden worden
getest.

Dit vraagt om een goed uitgewerkte instructie en de eis aan de proefleider zich hier zo
goed mogelijk aan te houden

Het betekent ook het weren van opvallende of specifieke omgevingsinvloeden.

Diverse condities zijn vooral van belang voor groepstests. Een apart geval
vormen daarbij tests met een snelheidskarakter.

Maar ook bij het afnemen van individuele
tests is standaardisatie van testcondities een belangrijke voorwaarde

How well did you know this?

Not at all

Perfectly

Gedrag van de proefpersoon.

Behalve de testomstandigheden zou men ook de situatie waarin de onderzochte verkeert zo
constant mogelijk willen houden.

Dit is veel moeilijker. Proefpersonen kunnen, al of niet bedoeld, een duidelijke invloed uitoefenen op hun prestaties en gedrag. Het gevaar bestaat
bijvoorbeeld dat iemand zich naar verwachtingen van de proefleider gaat gedragen, of op een
sociaal wenselijke manier

Sommige factoren zijn tot op zekere hoogte controleerbaar. Veel zal daarbij afhangen van de
deskundigheid van de proefleider. Moeilijker te controleren is de motivatie van de onderzochte.

De testleider kan gedeeltelijk greep krijgen op deze motivatie door te streven naar een
ongedwongen relatie met de onderzochte. Bij persoonlijkheidstests kan men door een gebrek
aan motivatie met opzet het testonderzoek saboteren.

Ook de angst voor de gevolgen van een slechte testprestatie
kan van invloed zijn op de testresultaten.

▌Testangst, of state anxiety, kan worden onderscheiden van de meer stabiele persoonlijkheidstrek angstigheid, waarvoor situatie-invloeden
minder gelden.

Er wordt wel onderscheid gemaakt tussen positieve en negatieve faalangst

How well did you know this?

Not at all

Perfectly

positieve faalangst

(werkt bevorderend op de prestatie, een vorm van extraversie
of impulsiviteit)

negatieve faalangst

(stoort de prestatie, een vorm van angst). Vaak wordt een
geringe mate van angst als bevorderlijk gezien en een zeer sterke angst als schadelijk voor de
testprestatie.

How well did you know this?

Not at all

Perfectly

Gedrag van de proefleider

Problemen met de standaardisatie van het gedrag van de testleider spelen vooral bij de individuele test, omdat vooral hier sprake is van een wisselwerking tussen testleider en proefpersoon.

De variatie in gedrag van de testleider kan overigens gemakkelijker worden gecontroleerd dan die van de onderzochte

In het algemeen moet de testleider ernaar streven de
instructie zo goed mogelijk te kennen en naar de letter te volgen. Minder eenvoudig ligt het
bij psychologische mechanismen als vooroordelen, sympathieën en antipathieën en de blijvende invloed van een eerste indruk. Dergelijke mechanismen kunnen het oordeel vertroebelen zonder dat de testleider zich dat realiseert. Sommige factoren zijn daarbij lastiger onder
controle te krijgen dan andere.

Een zo groot mogelijke vergelijkbaarheid en objectiviteit kunnen het
beste worden bereikt door een zo normaal mogelijke relatie op te bouwen, met een positieve
en stimulerende toon. Men zal daarna in de verwerking en berekening van de testscore ‘doen
alsof’ de genoemde invloeden genegeerd kunnen worden.

How well did you know this?

Not at all

Perfectly

vraag:

wat is juist.

A De variatie in gedrag van de onderzochte kan overigens gemakkelijker worden gecontroleerd dan die van de testleider.

B De variatie in gedrag van de testleider kan overigens gemakkelijker worden gecontroleerd dan die van de onderzochte

How well did you know this?

Not at all

Perfectly

Naarmate het scoringsproces meer gebaseerd is op subjectieve oordeelsvorming, geven de
scores een grotere foutenmarge te zien.

met andere woorden. als mensen beoordelingen geven of scores toekennen op basis van hun persoonlijke meningen en gevoelens, in plaats van op harde feiten of objectieve criteria, de scores minder betrouwbaar zijn. Met andere woorden, ze kunnen meer variëren en minder accuraat zijn omdat het afhangt van wat mensen denken en voelen, wat kan leiden tot fouten of onnauwkeurigheden in de scores.

We maken hier onderscheid tussen scoring van reacties op items met open-vraagvorm en geprecodeerde items.

Scoring van reacties op items met open-vraagvorm. ofwel open vragen.

geprecodeerde items ofwel
gesloten vragen

How well did you know this?

Not at all

Perfectly

Scoring van reacties op items met open-vraag vorm.

De reacties op items met een open-vraag vorm kunnen verbaal of niet-verbaal (bvb doolhof) zijn.

Hierbij dreigt het gevaar van subjectiviteit en een lage overeenstemming tussen beoordelaars.

Deze
kunnen worden gereduceerd door een zo goed mogelijk coderingssysteem, bvb een checklist, dat
zowel duidelijk als ondubbelzinnig is.

Om standaardisatie nog te verbeteren dienen beoordelaars
goede instructies en voldoende tijd om te oefenen te krijgen. Dit verhoogt de overeenstemming
tussen hun oordelen.

Opgelet:

hoge overeenstemming tussen de oordelen leidt niet automatisch tot een goed validiteit! Ahv een checklist
kunnen verschillende beoordelaars eenzelfde conclusie vinden, maar of dat gedrag kenmerkend is
voor de eigenschap die men wil weten, is een andere vraag. De overeenstemming tussen
beoordelaar is wel een noodzakelijke, maar niet voldoende voorwaarde voor validiteit.

How well did you know this?

Not at all

Perfectly

vraag.

De reacties op items met een …….. kunnen zowel verbaal als niet-verbaal zijn

a open vraag vorm
b geprecodeerde items

Scoring van reacties op items met open-vraag vorm

How well did you know this?

Not at all

Perfectly

vraag.

Bij welke vraag vorm dreigt het gevaar van subjectiviteit en een lage overeenstemming tussen beoordelaars.

a open vraag vorm
b geprecodeerde items

A open vraagvorm

How well did you know this?

Not at all

Perfectly

Wat is juist

A Hoge overeenstemming leidt
automatisch tot een goed validiteit.

B Hoge overeenstemming leidt niet automatisch tot een goed validitei

Opgelet: hoge overeenstemming leidt niet automatisch tot een goed validiteit!

Ahv een checklist
kunnen verschillende beoordelaars eenzelfde conclusie vinden, maar of dat gedrag kenmerkend is
voor de eigenschap die men wil weten, is een andere vraag. De overeenstemming tussen
beoordelaar is wel een noodzakelijke, maar niet voldoende voorwaarde voor validiteit.

Om de standaardisatie verder te verbeteren, dienen
beoordelaars vooraf goed geïnstrueerd te worden en gelegenheid te krijgen om te oefenen.
Overigens leidt een verbeterde overeenstemming niet vanzelf ook tot een goede validitei

How well did you know this?

Not at all

Perfectly

Betrouwbaarheid:

Dit heeft te maken met hoe consistent en herhaalbaar een meting of test is. Als iets betrouwbaar is, betekent dit dat als je het meerdere keren herhaalt, je vergelijkbare resultaten krijgt. Stel je voor dat je een weegschaal hebt die altijd hetzelfde gewicht aangeeft voor een object dat niet beweegt. Die weegschaal is betrouwbaar, omdat hij consequent dezelfde meting geeft.

Validiteit

Dit heeft te maken met of een meting daadwerkelijk meet wat het bedoeld is om te meten. Als een meting valide is, betekent dit dat het echt de eigenschap of het kenmerk meet waarvoor het bedoeld is.

Bijvoorbeeld, als een test bedoeld is om intelligentie te meten, is het valide als het daadwerkelijk de intelligentie van een persoon meet en niet iets anders, zoals hun geheugen

How well did you know this?

Not at all

Perfectly

Vraag

wat gaat over validiteit en wat gaat over betrouwbaarheid.

….gaat over consistentie en herhaalbaarheid

…. gaat over of een meting doet wat het zou moeten doen.

Dus, betrouwbaarheid gaat over consistentie en herhaalbaarheid,

terwijl validiteit gaat over of een meting doet wat het zou moeten doen.

How well did you know this?

Not at all

Perfectly

Scoring van reacties op geprecodeerde items ofwel meerkeuzevragen.

De voornaamste zorg bij de scoring van meerkeuzevragen betreft de nauwkeurigheid en de
efficiëntie.

Er zijn drie mogelijkheden:
handscoring, zelfscoring en machinale scoring.

handscoring: Correctoren tellen het aantal
goed en fout gemaakte, en indien nodig het aantal overgeslagen en onvoltooide opgaven. Ter
vergelijking maken ze daarbij gebruik van een correct ingevuld voorbeeld of van een sleutel.
Naast de goed-sleutel is vaak ook een fout-sleutel beschikbaar.

▌zelfscoring: nogal verouderde methode.
zelfscoring kent verschillende versies. De meest voorkomende is die waarbij onder het antwoordformulier een tweede vel wordt geplaatst.

Via een
doordrukprocedé wordt de scoring direct op dit formulier geregistreerd. De methode leidt tot
een aanzienlijk snellere en efficiëntere verwerking dan de methode van de handcorrectie

▌machinescoring: De snelste methode van verwerking.

door te antwoorden op een speciaal antwoordformulier of door registratie
met een computer. Via de computer kunnen de testgegevens ook worden toegvoegd aan een
opgeslagen gegevensbestand zodat een voortdurende controle op kwaliteitskenmerken
mogelijk wordt.

De computer geeft naast informatie over de onderzochte ook indicaties over
de test zelf en over de onderzochte groep als geheel: verdelingen, spreidingen, rangordes,
betrouwbaarheden, itembeoordelingen,..

How well did you know this?

Not at all

Perfectly

How well did you know this?

Not at all

Perfectly

vraag.

Scoring van reacties op geprecodeerde items ofwel meerkeuzevragen.
Welke is de meest bewerkelijke methode

A zelfscoring
B machinescoring
C Handscoring

Het meest bewerkelijke is de methode van de ▌handscoring

How well did you know this?

Not at all

Perfectly

Welke methode heeft het volgende :

De voornaamste problemen
bij …….vormen de tijdsduur en de correctie van gemaakte fouten. Vooral bij grotere
aantallen is deze methode dan ook niet zo geschikt

A zelfscoring
B machinescoring
C Handscoring

handscoring

How well did you know this?

Not at all

Perfectly

vraag:

Welke van de geprocodeerde methodes geeft naast informatie over de onderzochte ook indicaties over
de test zelf en over de onderzochte groep als geheel: verdelingen, spreidingen, rangordes,
betrouwbaarheden, itembeoordelingen.

A zelfscoring
B machinescoring
C Handscoring

computer geeft naast informatie over de onderzochte ook indicaties over
de test zelf en over de onderzochte groep als geheel: verdelingen, spreidingen, rangordes,
betrouwbaarheden, itembeoordelingen,

How well did you know this?

Not at all

Perfectly

Al eerder werd gewezen op een mogelijk bezwaar tegen meerkeuzevragen voor prestatieniveau, ofwel dat de onderzochte door te raden een hogere score kan krijgen.

Hiervoor zijn in de literatuur diverse correcties voorgesteld, die achteraf dienen te worden uitgevoerd. De eenvoudigste methode wordt op het volgende kaartje beschreven.

Meerkeuzevragen voor prestatieniveau zijn vragen die je moet beantwoorden door een van de opties te kiezen die het beste beschrijft hoe goed je iets kunt doen.

Stel je voor dat je een vraag krijgt over je wiskundige vaardigheden, en je hebt opties zoals “goed,” “gemiddeld,” “slecht,” en “heel slecht.” Je kiest de optie die het beste aangeeft hoe goed je bent in wiskunde.

Deze vragen worden vaak gebruikt om te meten hoe bekwaam iemand is in een bepaald onderwerp of vaardigheid.

How well did you know this?

Not at all

Perfectly

Er werden verschillende correcties voorgesteld om bij meerkeuze vragen voor prestatieniveau de
gokkans te beperken.De eenvoudigste is:

Dit stuk tekst probeert uit te leggen hoe je de kans op raden bij meerkeuzevragen kunt verminderen. Stel je voor dat je een test doet met meerkeuzevragen, en er zijn meerdere antwoordopties (A).

Als je geen idee hebt welk antwoord juist is en blindelings gokt, is de kans dat je juist gokt 1 op A. Als A bijvoorbeeld 4 is, is de kans op juist raden 1 op 4.

Maar als je het antwoord zeker weet, geef je het juiste antwoord.

Als je blindelings gokt, kunnen er twee dingen gebeuren: je hebt geluk en gokt correct, of je hebt pech en gokt fout.

Dus, bij meerkeuzevragen zijn er eigenlijk drie soorten antwoorden:

1.Juiste antwoorden omdat je het weet.
2.Juiste antwoorden omdat je geluk hebt bij het raden.
3.Foute antwoorden omdat je fout gokt.

Dit tekstgedeelte probeert manieren te bespreken om te voorkomen dat mensen alleen maar raden en probeert ook te begrijpen hoeveel van de juiste antwoorden te danken zijn aan kennis en hoeveel aan geluk bij het raden.

Formule van de toevalscorrectie: pagina (35 en 36 uit proeftoets en vanaf formule 5.1)

Dit hier is de formulle die erbij hoort met uitleg

Stel je hebt een test met meerkeuzevragen, en er zijn A mogelijke antwoordopties voor elke vraag. Er zijn twee situaties voor deelnemers:

Ze weten het juiste antwoord en selecteren dit.
Ze hebben geen idee en raden, met een kans van 1/A om correct te raden.
Dit betekent dat een deel van de juiste antwoorden in de test door kennis komt en een ander deel door puur geluk (raden). We willen weten hoeveel juiste antwoorden te danken zijn aan kennis (Xc).

Laten we zeggen dat je de test hebt afgenomen en dat X het totale aantal juiste antwoorden is. Als er k vragen zijn waarvan de antwoorden fout zijn (bijvoorbeeld omdat mensen verkeerd raden met een kans van 3/4), dan kunnen we berekenen hoeveel juiste antwoorden te danken zijn aan gokken met behulp van deze formule:

Xc = X - k * (A-1) / A

Dit betekent dat Xc het aantal juiste antwoorden door kennis is, en X is het totale aantal juiste antwoorden op de test. We trekken het aantal foute antwoorden door te gokken (k) af van het totaal, en we corrigeren voor het feit dat er A-1 foute antwoorden zijn voor elke juiste gok (1/A kans).

Er is ook een andere correctie als mensen vragen onbeantwoord laten, waarbij ze toch punten kunnen krijgen. Als Xf het aantal fouten en k-X-Xf het aantal onbeantwoorde vragen is, kunnen we het aantal correcte antwoorden door gokken als volgt berekenen:

Xc = X + (k - X - Xf) * (1 - A)

Dit betekent dat Xc het aantal juiste antwoorden door kennis is, en we tellen het aantal correcte antwoorden door te raden toe, waarbij we corrigeren voor het niet beantwoorden van vragen.

Deze correcties helpen om een nauwkeuriger beeld te krijgen van hoe goed deelnemers presteren op de test, rekening houdend met zowel kennis als raden.

How well did you know this?

Not at all

Perfectly

Bedenkingen mbt formulle toevalsberekening ofwel correctieformules.

De formules gaan uit van een scherp onderscheid tussen wel en niet weten, dus zeker weten
of blind gokken. Echter, partiële kennis kan leiden tot een grotere of kleinere reële gokkans
dan de theoretische, blinde giskans. Bvb door partiële kennis kunnen foute antwoorden
weggestreept worden en zal de formule een ondercorrectie tonen, omdat de giskans op groter
is dan 1/A.of onjuiste antwoorden zijn zo verleidelijk of suggestief dat een niet-weter te snel
een keuze zal maken, de kans op het juiste antwoord is dan kleiner dan 1/A en de formule
leidt tot een overcorrectie. De formule is dus enkel geschikt voor situaties waarin partiële
kennis niet bestaat.
Iemand kan fout antwoorden door een verkeerd inzicht of onjuiste informatie, puntenaftrek
kan dan onrechtvaardig lijken.

Door toeval gecorrigeerde testscores Xc hebben een grotere variantie dan de ongecorrigeerde
testscores X. Dit kan een ongewenste invloed hebben op andere berekeningen. Xc is een
lineaire functie van X: Xc = a + bX, met B > 0. Dus Xc = k + A X, de variantie van Xc is een
A-1 A-1
factor b2 = (A/A-1)2 groter dan de variantie van X, de standaarddeviatie is dus 2x zo groot.

met andere woorden: Variantie en Standaarddeviatie: Als we de giscorrectie toepassen op testscores, zorgt dit ervoor dat de scores meer variëren en onnauwkeuriger lijken dan de oorspronkelijke scores. Dit kan een probleem zijn bij het analyseren van de resultaten, omdat de scores moeilijker te vergelijken en te begrijpen zijn. De correctie maakt de standaarddeviatie (een maat voor de spreiding van de scores) twee keer zo groot, wat betekent dat de scores meer uiteenlopen.

Bij een lineaire correlatie geldt dat de correlatie tussen Xc en X gelijk is aan 1, dus r(Xc, X) = 1, met andere woorden:
Correlatie: De giscorrectie heeft geen invloed op de rangschikking van mensen op basis van hun scores. Met andere woorden, mensen zullen nog steeds in dezelfde volgorde staan, maar sommigen kunnen door de correctie onder een bepaalde grens vallen, terwijl ze dat zonder correctie niet zouden doen. Dit kan onrechtvaardig lijken, omdat sommige mensen onterecht als slechter worden beoordeeld door de correctie.

Met beide scores kan men even goed een criteriumscore Y voorspellen. De gecorrigeerde
score is hiervoor niet beter dan de ongecorrigeerde score. met andere woorden.
Voorspelling van Criteriumscore: Zowel de gecorrigeerde als de ongecorrigeerde scores zijn even goed in staat om toekomstige prestaties te voorspellen. Met andere woorden, de correctie voegt geen voorspellende waarde toe aan de scores, en beide kunnen even nuttig zijn bij het voorspellen van iemands prestaties..

De nauwkeurigheid van X en Xc is gelijk. met andere woorden.
Nauwkeurigheid: Zowel de oorspronkelijke scores als de gecorrigeerde scores hebben dezelfde mate van nauwkeurigheid. De correctie verbetert de nauwkeurigheid van de metingen niet

How well did you know this?

Not at all

Perfectly

▌binomiale verdeling,
de verdeling van het aantal successen in een reeks van onafhankelijke alternatieven.

Onafhankelijke alternatieven betekenen dat de uitkomst van een gebeurtenis niet wordt beïnvloed door de uitkomst van een andere gebeurtenis. Met andere woorden, wat er gebeurt bij de ene gebeurtenis heeft geen invloed op wat er gebeurt bij de andere gebeurtenis.

de binomiale verdeling betekent simpelweg het volgende: het is een manier om te berekenen hoe waarschijnlijk het is dat er een bepaald aantal “successen” optreedt in een reeks van onafhankelijke kansen of mogelijkheden. Denk aan het gooien van een munt; de binomiale verdeling kan je helpen te begrijpen hoe vaak je bijvoorbeeld kop of munt krijgt als je de munt een bepaald aantal keren gooit. Het is handig voor het voorspellen van kansen en resultaten in situaties met slechts twee mogelijke uitkomsten, zoals ja/nee, succes/mislukking, of kop/munt.

How well did you know this?

Not at all

Perfectly

Weging van itemscores.

uitleg de samenvatting.

Het is verleidelijk om items die een eigenschap beter lijken te meten zwaarder te wegen, maar het
is gebleken dat dit slechts weinig invloed heeft op de betrouwbaarheid en validiteit van de
testscore. Als men ontevreden is over de betrouwbaarheid en validiteit, zijn er betere strategieën
dan weging:

Meer items in de test opnemen, wat de betrouwbaarheid verhoogt.
Beter nadenken over de inhoud van de items, wat de validiteit en de praktische bruikbaarheid
van de test verhoogt.

hier is een simpelere uitleg:

Soms willen mensen graag dat bepaalde vragen in een test meer invloed hebben op het eindresultaat, omdat ze denken dat die vragen belangrijker zijn. Maar onderzoek heeft aangetoond dat dit meestal niet veel verschil maakt in hoe betrouwbaar en geldig de test is.

Als je de betrouwbaarheid en geldigheid van een test wilt verbeteren (zodat de test consistent en nauwkeurig meet wat hij zou moeten meten), zijn er betere manieren om dat te doen dan alleen maar zwaarder wegen:

Voeg meer vragen aan de test toe. Dit helpt de betrouwbaarheid te vergroten, wat betekent dat de test meer consistente resultaten zal geven.

Denk beter na over de vragen die je in de test opneemt. Zorg ervoor dat ze echt meten wat je wilt meten. Dit zal de validiteit (of nauwkeurigheid) van de test verbeteren, zodat de test daadwerkelijk meet wat hij zou moeten meten en praktisch bruikbaar is.

Met andere woorden, het draait meer om het aantal vragen en de kwaliteit van die vragen dan om het zwaarder wegen van bepaalde vragen.

How well did you know this?

Not at all

Perfectly

Testen per computer.

De computer levert technologische en wetenschappelijke bijdrages aan de testpraktijk.

Bij testen per computer wordt de respons direct door de computer geregistreerd en gecodeerd.

We staan hier kort stil bij de gebruiksmogelijkheden van computers, en problemen die
zich hierbij kunnen voordoen.

Daarbij maken we onderscheid tussen de technologische en
wetenschappelijke bijdrage die de computer kan leveren.

Technologische bijdragen en veranderingen.

Het testen per computer leidt tot een aantal administratieve veranderingen, wat betreft het
coderen van reacties, de opslag ervan, de terugkoppeling van resultaten en het veranderen,
toevoegen of verwijderen van items. Het veranderen van een test betekent overigens wel dat
de betrouwbaarheid en validiteit van de scores kunnen veranderen, wat nieuw psychometrisch onderzoek vereist

Een computer biedt de mogelijkheid om een itembank aan te leggen en op te slaan. Hergebruik van items kan vervolgens worden gebaseerd op up-to-date gehouden psychometrische
en inhoudelijke gegevens over de items. Bij een meerkeuzetest kunnen per item de psychometrische gegevens over de moeilijkheid, doorgaans de p-waarde, en de kwaliteit van de
afleiders worden opgeslagen. Dat geldt ook voor belangrijke administratieve gegevens

overige tegnologishe bijdragen zijn online testing,
cognitive skills diagnostics
De automatische scoring

How well did you know this?

Not at all

Perfectly

Een psychometrisch onderzoek is een soort studie die zich richt op het meten van eigenschappen, vaardigheden of gedrag van mensen. Het doel is om deze metingen zo nauwkeurig en betrouwbaar mogelijk te maken. In een psychometrisch onderzoek worden vaak tests en vragenlijsten gebruikt om informatie te verzamelen, zoals intelligentie, persoonlijkheid, of prestaties in een bepaald vakgebied. De onderzoekers willen weten hoe goed deze tests werken, of ze herhaalbare en betrouwbare resultaten opleveren, en of ze echt meten wat ze zouden moeten meten. Met andere woorden, psychometrische onderzoeken helpen wetenschappers en psychologen om te begrijpen hoe ze eigenschappen en gedragingen van mensen kunnen meten en evalueren, zodat ze bruikbare en betrouwbare informatie kunnen verkrijgen.

waarover gaat het volgende leerling bepaalt zelf het moment waarop de leerstof voldoende gekend is en vraagt dan om een toets, die de computer dan selecteert uit de itembank, de reacties worden door de computer gecodeerd en een eindbeoordeling wordt weergegeven. Gevaren: misbruiken zoals bekend geraken van items, spieken, identificatiefraude,. a cognitive skills diagnostic b De automatische scorin c online testing

online testing

On-line testing: leerling bepaalt zelf het moment waarop de leerstof voldoende gekend is en vraagt dan om een toets, die de computer dan selecteert uit de itembank, de reacties worden door de computer gecodeerd en een eindbeoordeling wordt weergegeven. Gevaren: misbruiken zoals bekend geraken van items, spieken, identificatiefraude,.

De ▌cognitive skills diagnostics kan de mate van beheersing van deelvaardigheden geschat worden. Een laatste technologische verandering betreft de vorm van de items, de wijze waarop respondenten kunnen reageren, het type van gegevens dat wordt verzameld, en de scoring van items

dit kan de mate van beheersing van deelvaardigheden geschat worden. Een laatste technologische verandering betreft de vorm van de items, de wijze waarop respondenten kunnen reageren, het type van gegevens dat wordt verzameld, en de scoring van items a cognitive skills diagnostic b c online testing

De automatische scoring is alleen bij meerkeuze items probleemloos, want bij open vragen kunnen respondenten op zeer gevarieerde wijze goede of foute antwoorden genereren en het aanleren van deze patronen aan een computer programma is erg moeilijk

.3.2 Wetenschappelijke bijdragen en veranderingen De computer maakt het mogelijk om bvb aandacht te testen, door het scoren van reactietijden of het aantal fouten, dit vooral bij toepassingen waarin snelle beslissingen vereist zijn, bvb het bedienen van complexe machines.

!met andere woorden. Computers kunnen helpen om te meten hoe goed iemand oplet door dingen zoals reactietijden of fouten te meten. Dit is handig voor situaties waarin mensen snel beslissingen moeten nemen, zoals het bedienen van ingewikkelde machines. De computer helpt bij het evalueren van hoe snel en nauwkeurig mensen reageren in zulke situaties.

Naast bijdrages kan de computer ook belemmerend werken, bvb testangst of obv de ervaring met computers. Men gaat er evenwel vanuit dat deze verschillen uitgevlakt worden wanneer iemand voorafgaand de sessie voldoende kan oefenen

Naast de positieve bijdragen kan de computer ook problemen veroorzaken, zoals testangst of ongemak als iemand niet veel ervaring heeft met computers. Maar we denken dat deze problemen minder worden als iemand genoeg oefent voordat ze de computer gebruiken. Dus, oefening helpt om eventuele problemen te verminderen.

Onderzoek toont aan dat zowel voor persoonlijkheidstests als capacitietentests de verschillen in testprestatie onder computergestuurde en conventionele condities meestal niet groot zullen zijn

Studies laten zien dat de verschillen in hoe mensen presteren op persoonlijkheidstests en vaardigheidstests meestal niet erg groot zijn, of je ze nu op een computer doet of op papier zoals gebruikelijk.

Bij een computertest is het onmogelijk om items over te slaan (passive omitting), wat kan leiden tot andere verdelingen van itemscores dan bij conventionele tests, maar ook dit blijkt weinig invloed te hebben vergeleken met conventioneel testen.

Bij een computertest kun je geen vragen overslaan, wat soms kan leiden tot andere resultaten dan bij traditionele tests waarbij je dat wel kunt. Maar over het algemeen heeft dit niet veel invloed op de resultaten in vergelijking met gewone tests.

5.3.3 Adaptief testen Een belangrijke bijdrage van de computer aan de psychometrie betreft het adaptief testen, of testen op maat. Hierbij krijgt iedere respondent een test die op zijn of haar niveau is toegesneden. Om achteraf de scores van verschillende respondenten vergelijkbaar te maken. handig dat de volledige verzameling items voldoet aan de eisen van de item-responstheorie

m Respons Theorie (IRT) is een manier om tests op een slimme manier aan mensen aan te passen met behulp van de computer. IRT is handig omdat het ervoor zorgt dat de vragen in de test voldoen aan bepaalde eisen om met precisie en eerlijkheid het niveau van iemand te meten. Met andere woorden, het helpt om de test beter te maken voor individuen en om de resultaten met elkaar te vergelijken.

waarover gaat het volgende. Hierbij krijgt iedere respondent een test die op zijn of haar niveau is toegesneden. Om achteraf de scores van verschillende respondenten vergelijkbaar te maken A open vragen B adeptief testen C gesloten vragen.

adaptief testen, of testen op maat.

Binnen de item-responstheorie kan worden aangetoond dat de meting van een eigenschap van een persoon met een bepaald item de grootste nauwkeurigheid geeft als de moeilijkheid van het item en het niveau van de persoon op de psychologische eigenschap (beide gemeten op dezelfde schaal) samenvallen. In dit geval is de subjectieve kans op een positief antwoord op een item 0.5, vanuit de persoon gezien is de kans op goed en fout even groot. Eerst krijgt de correspondent één of enkele items die in een populatie gemiddeld zijn, op basis waarvan de computer een eerste schatting maakt van het meetwaarde van de persoon. Hierna worden items aangeboden waarvan de moeilijkheid samenvalt met de meetwaarde. Een volgende schatting wordt dan gebaseerd obv de testscores op de startitems en het nieuwe item,… dit totdat een meetwaarde is bereikt die voldoende nauwkeurig is. Deze stapsgewijze bepaling van iemands meetwaarde heeft volgende kenmerken: * De schatting van iemands meetwaarde komt bij iedere stap dichter bij de gezochte waarde. * De schatting van de meetwaarde is nauwkeuriger naarmate meer items gegeven werden

in de item-responstheorie geldt dat een testvraag het meest nauwkeurig is als de moeilijkheidsgraad van de vraag en het niveau van de persoon die de test maakt op dezelfde schaal samenvallen. Dit betekent dat de kans dat iemand de vraag correct beantwoordt, vanuit hun perspectief, 50% is. Met andere woorden, het is net zo waarschijnlijk dat ze de vraag goed of fout beantwoorden. Dit zorgt voor de grootste nauwkeurigheid bij het meten van iemands eigenschap. Stel je voor dat je een test doet op een computer. In het begin krijg je een paar vragen die gemiddeld zijn voor de meeste mensen. De computer gebruikt je antwoorden op die vragen om te raden hoe goed je bent in dat onderwerp. Dan krijg je meer vragen waarvan de moeilijkheid past bij wat de computer dacht dat je niveau was. Na elke set vragen maakt de computer een nieuwe schatting van hoe goed je bent. Dit gaat door totdat de computer een nauwkeurige schatting heeft van je niveau. Telkens wordt de schatting beter naarmate je meer vragen beantwoordt. Dus, het is als een reis waarbij de computer stap voor stap leert hoe goed je bent in iets, en de schatting wordt steeds preciezer naarmate je meer vragen beantwoordt.

Adaptief testen kan niet efficiënt plaatsvinden zonder itembank met minstens 150-200 items. Weiss (1985) stelt dat een adaptieve test ongeveer half zo lang moet zijn als een standaardtest om met dezelfde nauwkeurigheid te meten

wat is juist a Weiss (1985) stelt dat een adaptieve test ongeveer half zo lang moet zijn als een standaardtest om met dezelfde nauwkeurigheid te meten b Weiss (1985) stelt dat een adaptieve test ongeveer net zo lang moet zijn als een standaardtest om met dezelfde nauwkeurigheid te meten

Binnen onderwijs kunnen adaptieve testen gebruikt worden om: * Bepalen of iemand al dan niet geslaagd is. * Bepalen of iemands prestatie binnen de grenzen van een bepaald interval ligt. * Bepalen of iemand in een bepaald leerstofgebied vooruitgang heeft gemaakt.

5.4 Bewerkte scores en normen. Een testuitslag wordt eerst uitgedrukt in een basisscore of ‘ruwe’ score. Dit kan bvb het aantal juiste antwoorden zijn, het aantal foute antwoorden, het aantal ‘ja’ antwoorden, de soms van de scores op de ‘rating scales’ van een attitudelijst, aantal bewegingsantwoorden in een Rorscharch test, het aantal mislukte pogingen op een handvaardigheidstest,.. Ruwe scores komen meestal door telling tot stand en hebben geen verdere bewerking ondergaan

Belangrijke notaties: k: aantal items in een test. g: identificatienummer van een item zodat g=1,….,k. Xg: score op een item. Fout antwoord = itemscore 0, goed antwoord = itemscore 1, zodat Xg = 0,1. Op rating scales worden geordende scores toegekend, bvb Xg = 0,…,4. aan de hand hiervan krijg je de defenitie van de ruwe scores en deze is weergegeven in een formulier zie pagina 40 van samenvatting.

De ruwe score heeft op zichzelf meestal weinig betekenis, maar men kan hieruit wel bewerkte scores afleiden die gebaseerd zijn op: * Het vergelijken met een absolute standaard. * Deling door bvb leeftijd of schoolklas. * De relatieve positie in een referentiegroep Opgelet: niet iedere bewerkte score heeft een norm karakter! Diverse bewerkingen staan los van de prestaties van anderen (bvb aantal goede antwoorden omzetten in een rapport cijfer). Om te kunnen spreken van testnormen is afhankelijkheid van de scores van anderen een voorwaarde

Een ruwe score is het totale aantal punten of antwoorden dat je hebt behaald op een test of een opdracht, zonder enige correctie of aanpassing. Het is de onbewerkte telling van juiste antwoorden, zonder rekening te houden met andere factoren zoals de moeilijkheid van de vragen. Het geeft een basisindruk van hoeveel je hebt gepresteerd zonder verdere berekeningen. uitleg over het stukje opgelet Als we spreken over "testnormen", betekent dit dat we de scores van mensen vergelijken met wat anderen hebben behaald. Met andere woorden, we willen weten hoe iemands prestatie zich verhoudt tot de prestaties van andere mensen. Maar sommige bewerkingen van scores, zoals het omzetten van het aantal goede antwoorden in een rapportcijfer, hebben niets te maken met hoe anderen hebben gepresteerd. Deze bewerkingen zijn gewoon bedoeld om de scores op een bepaalde manier weer te geven, maar ze vertellen ons niet hoe iemand zich verhoudt tot anderen. Dus, om te kunnen praten over "testnormen," moeten we kijken naar hoe de scores van mensen zich verhouden tot wat anderen hebben gedaan.

Norm: referentiekader voor de evaluatie van ruwe scores dat is gebaseerd op de kenmeren van de verdeling van de ruwe scores in een populatie. Deze kenmerken worden geschat op basis van een representatieve steekproef.

Een "norm" is eigenlijk een soort referentiepunt dat we gebruiken om te beoordelen hoe goed iemand heeft gepresteerd. Deze referentie wordt gebaseerd op hoe scores verdeeld zijn in een grote groep mensen. We kijken naar een gemiddelde groep mensen om te begrijpen wat als normaal of typisch wordt beschouwd. Dit helpt ons te beoordelen waar iemand staat in vergelijking met anderen. We leren wat "normaal" is door te kijken naar een representatieve groep mensen.

Het gebruik van normen voor de beoordeling van een concrete testscore houdt de vergelijking in van deze score met de scoreverdeling van de referentiepopulatie. De beoordeling van het individu vindt plaats tegen de populatie waartoe hij behoort en niet van die van de groep die men toevallig onderzoekt en waarvan hij deel uitmaakt. Het gebruik van normen voor de waardering van iemands testprestatie overstijgt de kenmerken van de groep waartoe hij behoort

Normen zijn als meetpunten om te zien hoe iemand het doet in vergelijking met een grotere groep mensen. We vergelijken de prestatie van een persoon met wat we als normaal of gemiddeld beschouwen in die grotere groep. Dit betekent dat we niet alleen naar de specifieke groep mensen kijken die we onderzoeken, maar we vergelijken ze met een veel grotere groep waar ze deel van uitmaken. Normen helpen ons om iemands prestatie te begrijpen in de context van een bredere bevolking en gaan verder dan alleen de kenmerken van de groep die we specifiek onderzoeken.

waarover gaat het volgende deze. score heeft op zichzelf meestal weinig betekenis, maar men kan hieruit wel bewerkte scores afleiden die gebaseerd zijn op: * Het vergelijken met een absolute standaard. * Deling door bvb leeftijd of schoolklas. * De relatieve positie in een referentiegroep

De ruwe score

Normen zijn niet altijd nodig, soms volstaat een eenvoudiger vorm van bewerkte scores, bvb als het enkel noodzakelijk is om de 3 best scorende personen te kennen bij rekrutering. Er zijn ook gevallen waarin men zich kan beperken tot ruwe scores, bvb als men voor onderzoeksdoeleinden geïnteresseerd is in de samenhang tussen testscores en criteriumscores. Testcores: Dit zijn de resultaten die iemand behaalt op een bepaalde test, zoals een examen of een beoordelingstest. Het meet hoe goed iemand het doet op die specifieke test. Criteriumscores: Dit zijn meetresultaten die we gebruiken als een soort standaard of referentiepunt om iets anders te beoordelen. Bijvoorbeeld, als we willen weten of een bepaalde test echt iemands bekwaamheid in een bepaald vakgebied weerspiegelt, kunnen we de scores op de test vergelijken met de werkelijke prestaties van die persoon in dat vakgebied. Deze werkelijke prestaties worden criteriumscores genoemd en helpen ons te begrijpen of de test een goede voorspelling doet. In het kort, testcores meten iemands prestatie op de test zelf, terwijl criteriumscores worden gebruikt om te kijken hoe goed de test de werkelijke prestaties van iemand in een bepaald gebied voorspelt.

Normen zijn niet altijd vereist. Soms hebben we alleen eenvoudige scores nodig, zoals de scores van de drie beste presterende mensen als we mensen aannemen. Er zijn ook situaties waarin we gewoon tellen hoeveel vragen iemand goed heeft beantwoord als we onderzoek doen naar de relatie tussen testscores en andere meetgegevens. Het hangt af van wat we proberen te bereiken en hoe we de gegevens willen gebruiken. Normen zijn slechts één manier om scores te begrijpen, maar ze zijn niet altijd nodig.

Hoe groter een groep is, hoe meer het de kenmerken van een relevante populatie weerspiegelt en hoe meer de vergelijkingen het karakter krijgen van vergelijkingen met een norm. Hierbij is belangrijk dat: * Bij normeringsonderzoek moeten de specifieke kenmerken van de onderzochte normgroep vermeld worden, zo kan men afleiden of de normsteekproef geschikt is. * Normen dienen niet al te absoluut gezien te worden, want met een verandering in de populatie veranderen ook de daarop gebaseerde normen. Vandaar de eis van geregelde normrevisie van tests.

Als we een grote groep mensen hebben, lijkt deze groep meer op de hele groep mensen waarin we geïnteresseerd zijn, en lijken de vergelijkingen die we maken meer op vergelijkingen met wat als normaal wordt beschouwd. Het is belangrijk om te weten dat wanneer we normen gebruiken, we moeten aangeven welke eigenschappen de mensen in de groep hebben waarvan we de normen afleiden. Dit helpt ons te begrijpen of die groep een goede maatstaf is voor wat we willen meten. We moeten ook onthouden dat normen niet in beton zijn gegoten. Als de groep mensen in de samenleving verandert, moeten ook de normen veranderen om bij die nieuwe groep te passen. Daarom moeten we normen regelmatig herzien om ze up-to-date te houden.

Vergelijking met een absolute standaard. absolute standaard verwijst naar een vast en onveranderlijk referentiepunt of maatstaf die niet afhankelijk is van veranderingen in de omstandigheden of de populatie. Dit betekent dat de norm of standaard altijd hetzelfde blijft, ongeacht de situatie. Een voorbeeld van een absolute standaard is bijvoorbeeld de snelheid van het licht in vacuüm, die altijd dezelfde waarde heeft, ongeacht de tijd of plaats

Vergelijking met een absolute standaard. De testscore wordt beoordeeld zonder die van anderen erbij te betrekken. Deze maatstaf kan subjectief of arbitrair zijn, maar ook gebaseerd op grondige onderwijskundige of psychologische analyse van het te meten domein van kennis, inzicht of vaardigheden. Criterion-referenced measurement: vergelijken van een testprestatie met een absolute standaard. Norm-referenced measurement: het vergelijken van een testprestatie met een normverdeling In de psychologie tracht men zo veel mogelijk verschillen tussen individuen te maximaliseren, maar in onderwijs context is het belangrijker om te beoordelen in welke mate een bepaald doel bereikt is of hoever iemand daar nog van verwijderd is. Het antwoord is voor elke leerling dan onafhankelijk van de prestaties van anderen

Wanneer we een testscore beoordelen zonder naar de scores van anderen te kijken, doen we dat op basis van de score zelf, zonder vergelijking met anderen. Deze manier van beoordelen kan afhangen van persoonlijke meningen of willekeurige beslissingen, maar het kan ook gebaseerd zijn op een zorgvuldige analyse van wat er wordt gemeten in het kennisgebied, begrip of vaardigheden die de test test. Met andere woorden, we kunnen een testscore op zichzelf beoordelen zonder te kijken naar hoe anderen hebben gepresteerd, en dit kan gebaseerd zijn op grondige studie en begrip van wat de test meet. Criterion-referenced measurement: Hierbij vergelijken we de prestatie op een test met een vaste norm of standaard. We willen weten of iemand aan bepaalde absolute criteria voldoet, ongeacht hoe anderen presteren. Norm-referenced measurement: Hierbij vergelijken we de prestatie op een test met hoe anderen hebben gepresteerd in een vergelijkbare situatie. We willen weten hoe iemand scoort in vergelijking met een groep mensen, dus het gaat meer om relatieve prestatie dan om absolute criteria.

wat is juist a n de psychologie tracht men zo veel mogelijk verschillen tussen individuen te maximaliseren b in het onderwijs tracht men zo veel mogelijk verschillen tussen individuen te maximaliseren

Verhoudingsnormen Verhoudingsnormen hebben vooral historische betekenis. De testscores worden gedeeld door een andere variabele (leeftijd, klasgroep,..) en daardoor onafhankelijk gemaakt van die variabele. Het bekendste voorbeeld is IQ: het quotiënt van de door de test bepaalde mentale leeftijd ML en de chronologische leeftijd CL dat vervolgens met 100 vermenigvuldigd wordt (om met afgeronde getallen te kunnen werken (Formule pagina 41). Voor elk item dat bij een chronologische leeftijd ‘hoort’ wordt gekeken of het goed dan wel fout beantwoord werd. De laatste leeftijd waarop nog geen fouten worden gemaakt, noemt men de basale leeftijd. Verder telt ieder goed antwoord voor 1/x jaar, zodat de mentale leeftijd kan berekend worden.

Verhoudingsnormen worden niet veel meer gebruikt, maar ze hebben historische waarde. Hierbij delen we de testscores door een andere variabele, zoals leeftijd of klasgroep, om ze te corrigeren voor die variabele. Dit helpt ons om de prestaties van mensen onafhankelijk van die andere variabele te vergelijken, zodat we eerlijke vergelijkingen kunnen maken. Het is een oude methode om scores gelijk te trekken en ze te begrijpen in relatie tot de leeftijd of klas waarin iemand zit.

wat is de basale leeftijd

De laatste leeftijd waarop nog geen fouten worden gemaakt

Enkele kritische opmerkingen bij het IQ begrip: * De mentale leeftijd is een testscore gebaseerd op het aantal goed gemaakte items. Maar de chronologische leeftijd is dat niet. De noemer is dus feitelijk de verwachte testprestatie obv de leeftijd van de onderzochte en gebaseerd op de gemiddelde score van leeftijdsgenoten. Men vergelijkt dus met de testprestaties van anderen * IQ vertoont schommelingen tijdens de ontwikkeling. * In normale gevallen blijft men bij de berekening van IQ boven de hoogste leeftijd waar beneden de test nog discrimineert (15-17 jaar). Op hogere leeftijden nemen de prestaties van intellectuele functies echter af waardoor ouderen in het nadeel zijn omdat de noemer gelijk en maximaal blijft. * Niet veel test waarbij IQ scores worden gebruikt voldoen aan de eis van een evenredig toenemende spreiding bij hogere leeftijden. Een jaar achterstand bij 6 jaar is dubbel zo erg dan een jaar achterstand bij 12 jaar, wanneer men deelt door een steeds grotere noemer (leeftijd neemt toe), moet de spreiding van de prestaties op hogere leetijd steeds groter worden om de breuk constant te houden.

wat is juist. Enkele kritische opmerkingen bij het IQ begrip: A De mentale leeftijd is een testscore gebaseerd op het aantal fout gemaakte items. Maar de chronologische leeftijd is dat wel B De mentale leeftijd is een testscore gebaseerd op het aantal goed gemaakte items. Maar de chronologische leeftijd is dat niet

Enkele kritische opmerkingen bij het IQ begrip: b * De mentale leeftijd is een testscore gebaseerd op het aantal goed gemaakte items. Maar de chronologische leeftijd is dat niet

Vergelijking en normen gebaseerd op een rangorde . De eenvoudigste manier om testprestaties te vergelijken tussen individuen is een rangorde. Deze rangorde leidt niet tot een norm, want de rangscores zijn direct gebonden aan een specifieke groep en de groepsgrootte Kennis van groepsgrootte is niet noodzakelijk bij percentielscores. Percentielen zijn de 99 punten die een frequentieverdeling in 100 groepen van gelijke grootte splitsen. De bekendste percentielen zijn P50 of de mediaan, P25 of het eerste kwartiel en P75 of derde kwartiel. Men kan binnen een groep niet zeggen dat de ene persoon een hogere percentielscore heeft dan een andere. De percentielscore wordt berekend dmv lineaire interpolatie. Stel: 28% van de respondenten heeft een percentielscore van 61 of lager en 34% van 62 of lager, dan heeft 6% een ruwe score gelijk aan 62 en is de bijbehorende percentielscore: 28 + 0.5 (34 - 28) = 31. Percentielscores zijn dan wel onafhankelijk van de groepsgrootte, wel blijven ze afhankelijk van het niveau, spreiding en andere kenmerken van de groep. Dit argument geldt niet bij percentiele normen, waarbij een schatting wordt gemaakt van de verdeling in de populatie en de resultaten vervolgens los staan van een concrete groep. De cumulatieve frequenties zijn dan verbonden door een vloeiende curve die er meestal uitziet als een cumulatieve normaalverdeling en waarbij onregelmatigheden in de steekproef zijn gladgestreken. Ruwe scores staan op de X-as en percentiel scores op de Y-as afbeelding 42

De makkelijkste manier om te kijken hoe mensen het doen in een test, is om ze in volgorde van hun prestatie te zetten, van best naar slechtst. Dit geeft ons een soort lijst waarop we kunnen zien wie het het beste deed en wie het slechtst deed. Maar deze ranglijst is specifiek voor de groep mensen die de test heeft afgelegd, en het hangt af van hoeveel mensen er waren. Het is geen "norm" die overal van toepassing is, het is meer een manier om te zien hoe mensen binnen die specifieke groep presteren. Percentielscores zijn een manier om te begrijpen hoe iemand presteert in vergelijking met anderen, en je hoeft geen idee te hebben van hoeveel mensen er precies zijn. Ze werken als volgt: Stel je een groep mensen voor die een test hebben gemaakt. Percentielscores verdelen deze groep in 100 gelijke delen, en elk deel is een "percentiel." Het 50e percentiel (P50) is het midden van de groep en wordt de mediaan genoemd. Het 25e percentiel (P25) is het punt waar 25% van de mensen slechter presteerde dan jij, en het 75e percentiel (P75) is het punt waar 75% van de mensen slechter presteerde dan jij. Dus, je kunt zien hoe iemand presteert ten opzichte van anderen zonder te hoeven weten hoeveel mensen er precies zijn. Het geeft een idee van waar iemand zich bevindt in de rangorde van prestaties. In een groep kunnen we niet zeggen dat de ene persoon een hogere percentielscore heeft dan de andere, omdat percentielscores gebaseerd zijn op rangordes. Percentielscores worden berekend door punten tussen de rangen te schatten. Hier is een voorbeeld om dit uit te leggen: Stel je voor dat 28% van de mensen een percentielscore van 61 of lager heeft en 34% van 62 of lager. Dat betekent dat 6% van de mensen een ruwe score heeft van 62. We kunnen de percentielscore voor die 6% schatten door te kijken naar de tussenliggende punten tussen 28% en 34%. Dus, de bijbehorende percentielscore voor die 6% zou zijn: 28 + 0.5 (34 - 28) = 31. Dit betekent dat die 6% van de mensen zich bevindt tussen de 28e en 34e percentiel, en we schatten hun percentielscore op 31. Het is een manier om te begrijpen waar ze in de rangorde van prestaties vallen. Percentielscores zijn niet afhankelijk van hoeveel mensen er in de groep zijn, maar ze hangen nog steeds af van hoe slim of hoe goed de mensen in die groep zijn, evenals hoeveel variatie er is in hun prestaties. Deze scores houden rekening met hoe mensen in de groep presteren in vergelijking met elkaar. Dit geldt niet voor percentiele normen, waarbij we proberen te schatten hoe de scores zouden worden verdeeld in de hele bevolking. Hier kijken we niet naar een specifieke groep, maar proberen we te begrijpen hoe mensen in het algemeen presteren op een test. De cumulatieve frequenties zijn dan een manier om te laten zien hoe scores zich verhouden tot de hele bevolking

wat is juist A De eenvoudigste manier om testprestaties te vergelijken tussen individuen is een rangorde. Deze rangorde leidt t tot een norm, want de rangscores zijn direct gebonden aan een specifieke groep en de groepsgrootte B De eenvoudigste manier om testprestaties te vergelijken tussen individuen is een rangorde. Deze rangorde leidt niet tot een norm, want de rangscores zijn direct gebonden aan een specifieke groep en de groepsgrootte

wat is juist a percentielscores zijn afhankelijk van groepsgrote en onafhankelijk van het niveau, spreiding en andere kenmerken van de groep b perecentielscores zijn onafhankelijk van de groepsgrote wel blijvenz e afhankelijk van het niveay, spreiding en andere kenmerken van de groep.

Een nadeel van percentielscores is dat de schaal ordinaal is: * Men mag geen gemiddelden en varianties berekenen. De relatie met andere variabelen dient in een rangcorrelatie te worden uitgedrukt. * Frequentieverdelingen van percentielscores zijn gelijk en rechthoekig van vorm, ongeacht de vorm van de verdeling van de ruwe scores. Percentiele en ruwe testscores zijn onvergelijkbaar (zie figuur onder), rond de mediaan worden percentielscores in relatie tot ruwe scores overschat en aan de uiteinden onderschat

Percentielscores hebben een beperking: Je mag geen gemiddelden en varianties berekenen met percentielscores. In plaats daarvan moet je de relatie met andere variabelen beoordelen met behulp van een rangorde (een soort ranglijst). De frequentieverdeling van percentielscores ziet er altijd hetzelfde uit, ongeacht hoe de scores eigenlijk verdeeld zijn. Hierdoor kunnen percentielscores en ruwe scores moeilijk met elkaar worden vergeleken. Rond het middelpunt (de mediaan) worden percentielscores ten opzichte van ruwe scores overschat, terwijl aan de uiteinden van de verdeling ze worden onderschat. Dit betekent dat percentielscores en ruwe scores niet gemakkelijk vergelijkbaar zijn.

Vergelijking en normen gebaseerd op gemiddelde en spreiding Om standaardscores of z-scores te verkrijgen worden de ruwe scores X uitgedrukt in het aantal standaarddeviaties dat zij van het gemiddelde verwijderd liggen. formulle pagina 42.

Genormaliseerde standaarscores pagina 42. Genormaliseerde standaardscores worden verkregen uit een niet-lineaire transformatie, die de verdeling van X zodanig vervormt dat wel een normaal verdeling ontstaat. Deze normalisering suggereert dus een normaalverdeling ook al gold dat niet voor de ruwe scores. Een tweetoppige verdeling omzetten in een normaalverdeling is een kunstmatige ingreep die enkel te verantwoorden is als men uit eerder onderzoek met dezelfde test in een grote, representatieve steekproef weet dat de testscores bij benadering normaal verdeeld zijn. Dan wil men mits de normaalverdeling enkel steekproefonregelmatigheden gladstrijken

genormaliseerde standaardscores zijn scores die worden aangepast om ze in een normale verdeling te laten passen, zelfs als de oorspronkelijke ruwe scores dat niet waren. Een normale verdeling is een soort symmetrische klokvormige curve. Dit betekent dat zelfs als de oorspronkelijke scores niet zo waren, de genormaliseerde scores lijken op een normale verdeling. Het idee is om de scores zodanig aan te passen dat ze eruitzien als een typische klokvormige curve. Het veranderen van een willekeurige verdeling in een normaalverdeling is iets dat we alleen doen als we al weten, op basis van eerdere onderzoeken met dezelfde test, dat de scores ongeveer normaal verdeeld zouden moeten zijn. Dus als we al weten dat de scores normaal zouden moeten zijn, kunnen we kunstmatige aanpassingen maken om de scores eruit te laten zien als een normale klokvormige curve. We doen dit om eventuele onregelmatigheden in de steekproef glad te strijken. Het is dus geen normale stap, maar iets dat we alleen doen als we weten dat het passend is voor de situatie.

Overige standaardscores Tot genormaliseerde standaardscores behoren de volgende, meest voorkomende vormen: * T-scores: er wordt bij de omzetting van ruwe scores X naar T-scores een gemiddelde van 50 en een spreiding van 10 aangenomen. De verdeling ligt dus praktisch tussen 20 en 80. Veel test zijn op deze manier genormaliseerd, mede door de aanbeveling van de American Psychological Association Stanines: ontwikkeld door US Air Force tijdens WO II teneinde zoveel mogelijk informatie op een IBM ponskaart te verwerken. Het midden van de 5e stanine komt overeen met het gemiddelde van de de verdeling (afbeelding) Deviatie IQ: standaardnormen met een gemiddelde van 100. Ipv de oorspronkelijke vergelijking van chronologische en mentale leeftijd worden de testprestaties per leeftijdsklasse verwerkt tot genormaliseerde standaardscores. De testprestatie van de persoon wordt dan geplaatst tegen de tot diens leeftijd behorende normaalverdeling. De scores in de WAIS zijn zo per leeftijd genormeerd met een gemiddelde van 100 en een spreiding van 15

wat hoort waarbij. a Stanines: b Deviatie IQ: c T-scores: standaardnormen met een gemiddelde van 100. Ipv de oorspronkelijke vergelijking van chronologische en mentale leeftijd worden de testprestaties per leeftijdsklasse verwerkt tot genormaliseerde standaardscores. De testprestatie van de persoon wordt dan geplaatst tegen de tot diens leeftijd behorende normaalverdeling. De scores in de WAIS zijn zo per leeftijd genormeerd met een gemiddelde van 100 en een spreiding van 15

wat hoort waarbij. ontwikkeld door US Air Force tijdens WO II teneinde zoveel mogelijk informatie op een IBM ponskaart te verwerken. Het midden van de 5e stanine komt overeen met het gemiddelde van de de verdeling (afbeelding a Stanines: b Deviatie IQ: c T-scores:

Stanines: