Toetsen op school Flashcards
meetfout (Error)
betrekking op alles wat de geobserveerde toetsscore doet verschillen van de ware score
- door zaken van leerling zelf
- door beoordeling beoordelaar
- door omstandigheden
kan positief en negatief
toetsangst wordt niet als meetfout gerekend, maar als eigenschap
ware persoonlijke score weten we niet, dus ook niet meetfout
klassieke testtheorie
Xjan, vandaag= Tjan (true score) + Ejan, vandaag (Error)
Variantie(x)=
Variantie(T) + Variantie(E)
we willen weten of var(E) relatief klein is.
betrouwbaarheid ( rho, dus gekke letter p)=
Var(T): Var(T) + Var(E)
zorgt voor getal tussen 0 en 1
(variantie kan niet negatief zijn)
Maar: T kennen we niet, dus kan niet gebruikt worden om betrouwbaarheid te berekenen
daarom: interne consistentiemethode
interne-consistentiemethode
schatting betrouwbaarheid toetsscores
gaat uit van toets maar één keer afgenomen
meest bekend: betrouwbaarheidscoëfficiënt, Cronbach’s alfa (tussen 0 en 1)
formule blz 53
k= aantal items van toets
noemer: variantie geobserveerde toetsscores
teller: van elk item variantie van geobs. scores berekenen en optellen
geschikt voor dichotoom en polytome
voor dichotoom ook: KR20
coëfficiënt gebruiken om verschillende toetsen te vergelijken (wel zelfde aantal scorepunten)
niet geschikt voor betrouwbaarheid individuele scores
interpreteren betrouwbaarheid
hoge betrouwbaarheid:
ware score van leerling kunnen voorspellen
1 = toetsscore is ware score
en bij afname tweede soortgelijke toets dezelfde soort score te verwachten
voor belangrijke beslissingen: minimaal .90
verder: 0,70
kanttekeningen cronbach’s alfa:
- geeft ondergrens aan, kan ook hoger zijn
- kan ook hoog scoren bij heterogene items
doelgroep voor wie toets bedoeld heeft: daar scores betrouwbaarder dan bij andere doelgroep
heeft te maken met validiteit
p-waarde
= indicatie moeilijkheidsgraad
->gemiddelde score delen door maximumscore
p=1 > iedereen goed
p=0 > niemand goed
bij dichotoom item: p is proportie personen dat correct doet
bij polytoom: gemiddelde score die behaald is delen door maximumscore van dat item
standaardmeetfout
standaardafwijking (sd) van meetfouten van toetsscores
> SE(x)
belangrijke relatie tussen standaardmeetfhout en betrouwbaarheid
bv. rho = 0, dan SE(x) = SD(x)
rho = 1, dan SE(x)= 0
rho kun je schatten met cronbach’s alfa
kan gebruikt om betrouwbaarheid individuele scores te bepalen
SE(X) = SD(X) wortel 1-p
SD(X) -> standaardafwijking van geobserveerde scores
vuistregel inschatten standaardmeetfout, bv vooraf aan toets als je moeilijkheid kan inschatten
wortel van maximumscore x 0,45
dit bij toets waarbij gemidd 50% van maximumscore wordt behaald
Moeilijkere toets, dan hoger van 0.45 en makkelijker dan lager
standaardmeetfout van leerlingen rond het gemiddelde zal groter zijn dan standaardmeetfout van leerlingen die hoog of laag scoren, dus
betrouwbaarheid groter bij hoge/lage scores.
kans dat betrouwbaarheidsinterval de ware score bevat (P)
probability dat score binnen interval valt
bv. 0,90:
Wanneer we de toets een groot aantal keren zouden afnemen en iedere keer het betrouwbaarheidsinterval uitrekenen, in 90% van die keren ware score binnen het interval
dus: 90% kans dat de score de ware score is als die binnen het interval valt
interval berekenen
formule blz 57
standaardmeetfout nodig
en geobserveerde score
hoe komen ze aan die 1,645? staat die al in de formule?
Ja: later staat bij 68% betrouwbaarheid moet daar een 1 staan, bij 95% 1,96 en bij 99% 2,58
Want bij normaalverdeling:
90% van scores tussen 1,645 sd boven/beneden gemidd score
en bij 95% 1,96 sd (twee) boven/beneden gemidd score
bij overlap in interval kun je niet concluderen dat het ware cijfer van de een hoger is dan die van de ander
bij vrij hoge betrouwbaarheid (o,83) toch nog behoorlijk interval.
verlenging van de toets is meest effectieve manier om betrouwbaarheid te vergroten.
bij belangrijke beslissingen niet alleen baseren op een enkele toets
misclassificaties
leerlingen die ten onrechte (on)voldoende kregen
meestal alleen bij scores rond cesuur
bij verschil tussen ware en geobserveerde scores
kan in beslissingstabel bekeken worden (door computer geanalyseerd)
factoren die beïnvloeden:
- lage betrouwbaarheid toets
- hoogte cesuur
misclassificaties meerdere toetsen
uitslagregels:
- conjuctief: op alle toetsen moet voldoende gehaald worden
- complementair: niet alle toetsen hoeven voldoende te zijn
- compensatorisch: onvoldoende cijfers op sommige toetsen kunnen gecompenseerd met voldoende cijfers andere vakken
> kan ook meerdere van bovenstaande tegelijk van kracht zijn
betrouwbaarheid van beoordelingen bij beoordelaars
objectieve beoordeling nagenoeg nooit gerealiseerd
meetfout: zelfde vraag verschillende beoordelingen
twee maken voor kwantificeren verschillen:
- beoordelaarsbetrouwbaarheid
- beoordelaarsovereenstemming
Als ranking hetzelfde is (bv beoordelaar 2 geeft overal 2 punten meer dan beoordelaar 1) dan is betrouwbaarheid een 1, perfect. Toch maakt het veel verschil.
Bij overal dezelfde beoordeling: overeenstemming is perfect
hoge betrouwbaarheid en overeenstemming zegt niet iets over de toetsbetrouwbaarheid
langer maken van toets = meer betrouwbaar
bij meerdere onafhankelijke beoordelaars is betrouwbaarheid beoordeling groter
wat beïnvloed betrouwbaarheid score, standaard meetfout, misclassificaties en overeenstemming beoordelaars?
- toetskenmerken
- condities afname toets
- samenstelling groep
toetskenmerken
> lengte: langer = betrouwbaarder
relatie betrouwbaarheid en lengte: spearman-Brown formule (blz 65)
standaardmeetfout wordt wel ook groter (4x zo lang, meetfout 2x zo groot)
toch wel nauwkeuriger
> vraagvorm: objectievere scoorbare vragen = betrouwbaarder
denk aan meerkeuze, korte antwoord
> kwaliteit van items: items van gemiddelde moeilijkheidsgraad en die goed slechte en betere ll kunnen onderscheiden = betrouwbaarder
afname condities
omgevingsfactoren, instructie
samenstelling groep
ware verschillen klein, dan toets minder betrouwbaar,
verhouding varianties van ware en geobserveerde scores kleiner
verschillen tussen leerlingen dan zeer gering
validiteit
interpretatie en gebruik van toetsscores: biedt de toetsscore de info waar we in geïnteresseerd zijn/ kunnen op basis van deze scores de gewenste beslissingen genomen worden?
valideren
verzamelen, combineren en presenteren van bewijzen voor validiteit
> beste door bewijs uit verschillende categorieën
- interpretatie van : welke betekenis heeft score?
bv. een beschrijving van de inhoud - gebruik van: welke beslissingen neem ik op grond van?
valide interpretatie is de voorwaarde voor een valide gebruik
inhoudsbewijzen
is inhoud representatief voor alle leerstof/vaardigheid (domeindekking)
bewijs:
- toetsmatrijs
- oordelen van experts over representativiteit en relevantie
belangrijk dat alles aan bod komt. Aantal vragen over onderwerp kan wel afhangen van het belang.
kwalitatief, gebaseerd op analyses van deskundigen
complexiteitsbewijzen
complexiteit van cognitieve processen hetzelfde als van de taken,
zelfde kennishandelingen
bewijs:
- beschrijving van vaardigheid
- dat kennishandelingen daadwerkelijk gebruikt worden, bv hardop denken.
kwalitatief, gebaseerd op analyses van deskundigen
interne structuur bewijzen
relatie tussen vragen onderling en tussen de vragen en complete toets
samenhang vragen kan kwantitatief bepaald worden door correlatie te berekenen
zowel kwantitatief (correlatiecoëfficiënten) en kwalitatief (verklaring voor bestaan/ontbreken samenhang)
externe structuur bewijzen
samenhang tussen scores van ll op bepaalde toets en externe criterium (=scores op andere toetsen/ oordelen docenten)
bv. onderzoek samenhang korte screeningslijst voor taalachterstand en meerdaagse test
kan ook juist lage samenhang moeten zijn: bv. rekenvaardigheidstoets en score leesvaardigheid
zowel kwantitatief (corr. coeff) als kwalitatief (verklaring voor bestaan/ontbreken samenhang)
betrouwbaarheidsbewijzen
noodzakelijk voor validiteit, maar niet voldoende.
toets kan betrouwbaar zijn, maar toch niet valide (meet iets anders bv)
bewijs:
- Cronbach’s alfa
- standaardmeetfout
- percentage misclassificaties
(zie hierboven)
extrapoleerbaarheidsbewijzen
dat prestaties van toets ook betekenis hebben buiten die context
authenticiteit van vragen/opdrachten (lijkt op praktijk) van belang
daarom veel toetsen in praktijk
kan niet altijd: dus concessie
kwalitatief: vergelijkingen tussen responsen gevraagd op toets en wat in praktijk gevraagd wordt.
geleverd door betrokkenen uit onderwijs en praktijk
consequentiële bewijzen
verwachte en onverwachte consequenties
bv. harder leren na onvoldoende of meer uitleg
vaak kwantitatief, bv betere leerprestaties of onderwijsprestaties