Toetsen op school Flashcards

Question 1

Q

meetfout (Error)

Answer

A

betrekking op alles wat de geobserveerde toetsscore doet verschillen van de ware score
- door zaken van leerling zelf
- door beoordeling beoordelaar
- door omstandigheden

kan positief en negatief

toetsangst wordt niet als meetfout gerekend, maar als eigenschap

ware persoonlijke score weten we niet, dus ook niet meetfout

Question 2

Q

klassieke testtheorie

Answer

A

Xjan, vandaag= Tjan (true score) + Ejan, vandaag (Error)

Variantie(x)=
Variantie(T) + Variantie(E)

we willen weten of var(E) relatief klein is.

betrouwbaarheid ( rho, dus gekke letter p)=
Var(T): Var(T) + Var(E)
zorgt voor getal tussen 0 en 1
(variantie kan niet negatief zijn)

Maar: T kennen we niet, dus kan niet gebruikt worden om betrouwbaarheid te berekenen

daarom: interne consistentiemethode

Question 3

Q

interne-consistentiemethode

Answer

A

schatting betrouwbaarheid toetsscores

gaat uit van toets maar één keer afgenomen

meest bekend: betrouwbaarheidscoëfficiënt, Cronbach’s alfa (tussen 0 en 1)

formule blz 53

k= aantal items van toets
noemer: variantie geobserveerde toetsscores
teller: van elk item variantie van geobs. scores berekenen en optellen

geschikt voor dichotoom en polytome

voor dichotoom ook: KR20

coëfficiënt gebruiken om verschillende toetsen te vergelijken (wel zelfde aantal scorepunten)
niet geschikt voor betrouwbaarheid individuele scores

Question 4

Q

interpreteren betrouwbaarheid

Answer

A

hoge betrouwbaarheid:
ware score van leerling kunnen voorspellen
1 = toetsscore is ware score

en bij afname tweede soortgelijke toets dezelfde soort score te verwachten

voor belangrijke beslissingen: minimaal .90

verder: 0,70

kanttekeningen cronbach’s alfa:
- geeft ondergrens aan, kan ook hoger zijn
- kan ook hoog scoren bij heterogene items

doelgroep voor wie toets bedoeld heeft: daar scores betrouwbaarder dan bij andere doelgroep
heeft te maken met validiteit

Question 5

Q

p-waarde

Answer

A

= indicatie moeilijkheidsgraad
->gemiddelde score delen door maximumscore

p=1 > iedereen goed
p=0 > niemand goed

bij dichotoom item: p is proportie personen dat correct doet
bij polytoom: gemiddelde score die behaald is delen door maximumscore van dat item

Question 6

Q

standaardmeetfout

Answer

A

standaardafwijking (sd) van meetfouten van toetsscores
> SE(x)

belangrijke relatie tussen standaardmeetfhout en betrouwbaarheid
bv. rho = 0, dan SE(x) = SD(x)
rho = 1, dan SE(x)= 0

rho kun je schatten met cronbach’s alfa

kan gebruikt om betrouwbaarheid individuele scores te bepalen

SE(X) = SD(X) wortel 1-p

SD(X) -> standaardafwijking van geobserveerde scores

vuistregel inschatten standaardmeetfout, bv vooraf aan toets als je moeilijkheid kan inschatten

wortel van maximumscore x 0,45
dit bij toets waarbij gemidd 50% van maximumscore wordt behaald
Moeilijkere toets, dan hoger van 0.45 en makkelijker dan lager

standaardmeetfout van leerlingen rond het gemiddelde zal groter zijn dan standaardmeetfout van leerlingen die hoog of laag scoren, dus
betrouwbaarheid groter bij hoge/lage scores.

Question 7

Q

kans dat betrouwbaarheidsinterval de ware score bevat (P)

Answer

A

probability dat score binnen interval valt
bv. 0,90:
Wanneer we de toets een groot aantal keren zouden afnemen en iedere keer het betrouwbaarheidsinterval uitrekenen, in 90% van die keren ware score binnen het interval

dus: 90% kans dat de score de ware score is als die binnen het interval valt

Question 8

Q

interval berekenen

Answer

A

formule blz 57

standaardmeetfout nodig
en geobserveerde score

hoe komen ze aan die 1,645? staat die al in de formule?
Ja: later staat bij 68% betrouwbaarheid moet daar een 1 staan, bij 95% 1,96 en bij 99% 2,58
Want bij normaalverdeling:
90% van scores tussen 1,645 sd boven/beneden gemidd score
en bij 95% 1,96 sd (twee) boven/beneden gemidd score

bij overlap in interval kun je niet concluderen dat het ware cijfer van de een hoger is dan die van de ander

bij vrij hoge betrouwbaarheid (o,83) toch nog behoorlijk interval.
verlenging van de toets is meest effectieve manier om betrouwbaarheid te vergroten.

bij belangrijke beslissingen niet alleen baseren op een enkele toets

Question 9

Q

misclassificaties

Answer

A

leerlingen die ten onrechte (on)voldoende kregen
meestal alleen bij scores rond cesuur

bij verschil tussen ware en geobserveerde scores

kan in beslissingstabel bekeken worden (door computer geanalyseerd)

factoren die beïnvloeden:
- lage betrouwbaarheid toets
- hoogte cesuur

Question 10

Q

misclassificaties meerdere toetsen

Answer

A

uitslagregels:
- conjuctief: op alle toetsen moet voldoende gehaald worden
- complementair: niet alle toetsen hoeven voldoende te zijn
- compensatorisch: onvoldoende cijfers op sommige toetsen kunnen gecompenseerd met voldoende cijfers andere vakken

> kan ook meerdere van bovenstaande tegelijk van kracht zijn

Question 11

Q

betrouwbaarheid van beoordelingen bij beoordelaars

Answer

A

objectieve beoordeling nagenoeg nooit gerealiseerd

meetfout: zelfde vraag verschillende beoordelingen

twee maken voor kwantificeren verschillen:
- beoordelaarsbetrouwbaarheid
- beoordelaarsovereenstemming

Als ranking hetzelfde is (bv beoordelaar 2 geeft overal 2 punten meer dan beoordelaar 1) dan is betrouwbaarheid een 1, perfect. Toch maakt het veel verschil.

Bij overal dezelfde beoordeling: overeenstemming is perfect

hoge betrouwbaarheid en overeenstemming zegt niet iets over de toetsbetrouwbaarheid
langer maken van toets = meer betrouwbaar

bij meerdere onafhankelijke beoordelaars is betrouwbaarheid beoordeling groter

Question 12

Q

wat beïnvloed betrouwbaarheid score, standaard meetfout, misclassificaties en overeenstemming beoordelaars?

Answer

A

toetskenmerken
condities afname toets
samenstelling groep

Question 13

Q

toetskenmerken

Answer

A

> lengte: langer = betrouwbaarder

relatie betrouwbaarheid en lengte: spearman-Brown formule (blz 65)

standaardmeetfout wordt wel ook groter (4x zo lang, meetfout 2x zo groot)
toch wel nauwkeuriger

> vraagvorm: objectievere scoorbare vragen = betrouwbaarder
denk aan meerkeuze, korte antwoord

> kwaliteit van items: items van gemiddelde moeilijkheidsgraad en die goed slechte en betere ll kunnen onderscheiden = betrouwbaarder

Question 14

Q

afname condities

Answer

A

omgevingsfactoren, instructie

Question 15

Q

samenstelling groep

Answer

A

ware verschillen klein, dan toets minder betrouwbaar,
verhouding varianties van ware en geobserveerde scores kleiner
verschillen tussen leerlingen dan zeer gering

Question 16

Q

validiteit

Answer

A

interpretatie en gebruik van toetsscores: biedt de toetsscore de info waar we in geïnteresseerd zijn/ kunnen op basis van deze scores de gewenste beslissingen genomen worden?

Question 17

Q

valideren

Answer

A

verzamelen, combineren en presenteren van bewijzen voor validiteit
> beste door bewijs uit verschillende categorieën

interpretatie van : welke betekenis heeft score?
bv. een beschrijving van de inhoud
gebruik van: welke beslissingen neem ik op grond van?
valide interpretatie is de voorwaarde voor een valide gebruik

Question 18

Q

inhoudsbewijzen

Answer

A

is inhoud representatief voor alle leerstof/vaardigheid (domeindekking)

bewijs:
- toetsmatrijs
- oordelen van experts over representativiteit en relevantie

belangrijk dat alles aan bod komt. Aantal vragen over onderwerp kan wel afhangen van het belang.

kwalitatief, gebaseerd op analyses van deskundigen

Question 19

Q

complexiteitsbewijzen

Answer

A

complexiteit van cognitieve processen hetzelfde als van de taken,
zelfde kennishandelingen

bewijs:
- beschrijving van vaardigheid
- dat kennishandelingen daadwerkelijk gebruikt worden, bv hardop denken.

kwalitatief, gebaseerd op analyses van deskundigen

Question 20

Q

interne structuur bewijzen

Answer

A

relatie tussen vragen onderling en tussen de vragen en complete toets

samenhang vragen kan kwantitatief bepaald worden door correlatie te berekenen

zowel kwantitatief (correlatiecoëfficiënten) en kwalitatief (verklaring voor bestaan/ontbreken samenhang)

Question 21

Q

externe structuur bewijzen

Answer

A

samenhang tussen scores van ll op bepaalde toets en externe criterium (=scores op andere toetsen/ oordelen docenten)

bv. onderzoek samenhang korte screeningslijst voor taalachterstand en meerdaagse test

kan ook juist lage samenhang moeten zijn: bv. rekenvaardigheidstoets en score leesvaardigheid

zowel kwantitatief (corr. coeff) als kwalitatief (verklaring voor bestaan/ontbreken samenhang)

Question 22

Q

betrouwbaarheidsbewijzen

Answer

A

noodzakelijk voor validiteit, maar niet voldoende.
toets kan betrouwbaar zijn, maar toch niet valide (meet iets anders bv)

bewijs:
- Cronbach’s alfa
- standaardmeetfout
- percentage misclassificaties
(zie hierboven)

Question 23

Q

extrapoleerbaarheidsbewijzen

Answer

A

dat prestaties van toets ook betekenis hebben buiten die context

authenticiteit van vragen/opdrachten (lijkt op praktijk) van belang
daarom veel toetsen in praktijk
kan niet altijd: dus concessie

kwalitatief: vergelijkingen tussen responsen gevraagd op toets en wat in praktijk gevraagd wordt.
geleverd door betrokkenen uit onderwijs en praktijk

Question 24

Q

consequentiële bewijzen

Answer

A

verwachte en onverwachte consequenties

bv. harder leren na onvoldoende of meer uitleg

vaak kwantitatief, bv betere leerprestaties of onderwijsprestaties