Toetsen op school Flashcards

1
Q

meetfout (Error)

A

betrekking op alles wat de geobserveerde toetsscore doet verschillen van de ware score
- door zaken van leerling zelf
- door beoordeling beoordelaar
- door omstandigheden

kan positief en negatief

toetsangst wordt niet als meetfout gerekend, maar als eigenschap

ware persoonlijke score weten we niet, dus ook niet meetfout

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

klassieke testtheorie

A

Xjan, vandaag= Tjan (true score) + Ejan, vandaag (Error)

Variantie(x)=
Variantie(T) + Variantie(E)

we willen weten of var(E) relatief klein is.

betrouwbaarheid ( rho, dus gekke letter p)=
Var(T): Var(T) + Var(E)
zorgt voor getal tussen 0 en 1
(variantie kan niet negatief zijn)

Maar: T kennen we niet, dus kan niet gebruikt worden om betrouwbaarheid te berekenen

daarom: interne consistentiemethode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

interne-consistentiemethode

A

schatting betrouwbaarheid toetsscores

gaat uit van toets maar één keer afgenomen

meest bekend: betrouwbaarheidscoëfficiënt, Cronbach’s alfa (tussen 0 en 1)

formule blz 53

k= aantal items van toets
noemer: variantie geobserveerde toetsscores
teller: van elk item variantie van geobs. scores berekenen en optellen

geschikt voor dichotoom en polytome

voor dichotoom ook: KR20

coëfficiënt gebruiken om verschillende toetsen te vergelijken (wel zelfde aantal scorepunten)
niet geschikt voor betrouwbaarheid individuele scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

interpreteren betrouwbaarheid

A

hoge betrouwbaarheid:
ware score van leerling kunnen voorspellen
1 = toetsscore is ware score

en bij afname tweede soortgelijke toets dezelfde soort score te verwachten

voor belangrijke beslissingen: minimaal .90

verder: 0,70

kanttekeningen cronbach’s alfa:
- geeft ondergrens aan, kan ook hoger zijn
- kan ook hoog scoren bij heterogene items

doelgroep voor wie toets bedoeld heeft: daar scores betrouwbaarder dan bij andere doelgroep
heeft te maken met validiteit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

p-waarde

A

= indicatie moeilijkheidsgraad
->gemiddelde score delen door maximumscore

p=1 > iedereen goed
p=0 > niemand goed

bij dichotoom item: p is proportie personen dat correct doet
bij polytoom: gemiddelde score die behaald is delen door maximumscore van dat item

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

standaardmeetfout

A

standaardafwijking (sd) van meetfouten van toetsscores
> SE(x)

belangrijke relatie tussen standaardmeetfhout en betrouwbaarheid
bv. rho = 0, dan SE(x) = SD(x)
rho = 1, dan SE(x)= 0

rho kun je schatten met cronbach’s alfa

kan gebruikt om betrouwbaarheid individuele scores te bepalen

SE(X) = SD(X) wortel 1-p

SD(X) -> standaardafwijking van geobserveerde scores

vuistregel inschatten standaardmeetfout, bv vooraf aan toets als je moeilijkheid kan inschatten

wortel van maximumscore x 0,45
dit bij toets waarbij gemidd 50% van maximumscore wordt behaald
Moeilijkere toets, dan hoger van 0.45 en makkelijker dan lager

standaardmeetfout van leerlingen rond het gemiddelde zal groter zijn dan standaardmeetfout van leerlingen die hoog of laag scoren, dus
betrouwbaarheid groter bij hoge/lage scores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

kans dat betrouwbaarheidsinterval de ware score bevat (P)

A

probability dat score binnen interval valt
bv. 0,90:
Wanneer we de toets een groot aantal keren zouden afnemen en iedere keer het betrouwbaarheidsinterval uitrekenen, in 90% van die keren ware score binnen het interval

dus: 90% kans dat de score de ware score is als die binnen het interval valt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

interval berekenen

A

formule blz 57

standaardmeetfout nodig
en geobserveerde score

hoe komen ze aan die 1,645? staat die al in de formule?
Ja: later staat bij 68% betrouwbaarheid moet daar een 1 staan, bij 95% 1,96 en bij 99% 2,58
Want bij normaalverdeling:
90% van scores tussen 1,645 sd boven/beneden gemidd score
en bij 95% 1,96 sd (twee) boven/beneden gemidd score

bij overlap in interval kun je niet concluderen dat het ware cijfer van de een hoger is dan die van de ander

bij vrij hoge betrouwbaarheid (o,83) toch nog behoorlijk interval.
verlenging van de toets is meest effectieve manier om betrouwbaarheid te vergroten.

bij belangrijke beslissingen niet alleen baseren op een enkele toets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

misclassificaties

A

leerlingen die ten onrechte (on)voldoende kregen
meestal alleen bij scores rond cesuur

bij verschil tussen ware en geobserveerde scores

kan in beslissingstabel bekeken worden (door computer geanalyseerd)

factoren die beïnvloeden:
- lage betrouwbaarheid toets
- hoogte cesuur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

misclassificaties meerdere toetsen

A

uitslagregels:
- conjuctief: op alle toetsen moet voldoende gehaald worden
- complementair: niet alle toetsen hoeven voldoende te zijn
- compensatorisch: onvoldoende cijfers op sommige toetsen kunnen gecompenseerd met voldoende cijfers andere vakken

> kan ook meerdere van bovenstaande tegelijk van kracht zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

betrouwbaarheid van beoordelingen bij beoordelaars

A

objectieve beoordeling nagenoeg nooit gerealiseerd

meetfout: zelfde vraag verschillende beoordelingen

twee maken voor kwantificeren verschillen:
- beoordelaarsbetrouwbaarheid
- beoordelaarsovereenstemming

Als ranking hetzelfde is (bv beoordelaar 2 geeft overal 2 punten meer dan beoordelaar 1) dan is betrouwbaarheid een 1, perfect. Toch maakt het veel verschil.

Bij overal dezelfde beoordeling: overeenstemming is perfect

hoge betrouwbaarheid en overeenstemming zegt niet iets over de toetsbetrouwbaarheid
langer maken van toets = meer betrouwbaar

bij meerdere onafhankelijke beoordelaars is betrouwbaarheid beoordeling groter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

wat beïnvloed betrouwbaarheid score, standaard meetfout, misclassificaties en overeenstemming beoordelaars?

A
  • toetskenmerken
  • condities afname toets
  • samenstelling groep
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

toetskenmerken

A

> lengte: langer = betrouwbaarder

relatie betrouwbaarheid en lengte: spearman-Brown formule (blz 65)

standaardmeetfout wordt wel ook groter (4x zo lang, meetfout 2x zo groot)
toch wel nauwkeuriger

> vraagvorm: objectievere scoorbare vragen = betrouwbaarder
denk aan meerkeuze, korte antwoord

> kwaliteit van items: items van gemiddelde moeilijkheidsgraad en die goed slechte en betere ll kunnen onderscheiden = betrouwbaarder

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

afname condities

A

omgevingsfactoren, instructie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

samenstelling groep

A

ware verschillen klein, dan toets minder betrouwbaar,
verhouding varianties van ware en geobserveerde scores kleiner
verschillen tussen leerlingen dan zeer gering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

validiteit

A

interpretatie en gebruik van toetsscores: biedt de toetsscore de info waar we in geïnteresseerd zijn/ kunnen op basis van deze scores de gewenste beslissingen genomen worden?

17
Q

valideren

A

verzamelen, combineren en presenteren van bewijzen voor validiteit
> beste door bewijs uit verschillende categorieën

  • interpretatie van : welke betekenis heeft score?
    bv. een beschrijving van de inhoud
  • gebruik van: welke beslissingen neem ik op grond van?
    valide interpretatie is de voorwaarde voor een valide gebruik
18
Q

inhoudsbewijzen

A

is inhoud representatief voor alle leerstof/vaardigheid (domeindekking)

bewijs:
- toetsmatrijs
- oordelen van experts over representativiteit en relevantie

belangrijk dat alles aan bod komt. Aantal vragen over onderwerp kan wel afhangen van het belang.

kwalitatief, gebaseerd op analyses van deskundigen

19
Q

complexiteitsbewijzen

A

complexiteit van cognitieve processen hetzelfde als van de taken,
zelfde kennishandelingen

bewijs:
- beschrijving van vaardigheid
- dat kennishandelingen daadwerkelijk gebruikt worden, bv hardop denken.

kwalitatief, gebaseerd op analyses van deskundigen

20
Q

interne structuur bewijzen

A

relatie tussen vragen onderling en tussen de vragen en complete toets

samenhang vragen kan kwantitatief bepaald worden door correlatie te berekenen

zowel kwantitatief (correlatiecoëfficiënten) en kwalitatief (verklaring voor bestaan/ontbreken samenhang)

21
Q

externe structuur bewijzen

A

samenhang tussen scores van ll op bepaalde toets en externe criterium (=scores op andere toetsen/ oordelen docenten)

bv. onderzoek samenhang korte screeningslijst voor taalachterstand en meerdaagse test

kan ook juist lage samenhang moeten zijn: bv. rekenvaardigheidstoets en score leesvaardigheid

zowel kwantitatief (corr. coeff) als kwalitatief (verklaring voor bestaan/ontbreken samenhang)

22
Q

betrouwbaarheidsbewijzen

A

noodzakelijk voor validiteit, maar niet voldoende.
toets kan betrouwbaar zijn, maar toch niet valide (meet iets anders bv)

bewijs:
- Cronbach’s alfa
- standaardmeetfout
- percentage misclassificaties
(zie hierboven)

23
Q

extrapoleerbaarheidsbewijzen

A

dat prestaties van toets ook betekenis hebben buiten die context

authenticiteit van vragen/opdrachten (lijkt op praktijk) van belang
daarom veel toetsen in praktijk
kan niet altijd: dus concessie

kwalitatief: vergelijkingen tussen responsen gevraagd op toets en wat in praktijk gevraagd wordt.
geleverd door betrokkenen uit onderwijs en praktijk

24
Q

consequentiële bewijzen

A

verwachte en onverwachte consequenties

bv. harder leren na onvoldoende of meer uitleg

vaak kwantitatief, bv betere leerprestaties of onderwijsprestaties