Testtheorie Flashcards

1
Q

Fiatmeting

A

Meting van bijv. subjectieve concepten zoals ervaringen, tevredenheid, etc. Bijv. in een Likertschaal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Indexmeting

A

Bijv. CPI (consumentenprijsindex). Een bepaald jaar wordt als indexjaar genomen en is dus 100. Het daaropvolgende jaar is 104, dit is een stijging van 4 procentpunten ten opzichte van het indexjaar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voorwaarden lineaire regressie

A
  1. Samenhang tussen onafhankelijke variabele X en afhankelijke variabele Y. 2. Afhankelijke variabele mag alleen continu zijn. 3. Niet geschikt voor herhaaldelijke metingen (mag maar 1 keer gemeten zijn). 4. De variabele
    Y heeft een normaalverdeling voor elke waarde van X. 5. De verdelingen van de Y variabele hebben een gelijke variantie (of standaarddeviatie) voor elke waarde van X.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Pijlers van kwaliteit van een test.

A

Validiteit, betrouwbaarheid en normering.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tests voor prestatieniveau

A

Foute of goede antwoorden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tests voor gedragswijzen

A

Bijvoorbeeld een beroepskeuzetest (je kunt niet hoog of laag testen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kwalitatieve prestatietests

A

Kwalitatieve prestatietests zijn evaluaties die niet alleen de prestaties van een individu meten, maar ook proberen inzicht te krijgen in de onderliggende processen en eigenschappen die tot die prestaties leiden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vorderingentest

A

Testen die specifiek gericht zijn op het meten van prestaties die door leren of oefening tot
stand zijn gekomen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

p-waarde

A

Probability. Moeilijkheid van de toetsvraag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Rit-waarde R=Relation I=Item T=Totale score

A

De toetsvragen die door de hoogscorende leerlingen goed gemaakt zijn, en foutief door de laagscorende leerlingen zorgen voor een onderscheid tussen die twee groepen. = onderscheidend vermogen. Bereik +1 en -1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Normen Rit-waarde

A

0.35 en hoger = zeer goed
0.25-0.35 = voldoende goed
0.15-0.25 = middelmatig voldoende
<0.15 = slecht/middelmatig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Berekening P-waarde

A

De toetsvragen die door de hoogscorende leerlingen goed gemaakt zijn, en foutief door de laagscorende leerlingen zorgen voor een onderscheid tussen die twee groepen. P= percentage per item in % gedeeld door 100. Beste P-waarde voor (juist/onjuist vraag is 0,75. )Ongecorrigeerd tussen 0,5-0,75. Gecorrigeerde p-waarde ong. 0,5
Heel laag of heel hoog zijn geen goede vragen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Gebruik Rit-waarde en Spearmans rangcorrelatiecoefficient

A

Een hoge Rit-waarde betekent dat de vraag goed discrimineert tussen leerlingen die de stof goed beheersen en degenen die dat minder doen. Spearman’s rangcorrelatiecoëfficiënt wordt vaak gebruikt wanneer de data niet normaal verdeeld zijn of wanneer de relatie tussen de variabelen niet lineair is. De waarde varieert van -1 tot 1, waarbij 1 een perfecte positieve monotone relatie aangeeft, -1 een perfecte negatieve monotone relatie, en 0 geen monotone relatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Betrouwbaarheid

A

Stabiliteit of consistentie van de toetsscores. Als een toets betrouwbaar genoemd wordt, betekent het dat de toetsscores de leerlingen op een betrouwbare manier ordenen. Het moet herhaalbaar zijn. Een meting is betrouwbaar wanneer zij bij herhaling tot dezelfde uitkomst leidt. Betrouwbaarheid is een eigenschap van metingen en niet van meetinstrumenten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Test-hertestbetrouwbaarheid

A

Om te weten of de toets betrouwbaar is en of de meting iets te betekenen heeft, zou eigenlijk direct na de toetsafname een vergelijkbare toets moeten worden afgenomen onder dezelfde studenten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Cronbachs alfa

A

Meten van betrouwbaarheid of interne consistentie. Tussen 0 en 1 (1=max betrouwbaar). 0.6 = laag acceptabel op schooltoetsen. 0,85 op tevredenheidsonderzoek meten dus hetzelfde construct binnen de vragen. Hoe meer vragen in de toets hoe betrouwbaarder het wordt. (Beperking bij kleine toetsen en weinig deelnemers, wat zeggen de toetsvragen (zegt de toets iets over de prestatie)).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Meetfout

A

Het verschil tussen de geobserveerde score en de ware score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Geobserveerde score

A

De som van de
ware score van die leerling en de meetfout die we maken op het moment van de toetsafname. De geobserveerde score is het cijfer dat de student daadwerkelijk krijgt, dat kan worden beïnvloed door toevallige factoren zoals zenuwen of een onverwacht lastig geformuleerde vraag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Variantie berekenen

A

1 Bereken de gemiddelde toetsscore.
2 Trek van de toetsscore van elke leerling de gemiddelde toetsscore af. Dit resulteert in
negatieve en positieve verschillen.
3 Kwadrateer die verschillen en tel ze op.
4 Deel de uitkomst van stap 3 door het aantal leerlingen. Deze uitkomst geeft de variantie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Standaardafwijking berekenen

A

Neem de vierkantswortel van de variantie en die uitkomst is de standaardafwijking.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Goodman en Kruskal’s tau

A

meet bijv. hoeveel beter je de voorkeur voor het product kunt voorspellen als je het geslacht kent, vergeleken met een willekeurige voorspelling. Nominale/categorische variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Cramer’s V

A

Cramér’s V is een maat voor de associatie tussen twee nominale variabelen. Het wordt vaak gebruikt in combinatie met de chi-kwadraattoets om de sterkte van de relatie tussen de variabelen te bepalen. Bereik tussen 0 en 1. 1 is perfecte samenhang.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Chi kwadraat

A

Wordt gebruikt om te bepalen of er een significante associatie is tussen twee categorische variabelen. Het is een niet-parametrische toets, wat betekent dat het geen aannames maakt over de verdeling van de data.

24
Q

Validiteit

A

Meet de test wat het bedoelt te meten? Validiteit is afhankelijk van het doel van een toets en daarom is het mogelijk dat een toets voor
het ene doel valide is en voor een ander doel niet. Toetsen zelf kunnen namelijk niet valide zijn maar de toetsscores wel.

25
Q

Inhoudsvaliditeit

A
26
Q

Criteriumvaliditeit

A
27
Q

Begripsvaliditeit

A
28
Q

Externe structuurs validiteit

A
29
Q

Discriminant validity

A

Bijv. test om dyslexie te meten. De test mag niet hoog correleren met een normale leestest.

30
Q

Wat zijn de twee kwaliteitsindicatoren en wat meten ze?

A

P-waarde: De moeilijkheid van de toetsvraag. Lage P-waarde is moeilijker.
Rit-waarde: Het onderscheidend vermogen van de toetsvraag.

31
Q

Beoordelaarsbetrouwbaarheid

A

Wanneer meerdere docenten hetzelfde oordeel geven over een student op basis van de beoordelingslijst, is er sprake van hoge beoordelaarsbetrouwbaarheid. Als de beoordelaars echter sterk uiteenlopende scores geven, dan zou dat kunnen wijzen op lage beoordelaarsbetrouwbaarheid, wat kan betekenen dat de beoordelingscriteria mogelijk te vaag zijn of dat de beoordelaars aanvullende training nodig hebben.

32
Q

Beoordelaarsovereenstemming

A

Als alle drie docenten een bepaalde student een 4 geven op empathie en een 5 op duidelijkheid, is er een hoge beoordelaarsovereenstemming. Dit betekent dat zij overeenstemmen in hun beoordeling van de vaardigheden van de student.

Hoge beoordelaarsovereenstemming is wenselijk omdat het aangeeft dat de beoordeling niet sterk varieert per beoordelaar en dat de rubriek waarschijnlijk duidelijke en eenduidige criteria biedt.

33
Q

Betrouwbaarheid door meten van lengte van een toets

A

De relatie tussen betrouwbaarheid en de lengte van de
toets wordt uitgedrukt door de Spearman-Brown formule.Meestal heeft het verlengen van een toets zin als de toets uit relatief
weinig items bestaat en als de betrouwbaarheid van de toets niet te laag is. Een voorbeeld van
dat laatste is een toets van 15 items met een betrouwbaarheid van 0,40. Die toets zou met
75 items verlengd moeten worden om een betrouwbaarheid van 0,80 te realiseren.
Let wel dat door de toets te verlengen niet alleen de betrouwbaarheid maar ook de standaardmeetfout groter wordt

34
Q

Betrouwbaarheidsbewijzen

A

Crohnbach’s alfa, standaardmeetfout en percentage misclassificaties

35
Q

Extrapoleerbaarheid van toetsen

A

Met de extrapoleerbaarheid van toetsen bedoelen we dat de op een toets behaalde prestaties
niet alleen betekenis hebben in de context van de toets, maar dat die prestaties ook betekenis
hebben voor situaties buiten de toets zoals de beroepspraktijk. Extrapoleerbaarheidsvaliditeit: Gaat over het toepassen van resultaten in sterk verschillende of nieuwe contexten die mogelijk veel afwijken van het oorspronkelijke onderzoek.

36
Q

Face Validity

A

Op het oog lijkt het valide, maar is niet valide aangetoond. Bijv. grafologie.

37
Q

Modus

A

Waarde die het meest voorkomt in een dataset. 1, 3, 3, 5, 7 is de modus dus 3

38
Q

Mediaan

A

Middelste getal van alle waarnemingen. Eerst alles op volgorde zetten en daarna: oneven, het middelste getal. Even: het gemiddelde van de middelste twee getallen.

39
Q

Linksscheve verdeling

A

Eerst gemiddelde, dan mediaan, dan modus in een grafiek (loopt hoger naar rechts op)

40
Q

Rechtsscheve verdeling

A

Modus, mediaan, gemiddelde (linkerkant het hoogst)

41
Q

Gedwongen raden

A

Niet beantwoord= fout. Niet geschoten is altijd mis.

42
Q

Score met gokcorectie

A

Fout die je openlaat krijg je een 1/3e punt krijgen.

43
Q

Verklaarde variantie

A

Onzekerheidsreductie in je voorspelling

44
Q

Normaalverdeling

A

2% is onder 2,5 Sigma en 2,5% boven de 2,5 Sigma

45
Q

Sigma met dakje

A

Schatting van de populatie van de steekproef (Griekse letter populatie) . Romeinse letter (steekproef kenmerken).

46
Q

Toetsanalyse

A

Zegt iets over de toets als geheel

47
Q

Itemanalyse

A

Zeggen iets over een vraag uit de toets.

48
Q

Kansscore

A

25% meerkeuzevragen bij 4 keuzes, 33% meerkeuzevragen met 3 keuzes.

49
Q

Gecorrigeerde p-waarde

A

P-waarde minus de raadkans. Soms is de ongecorrigeerde p-waarde lager dan de gokkans (iemand heeft meer kans om met gokken een voldoende te scoren dan het antwoord zelf te bedenken). Bijv. 4keuze vragen = raadkans 0,25. ongecorrigeerde p-waarde 0,15. Gecorrigeerde p-waarde kan lager zijn dan 0. Lage gecorrigeerde p-waarde is moeilijke vraag.

50
Q

Rir-waarde

A

Item restcorrelatie. Relatie van de vragen in de toets zonder de betreffende vraag zelf. Rir waarde is altijd iets lager dan de Rit waarde. hoge waarde discrimineert goed, maakt goed onderscheid tussen goede en zwakke studenten. lage Rir of Rit waarde betekent dat goede toetsdeelnemers deze vraag slechter maken dan zwakke toetsdeelnemers.

51
Q

Externe structuurvaliditeit

A

Externe structuurvaliditeit: Gaat over het toepassen van resultaten in vergelijkbare contexten (vergelijkbare populaties of settings).

51
Q

Consequentiële validiteit

A

Consequentiële validiteit benadrukt dat de ethische, maatschappelijke, en psychologische effecten van een test net zo belangrijk kunnen zijn als de technische validiteit. Bij de ontwikkeling en inzet van tests en evaluatie-instrumenten is het belangrijk om de bredere implicaties te overwegen, zodat ze zowel technisch goed als maatschappelijk verantwoord worden ingezet.

52
Q

Sum of squares

A

Bereken het gemiddelde van de waarden 6,8,10 = gem 8
Bereken de afwijking van elke waarde ten opzichte van het gemiddelde, kwadrateer deze afwijkingen en sommeer ze op:
(6-8)^2+(8-8)^2+(10-8)^2=
4+0+4= SS8

53
Q

Variantie

A

Sum of sqares: aantal variabelen

54
Q

Standaarddeviatie

A

68% van alle waarnemingen vallen onder deze cijfers. 1. Gemiddelde berekenen 2. gemiddelde - exacte cijfer^2
3. gekwadrateerde van alle deelnemers/( aantal deelnemers -1 bij steekproef, niet bij hele populatie) 4. Wortel van uitkomst van 3. Bijvoorbeeld 4,3 Gemiddelde is 23, 23- 4,3 of + 4,3= de 68% spreiding. Steekproef = n -1 en