begrippen Flashcards

1
Q

Klassieke Testtheorie zegt dat iedere testscore een mix van .. en .. is.
Wat meet het?
3 nadelen

A

Zegt dat iedere testscore een mix van T en E is (ware scores en meetfout) Betrouwbare score T schatten met testscore X. Meet betrouwbaarheid

Nadelen:
- T en X zijn afhankelijk van de respondent en de test
- Er is geen controle op het model
- SE is voor iedereen gelijk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Item Respons Theorie (IRT)

Beschrijft de kans dat …. met … op een item ….

Wordt beschreven door …

A

Beschrijft wat de kans is dat een persoon met bijv. bepaalde psychologische trek (extraversie) op een item hoog scoort.

Wordt beschreven door logistische functie (IRF)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Unidimensionaliteit bij IRT

A

Alle items in een test meten dezelfde (persoonlijkheids)trek (dus geen twee dingen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Lokale Onafhankelijkheid (IRT)

A

Antwoord op een item wordt NIET beïnvloed door antwoord op andere items.

Bijv. als je item 1 niet weet heb je weer een nieuwe kans bij item 2

Kan problematisch zijn bij IRT bij het meten van psychologische constructen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Orthogonaal

A

Geen correlatie (bijv. Persoonlijkheid in de BIG 5)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Standaardfout (SE)

meet de afwijking van de … Bepaald de …. van testscores. Een hoge SE betekent ……

A

Meet hoeveel de scores kunnen afwijken door meetfout. Afwijking van de ware score. Bepaald de nauwkeurigheid van testscores.

Geeft dus aan hoe precies een testscore de uiteindelijke ware score omschrijft.

Hogere SE betekent lagere betrouwbaarheid!!!!

SE hangt af van de betrouwbaarheid van de test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Monotoniciteit (IRT)

A

De IRT zal niet gaan dalen. Blijft eigenlijk redelijk stijgen.

Bijv. Je hebt een hoger IQ en daardoor ook meer antwoorden goed.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Met welke schaling houdt de mokkenschaal zich vooral mee bezig?

A

Houdt zich vooral bezig met ordinale schaling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Principale Componenten Analyse

reduceert … in data

A

Exploratief -> enkel op data gebasseerd

Reduceert dimensies in data

Gewichten worden automatisch gekozen

‘Wat is de structuur an deze test’ Je hebt nog geen hypothese en weet ook niet welke items bij elkaar horen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Oblique

A

Gerelateerde constructen (bijv. IQ-test)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Multiple Group Method (MGM)

A

Bevestigend -> Gewichten worden door onderzoeker gekozen

‘Ik weet al welke items waar horen en weet ook al de structuur, klopt dit?’

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat doet de factor analyse met een test?

Gaat over …. van een test

A

Het samenvatten van je test

Veel items samenvatten in minder factoren. Gaat over de DIMENSIONALITEIT van een test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

4 stappen van de componenten analyse

A
  1. Bepaal de gewichten
  2. Correlaties berekenen (loading matrix)
  3. Interpretatie (alle items die hoog correleren worden bij elkaar gezet)
  4. Proportie Verklaarde Variantie (VAF): Hoeveel Variantie worden verklaard door de factoren? Vaak tussen 0.30 & 0.80
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat schat het Groepsmodel?

Welke 2 dingen worden gebruikt?

groot of smal BHI?

A

Methode om de standaardmeetfout (SE) mee te schatten.

Op basis van lineaire regressie + gegevens uit populatie. HEEL NAUWKEURIG DUS SMALLER BHI

Bekend:
X: geobserveerde score
S(X): standaarddeviatie
Rxx: Betrouwbaarheid (bijv. Alfa, Test-hertest)
Xgem,: Gemiddelde score

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Congruente validiteit

A

Samenhang met scores op een test een SOORTGELIJKE eigenschap meten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Divergente validiteit

A

Samenhang met scores op een test die ANDERE eigenschappen meten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Individueel model

A

Eenvoudigere methode om de standaardmeetfout (SE) mee te schatten

Bekend:
X: geobserveerde score
S(X): standaarddeviatie
Rxx: Betrouwbaarheid (bijv. Alfa, Test-hertest)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Noem de aannames binnen de klassieke testtheorie (2)

A
  1. de gemiddelde meetfout bij N personen is gelijk aan 0
  2. De correlatie van de meetfout EN een willekeurige variabele is 0.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Discriminante validering

H1/H0

A

H1 verwerpen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Confirmerende validering

h1/h0

A

H0 accepteren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Nomologische validering

A

Een theorie zoals bepaalde eigenschappen die een verklaring geven voor de testscore

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Trekvalidering (wordt vaakst gebruikt)

Benoem een belangrijke test waarbij dit is gebeurd

A

Stanford-Binet-Test voor IQ

In hoeverre kan testgedrag verklaard worden met behulp van een persoonlijkheidstrek –> GAAT DUS NIET PERSEE OVER THEORIE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Multitrek-multimethode benadering

Kijkt naar … + … door de … in een matrix om … vast te stellen

A

Kijkt naar betrouwbaarheid + Validiteit door de CORRELATIES IN EEN MATRIX om discriminante validiteit vast te stellen.

V-waarden moeten significant HOGER zijn dan D+M waardes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Uiteindelijkcriterium

Tussentijdscritierum

Onmiddelijkcriterium

+ 2 problemen

Conceptuele criterium

A

Uiteindelijkcriterium: Erg abstract en vaak niet haalbaar

Tussentijdscritierum: Bijv. in plaats van beroepsprestaties kijk je naar de eindexamencijfers

Onmiddelijkcriterium: Bijv. totaal aantal behaalde studiepunten

2 problemen: Tijd en abstractieniveau

Conceptuele criterium: Concreet! Doel voor eindresultaat en criterium maten zijn uitgesproken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
6 stappen bij opzetten van een test met predictieve validiteit OKAVCK
1. Operationaliseren 2. Keuze van mogelijke tests 3. Afname van test (verwijderen/toevoegen van items) 4. Validatie (proefpersonen) 5. Combineren van tests met goede testbatterij 6. Kruisvalidering Resultaten uit valideringsonderzoeken zijn vaak matig (onder de 0.4)
21
Gevolg van uitvallen van proefpersonen: Moderatorvariabele:
Variatiebeperking op voorspellende en criteriumvariabele Moderatorvariabele: correleert niet met een criteriumscore Y maar heeft wel invloed op andere variabele
22
Betekenis analyse
Het vinden van theorie als verklaring voor testgedrag
23
Predictieve validiteit
Voorspellen van gedragBeg
24
Begripsvaliditeit
Het emperisch BEWIJZEN van testgedrag Omvat 'trek- en nomologischevalidatie omdat er betekenis en structuuronderzoek is gedaan (wel letten op sociaal wenselijkheid)
25
Synthetische validiteit
Voorspelling over functie op basis van componenten uit de functie
26
Soortgenoot validiteit
Vergelijking met andere testen met dezelfde eigenschap
27
Indruksvaliditeit en inhoudsvaliditeit
Indruksvaliditeit: Of een test voor 'leken' duidelijk is wat betreft de score en testbetekenis (Kleurentest) Inhoudsvaliditeit: Of een test voor deskundigen duidelijk is
28
Incremental validiteit
Of de test een bestaande voorspelling kan verbeteren
29
Concurrent validiteit:
Hoe goed een testresultaat overeenkomt met criteria die gelijktijdig verzamelt zijn tussen bijvoorbeeld alle leraren.
30
Alfa is de ... van de betrouwbaarheid Niet geschikt voor ... test wel voor ... test
Alfa is de onderschatting van de echte betrouwbaarheid. Lambda2 is groter dan alfa en GLB is groter dan lambda 2. Niet geschikt voor speedtest wel voor een powertest
31
Test-hertest methode
(2 testen) Score op dezelfde test Nadelen: - Geheugen effect: overschatting - Anders over construct gaan denken: onderschatting - Tijdsduur tussenafnames - Verstoord geheugen Als beide testen als onafhankelijke replica's gezien kunnen worden, is de r op beide testen gelijk aan de betrouwbaarheid
32
Parallelvorm methode
(2 testen) Score op twee paralelle tests Vaak onmogelijk omdat items gelijkwaardig maar niet hetzelfde moeten zijn - Gemiddeldes, variantie en correlaties moeten gelijk zijn.
33
Interne consistentie methode
(1 test) Score op alle mogelijke testhelften door bijv. alfa Gebruikt dus alle items van een test
34
Splitsingmethode + welke formule Als de test parallel is, is de ... van de scores in de populatie ... aan de betrouwbaarheid van de scores op een ... test
(1 test) score op twee testhelften. Testen worden verdeeld dus 30 en 30 en op beide een score berekend. SPEARMAN BROWN FORMULE Aks de test parallel is, is de r van de scores in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test is dus efficient!
35
Betrouwbaarheid in groepen = ... rxx Betrouwbaarheid in individuele diagnostiek = ... rxx
>0,7 >0.9
36
Adaptieve tests: WEISS vuistregel over adaptieve testen:
In de test worden vragen moeilijker of makkelijker gemaakt afhankelijk van eerdere antwoorden Samenvatting MOET voldoen aan de IRT WEISS vuistregel: Adaptieve testen meten even nauwkeurig met ongeveer de helft van de lengte van een standaardtest
37
Model van dubbele monotomie (MEEST ALGEMENE MODEL)
Leidt tot populatie onafhankelijke ordening van personen & items! - IRF mogen NIET dalen en elkaar NIET snijden - Ordinale schaal + p-waarde RASCH model
38
Model van monotome homogeniteit (Mokken model)
Staat alleen monotome niet dalende IRF's toe. Iemand wordt geordend op θ aan de hand van hun score X - Antwoord op ALLE items moet een afspiegeling zijn van de psychologische eigenschap op de θ schaal -ordinale schaal - hoge betrouwbaarheid vanwege klein verlies van items - P-waarde wordt berekend (grote P = gemakkelijk item)
39
Klassieke testtheorie: Populatie afhankelijk/onafhankelijk Wat kan niet worden onderscheiden onder deelnemers?
populatie afhankelijk, moeilijkheiden (delta) bij testen kunnen NIET worden onderscheiden onder deelnemers -> met name heel makkelijk te gebruiken X= T+E of r(E,T) = o
40
Equivaleren
Weergeven van gecalibreerde items uit verschillende testen die dezelfde psychologische eigenschap meten
41
Calibreren:
Weergeven van items op een schaal en het daarbij toekennen van de meetwaarden
42
Moderne complex
Combinatie van itembank en item responstheorie
43
Rasch model (1-PL)
Kijkt naar hoe goed te testvraag past bij het niveau van de persoon. Hangt dus af van de Moeilijkheidsgraad δ en kennisniveau θ - Alle items hebben HETZELFDE DISCRIMINEREND VERMOGEN van 1 - Meetwaaren zijn populatie afhankelijk - Kan niet gegeneraliseerd wordne van doelgroepen naar populatie Waarde altijd tussen 0 en 1 Geen discriminatie coëfficiënt dus ze stijgen hetzelfde, en dus kunnen ze elkaar nooit kruisen omdat ze altijd parallel lopen
44
Items respons theorie
Kijkt naar de kans dat een persoon met bijv. depressie θ een specifiek antwoord geeft op een item. Dit antwoord wordt bepaald door persoonseigenschappen parameters - Meet eigenschappen onfhankelijk van de populatie
45
Wat betekent het als een IRT curve steil is?
Dan zal een kleine verandering in θ grotere gevolgen hebben voor de succeskans
46
IRT is wel/niet afhankelijk van de steekproefomvang IRT kan met wat voor soort items werken? IRT biedt ... resultaten over verschillende steekproeven
IRT is minder afhankelijk van de steekproef omvang IRT kan met dichotome & Polytome items werken IRT biedt vergelijkbare resultaten over verschillende steekproeven
47
Kan alleen als de testdelen parallel zijn (moeilijke items verspreiden Welke formule zegt iets over hoe de betrouwbaarheid toeneemt als de test langer wordt (0,60 en 0,80)
- Kan alleen als d
48
Lineaire regressie methode
Kan ontbrekende variabele Y op basis van de score van bekende variabele X geschat worden
49
T- scores hoeveel % buiten .. sd van het gemiddelde? Welke stanine is het gemiddelde Wat mag niet met percentielscores berekend worden?
Slechts 0,27 % ligt buiten 3 SD van het gemiddelde 5e Gemiddelden en varianties (onafhankelijk van groepen)
50
Lineaire interpolatie
Wordt mee gerekend als een aantal respondenten dezelfde ruwe score hebben
51
Absolute normering
Vergelijkt scores met vaste standaarden, dus niet vergeleken met anderen
52
Morfologische methoden en fysiologische methoden
Morfologische methoden: Fysieke kenmerken onderzocht als mogelijke verklaring voor persoonlijkheidskenmerken (FRENOLOGIE) Fysiologische methoden: Bijc. EEG, MRI, bloeddruk wat ook mogelijke relaties hebben met psychologische variabelen
53
Welke is de meest efficiente scoring? Machinale scoring, Zelf scoring, Handscoring
Machinale scoring - met pc Zelfscoring is met twee vellen over elkaar heen
54
Kwalitatieve prestatietesten (2) Niveautests voor gedrag Projectietesten
Hoe een taak wordt uitgevoerd dus niet het resultaat Niveautests: gedragstesten of motorische testen Projectietests: Vage opdrachten om reactie deelnemer te zien.
55
Waar begint de 2PL altijd? En waar begint 3PL?
Bij 0 Boven de 0
56
Tests voor speciale geschiktheden Test voor speciale intelligentie Factoren Test voor speciale niet intelligentie factoren
Tests voor speciale geschiktheden Creativiteit, ruimtelijk inzicht Test voor speciale intelligentie Factoren Geheugentesten, administratieve testen Test voor speciale niet intelligentie factoren Motorieke testen
57
Homogene constructen
HOOG Heeft een Hoge item rest correlatie (komt voor in klinische + persoonlijkheidsschalen)
58
Heterogene constructen
LAAG Cognitieve + onderwijs testen Heeft een lage item rest correlatie
59
Item-rest correlatie meet de samenhang tussen hetzelfde construct en de scores op items. Wat is het verschil met item test?
.65 heel hoog .20/.40 normaal Is de r tussen de score op item Xg en de restscore X-Xg Berekent alleen de de r van een item met andere items en niet met zichzelf (want anders heb je altijd een item met een r van 1) ITEM REST IS ALTIJD LAGER DAN ITEM TEST
60
Wat geeft een lage item-test/item-rest correlatie aan?
Dat er WEINIG samenhang is met de scores van andere items Kan komen door slecht geformuleerde vraag in een persoonlijkheidstests
61
Ipsatieve scores
Onderlinge vergelijking van testscores van dezelfde persoon
62
Wat geeft een covariantie aan?
Meet de mate van lineaire samenhang tussen 2 variabelen Geeft ALLEEN de richting van het verband aan NIET de sterkte
63
a-waarde
Aantrekkelijkheid van andere antwoordopties
64
Dichotome items Polytome items
Kijk je naar p waarde en naar a waarde Kijk je naar gemiddelde score en spreiding van item
65
Wordt gebruikt op nominale schaal (mensen, dieren) om de interbeoordelaarsbetrouwbaarheid te berekenen
Cohen's Kappa
66
Wordt gebruikt bij rangordes waarbij de interbeorodelaarsbetrouwbaarheid wordt gebruikt om de rangcorrelatie tussen 1 of meerdere beoordelaars te berekenen
Kendalls Tau en Spearmans Rho
67
Tests of maximum performance Tests of typical performance
Tests of maximum performance High stakes, prestatieniveautests (IQ, tentamens goed/fout) Tests of typical performance Low stakes, gedragstesten zoals persooblijkheidstesten of klinische onderzoeken (geen goed of fout maar voorkeuren, meningen en gedragsschalen)
68
6 belangrijke kenmerken van een test SOENBV + uitleg intersubjectiviteitsprincipe en interbeoordelaarsbetrouwbaarheid
* standaardisatie (omstandigheden voor iedereen zelfde) * Objectiviteit Testafnemer kan geen invloed hebben op resultaat -> intersubject. prin.: Maakt niet uit wie de beoordelaar is -> Interbeo. betr.: Mate van overeenstemming tussen beoordelaars * Efficientie (meet alleen bepaalde construct) * Normering (beschikbaarheid van normering) * Betrouwbaarheid (bij herhaling zelfde score) * Validiteit (meet test wat het moet meten)
69
Het bepalen van kritische scores voor elke test afzonderlijk zonder compensatie tussen tests
Multiple cut-off procedure
70
Hoe heet het als je bijvoorbeeld 70% van de vragen goed moet hebben op een tentamen, of een bepaald aantal meter moet lopen binnen een bepaalde tijd?
Vergelijken met een absolute standaard.
71