begrippen Flashcards
Klassieke Testtheorie zegt dat iedere testscore een mix van .. en .. is.
Wat meet het?
3 nadelen
Zegt dat iedere testscore een mix van T en E is (ware scores en meetfout) Betrouwbare score T schatten met testscore X. Meet betrouwbaarheid
Nadelen:
- T en X zijn afhankelijk van de respondent en de test
- Er is geen controle op het model
- SE is voor iedereen gelijk
Item Respons Theorie (IRT)
Beschrijft de kans dat …. met … op een item ….
Wordt beschreven door …
Beschrijft wat de kans is dat een persoon met bijv. bepaalde psychologische trek (extraversie) op een item hoog scoort.
Wordt beschreven door logistische functie (IRF)
Unidimensionaliteit bij IRT
Alle items in een test meten dezelfde (persoonlijkheids)trek (dus geen twee dingen)
Lokale Onafhankelijkheid (IRT)
Antwoord op een item wordt NIET beïnvloed door antwoord op andere items.
Bijv. als je item 1 niet weet heb je weer een nieuwe kans bij item 2
Kan problematisch zijn bij IRT bij het meten van psychologische constructen
Orthogonaal
Geen correlatie (bijv. Persoonlijkheid in de BIG 5)
Standaardfout (SE)
meet de afwijking van de … Bepaald de …. van testscores. Een hoge SE betekent ……
Meet hoeveel de scores kunnen afwijken door meetfout. Afwijking van de ware score. Bepaald de nauwkeurigheid van testscores.
Geeft dus aan hoe precies een testscore de uiteindelijke ware score omschrijft.
Hogere SE betekent lagere betrouwbaarheid!!!!
SE hangt af van de betrouwbaarheid van de test
Monotoniciteit (IRT)
De IRT zal niet gaan dalen. Blijft eigenlijk redelijk stijgen.
Bijv. Je hebt een hoger IQ en daardoor ook meer antwoorden goed.
Met welke schaling houdt de mokkenschaal zich vooral mee bezig?
Houdt zich vooral bezig met ordinale schaling
Principale Componenten Analyse
reduceert … in data
Exploratief -> enkel op data gebasseerd
Reduceert dimensies in data
Gewichten worden automatisch gekozen
‘Wat is de structuur an deze test’ Je hebt nog geen hypothese en weet ook niet welke items bij elkaar horen.
Oblique
Gerelateerde constructen (bijv. IQ-test)
Multiple Group Method (MGM)
Bevestigend -> Gewichten worden door onderzoeker gekozen
‘Ik weet al welke items waar horen en weet ook al de structuur, klopt dit?’
Wat doet de factor analyse met een test?
Gaat over …. van een test
Het samenvatten van je test
Veel items samenvatten in minder factoren. Gaat over de DIMENSIONALITEIT van een test
4 stappen van de componenten analyse
- Bepaal de gewichten
- Correlaties berekenen (loading matrix)
- Interpretatie (alle items die hoog correleren worden bij elkaar gezet)
- Proportie Verklaarde Variantie (VAF): Hoeveel Variantie worden verklaard door de factoren? Vaak tussen 0.30 & 0.80
Wat schat het Groepsmodel?
Welke 2 dingen worden gebruikt?
groot of smal BHI?
Methode om de standaardmeetfout (SE) mee te schatten.
Op basis van lineaire regressie + gegevens uit populatie. HEEL NAUWKEURIG DUS SMALLER BHI
Bekend:
X: geobserveerde score
S(X): standaarddeviatie
Rxx: Betrouwbaarheid (bijv. Alfa, Test-hertest)
Xgem,: Gemiddelde score
Congruente validiteit
Samenhang met scores op een test een SOORTGELIJKE eigenschap meten
Divergente validiteit
Samenhang met scores op een test die ANDERE eigenschappen meten.
Individueel model
Eenvoudigere methode om de standaardmeetfout (SE) mee te schatten
Bekend:
X: geobserveerde score
S(X): standaarddeviatie
Rxx: Betrouwbaarheid (bijv. Alfa, Test-hertest)
Noem de aannames binnen de klassieke testtheorie (2)
- de gemiddelde meetfout bij N personen is gelijk aan 0
- De correlatie van de meetfout EN een willekeurige variabele is 0.
Discriminante validering
H1/H0
H1 verwerpen
Confirmerende validering
h1/h0
H0 accepteren
Nomologische validering
Een theorie zoals bepaalde eigenschappen die een verklaring geven voor de testscore
Trekvalidering (wordt vaakst gebruikt)
Benoem een belangrijke test waarbij dit is gebeurd
Stanford-Binet-Test voor IQ
In hoeverre kan testgedrag verklaard worden met behulp van een persoonlijkheidstrek –> GAAT DUS NIET PERSEE OVER THEORIE
Multitrek-multimethode benadering
Kijkt naar … + … door de … in een matrix om … vast te stellen
Kijkt naar betrouwbaarheid + Validiteit door de CORRELATIES IN EEN MATRIX om discriminante validiteit vast te stellen.
V-waarden moeten significant HOGER zijn dan D+M waardes
Uiteindelijkcriterium
Tussentijdscritierum
Onmiddelijkcriterium
+ 2 problemen
Conceptuele criterium
Uiteindelijkcriterium: Erg abstract en vaak niet haalbaar
Tussentijdscritierum: Bijv. in plaats van beroepsprestaties kijk je naar de eindexamencijfers
Onmiddelijkcriterium: Bijv. totaal aantal behaalde studiepunten
2 problemen: Tijd en abstractieniveau
Conceptuele criterium: Concreet! Doel voor eindresultaat en criterium maten zijn uitgesproken
6 stappen bij opzetten van een test met predictieve validiteit
OKAVCK
- Operationaliseren
- Keuze van mogelijke tests
- Afname van test (verwijderen/toevoegen van items)
- Validatie (proefpersonen)
- Combineren van tests met goede testbatterij
- Kruisvalidering
Resultaten uit valideringsonderzoeken zijn vaak matig (onder de 0.4)
Gevolg van uitvallen van proefpersonen:
Moderatorvariabele:
Variatiebeperking op voorspellende en criteriumvariabele
Moderatorvariabele: correleert niet met een criteriumscore Y maar heeft wel invloed op andere variabele
Betekenis analyse
Het vinden van theorie als verklaring voor testgedrag
Predictieve validiteit
Voorspellen van gedragBeg
Begripsvaliditeit
Het emperisch BEWIJZEN van testgedrag
Omvat ‘trek- en nomologischevalidatie omdat er betekenis en structuuronderzoek is gedaan (wel letten op sociaal wenselijkheid)
Synthetische validiteit
Voorspelling over functie op basis van componenten uit de functie
Soortgenoot validiteit
Vergelijking met andere testen met dezelfde eigenschap
Indruksvaliditeit en inhoudsvaliditeit
Indruksvaliditeit: Of een test voor ‘leken’ duidelijk is wat betreft de score en testbetekenis (Kleurentest)
Inhoudsvaliditeit: Of een test voor deskundigen duidelijk is
Incremental validiteit
Of de test een bestaande voorspelling kan verbeteren
Concurrent validiteit:
Hoe goed een testresultaat overeenkomt met criteria die gelijktijdig verzamelt zijn
tussen bijvoorbeeld alle leraren.
Alfa is de … van de betrouwbaarheid
Niet geschikt voor … test wel voor … test
Alfa is de onderschatting van de echte betrouwbaarheid. Lambda2 is groter dan alfa en GLB is groter dan lambda 2.
Niet geschikt voor speedtest wel voor een powertest
Test-hertest methode
(2 testen) Score op dezelfde test
Nadelen:
- Geheugen effect: overschatting
- Anders over construct gaan denken: onderschatting
- Tijdsduur tussenafnames
- Verstoord geheugen
Als beide testen als onafhankelijke replica’s gezien kunnen worden, is de r op beide testen gelijk aan de betrouwbaarheid
Parallelvorm methode
(2 testen) Score op twee paralelle tests
Vaak onmogelijk omdat items gelijkwaardig maar niet hetzelfde moeten zijn
- Gemiddeldes, variantie en correlaties moeten gelijk zijn.
Interne consistentie methode
(1 test) Score op alle mogelijke testhelften door bijv. alfa
Gebruikt dus alle items van een test
Splitsingmethode + welke formule
Als de test parallel is, is de … van de scores in de populatie … aan de betrouwbaarheid van de scores op een … test
(1 test) score op twee testhelften. Testen worden verdeeld dus 30 en 30 en op beide een score berekend.
SPEARMAN BROWN FORMULE
Aks de test parallel is, is de r van de scores in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test is dus efficient!
Betrouwbaarheid in groepen = … rxx
Betrouwbaarheid in individuele diagnostiek = … rxx
> 0,7
> 0.9
Adaptieve tests:
WEISS vuistregel over adaptieve testen:
In de test worden vragen moeilijker of makkelijker gemaakt afhankelijk van eerdere antwoorden
Samenvatting MOET voldoen aan de IRT
WEISS vuistregel: Adaptieve testen meten even nauwkeurig met ongeveer de helft van de lengte van een standaardtest
Model van dubbele monotomie (MEEST ALGEMENE MODEL)
Leidt tot populatie onafhankelijke ordening van personen & items!
- IRF mogen NIET dalen en elkaar NIET snijden
- Ordinale schaal + p-waarde
RASCH model
Model van monotome homogeniteit (Mokken model)
Staat alleen monotome niet dalende IRF’s toe. Iemand wordt geordend op θ aan de hand van hun score X
- Antwoord op ALLE items moet een afspiegeling zijn van de psychologische eigenschap op de θ schaal
-ordinale schaal
- hoge betrouwbaarheid vanwege klein verlies van items
- P-waarde wordt berekend (grote P = gemakkelijk item)
Klassieke testtheorie:
Populatie afhankelijk/onafhankelijk
Wat kan niet worden onderscheiden onder deelnemers?
populatie afhankelijk, moeilijkheiden (delta) bij testen kunnen NIET worden onderscheiden onder deelnemers
-> met name heel makkelijk te gebruiken
X= T+E of
r(E,T) = o
Equivaleren
Weergeven van gecalibreerde items uit verschillende testen die dezelfde psychologische eigenschap meten
Calibreren:
Weergeven van items op een schaal en het daarbij toekennen van de meetwaarden
Moderne complex
Combinatie van itembank en item responstheorie
Rasch model (1-PL)
Kijkt naar hoe goed te testvraag past bij het niveau van de persoon. Hangt dus af van de Moeilijkheidsgraad δ en kennisniveau θ
- Alle items hebben HETZELFDE DISCRIMINEREND VERMOGEN van 1
- Meetwaaren zijn populatie afhankelijk
- Kan niet gegeneraliseerd wordne van doelgroepen naar populatie
Waarde altijd tussen 0 en 1
Geen discriminatie coëfficiënt dus ze stijgen hetzelfde, en dus kunnen ze elkaar nooit kruisen omdat ze altijd parallel lopen
Items respons theorie
Kijkt naar de kans dat een persoon met bijv. depressie θ een specifiek antwoord geeft op een item. Dit antwoord wordt bepaald door persoonseigenschappen parameters
- Meet eigenschappen onfhankelijk van de populatie
Wat betekent het als een IRT curve steil is?
Dan zal een kleine verandering in θ grotere gevolgen hebben voor de succeskans
IRT is wel/niet afhankelijk van de steekproefomvang
IRT kan met wat voor soort items werken?
IRT biedt … resultaten over verschillende steekproeven
IRT is minder afhankelijk van de steekproef omvang
IRT kan met dichotome & Polytome items werken
IRT biedt vergelijkbare resultaten over verschillende steekproeven
Kan alleen als de testdelen parallel zijn (moeilijke items verspreiden
Welke formule zegt iets over hoe de betrouwbaarheid toeneemt als de test langer wordt (0,60 en 0,80)
- Kan alleen als d
Lineaire regressie methode
Kan ontbrekende variabele Y op basis van de score van bekende variabele X geschat worden
T- scores hoeveel % buiten .. sd van het gemiddelde?
Welke stanine is het gemiddelde
Wat mag niet met percentielscores berekend worden?
Slechts 0,27 % ligt buiten 3 SD van het gemiddelde
5e
Gemiddelden en varianties (onafhankelijk van groepen)
Lineaire interpolatie
Wordt mee gerekend als een aantal respondenten dezelfde ruwe score hebben
Absolute normering
Vergelijkt scores met vaste standaarden, dus niet vergeleken met anderen
Morfologische methoden en fysiologische methoden
Morfologische methoden: Fysieke kenmerken onderzocht als mogelijke verklaring voor persoonlijkheidskenmerken (FRENOLOGIE)
Fysiologische methoden: Bijc. EEG, MRI, bloeddruk wat ook mogelijke relaties hebben met psychologische variabelen
Welke is de meest efficiente scoring?
Machinale scoring, Zelf scoring, Handscoring
Machinale scoring - met pc
Zelfscoring is met twee vellen over elkaar heen
Kwalitatieve prestatietesten (2)
Niveautests voor gedrag
Projectietesten
Hoe een taak wordt uitgevoerd dus niet het resultaat
Niveautests: gedragstesten of motorische testen
Projectietests: Vage opdrachten om reactie deelnemer te zien.
Waar begint de 2PL altijd?
En waar begint 3PL?
Bij 0
Boven de 0
Tests voor speciale geschiktheden
Test voor speciale intelligentie Factoren
Test voor speciale niet intelligentie factoren
Tests voor speciale geschiktheden
Creativiteit, ruimtelijk inzicht
Test voor speciale intelligentie Factoren
Geheugentesten, administratieve testen
Test voor speciale niet intelligentie factoren
Motorieke testen
Homogene constructen
HOOG
Heeft een Hoge item rest correlatie (komt voor in klinische + persoonlijkheidsschalen)
Heterogene constructen
LAAG
Cognitieve + onderwijs testen
Heeft een lage item rest correlatie
Item-rest correlatie meet de samenhang tussen hetzelfde construct en de scores op items.
Wat is het verschil met item test?
.65 heel hoog .20/.40 normaal
Is de r tussen de score op item Xg en de restscore X-Xg
Berekent alleen de de r van een item met andere items en niet met zichzelf
(want anders heb je altijd een item met een r van 1)
ITEM REST IS ALTIJD LAGER DAN ITEM TEST
Wat geeft een lage item-test/item-rest correlatie aan?
Dat er WEINIG samenhang is met de scores van andere items
Kan komen door slecht geformuleerde vraag in een persoonlijkheidstests
Ipsatieve scores
Onderlinge vergelijking van testscores van dezelfde persoon
Wat geeft een covariantie aan?
Meet de mate van lineaire samenhang tussen 2 variabelen
Geeft ALLEEN de richting van het verband aan NIET de sterkte
a-waarde
Aantrekkelijkheid van andere antwoordopties
Dichotome items
Polytome items
Kijk je naar p waarde en naar a waarde
Kijk je naar gemiddelde score en spreiding van item
Wordt gebruikt op nominale schaal (mensen, dieren) om de interbeoordelaarsbetrouwbaarheid te berekenen
Cohen’s Kappa
Wordt gebruikt bij rangordes waarbij de interbeorodelaarsbetrouwbaarheid wordt gebruikt om de rangcorrelatie tussen 1 of meerdere beoordelaars te berekenen
Kendalls Tau en Spearmans Rho
Tests of maximum performance
Tests of typical performance
Tests of maximum performance
High stakes, prestatieniveautests (IQ, tentamens goed/fout)
Tests of typical performance
Low stakes, gedragstesten zoals persooblijkheidstesten of klinische onderzoeken (geen goed of fout maar voorkeuren, meningen en gedragsschalen)
6 belangrijke kenmerken van een test
SOENBV
+ uitleg intersubjectiviteitsprincipe
en interbeoordelaarsbetrouwbaarheid
- standaardisatie
(omstandigheden voor iedereen zelfde) - Objectiviteit
Testafnemer kan geen invloed hebben op resultaat
-> intersubject. prin.: Maakt niet uit wie de beoordelaar is
-> Interbeo. betr.: Mate van overeenstemming tussen beoordelaars - Efficientie
(meet alleen bepaalde construct) - Normering
(beschikbaarheid van normering) - Betrouwbaarheid
(bij herhaling zelfde score) - Validiteit
(meet test wat het moet meten)
Het bepalen van kritische scores voor elke test afzonderlijk zonder compensatie tussen tests
Multiple cut-off procedure
Hoe heet het als je bijvoorbeeld 70% van de vragen goed moet hebben op een tentamen, of een bepaald aantal meter moet lopen binnen een bepaalde tijd?
Vergelijken met een absolute standaard.