Thema 2 Flashcards

1
Q

Normgroep

A

Een soort steekproef die men bij de ontwikkeling van een nieuwe test trekt uit een bepaalde populatie. De samenstelling van de normgroep is cruciaal bij relatief meten. Een normgroep dient aan een aantal kwaliteitscriteria te voldoen (EFPA en COTAN).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

EFPA kwaliteitscriteria normgroep

A

(1) Testen met een lage inzet
(2) Testen met een hoge inzet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

COTAN kwaliteitscriteria normgroep

A

(1) Testen voor minder belangrijke beslissingen op individueel niveau
(2) Testen voor belangrijke beslissingen op individueel niveau.

Belangrijke beslissingen: beslissingen die op basis van de testscores worden genomen, die in principe, of op korte termijn, onomkeerbaar zijn, en die voor een belangrijk deel buiten de geteste persoon om worden genomen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Onderscheidt testen met lage inzet/minder belangrijke beslissingen en testen met hoge inzet/belangrijke beslissingen

A

De gevolgen van de beslissingen, gebaseerd op de testresultaten, en of degene die getest wordt al dan niet inspraak heeft in deze beslissing.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Representatieve steekproef

A

EFPA: Een steekproef is representatief voor de bedoelde populatie indien de samenstelling van de steekproef voor een aantal variabelen vergelijkbaar is met die van de populatie, en wanneer de steekproef verzameld werd met behulp van een stochastisch steekproefmodel.

COTAN: Een steekproef is representatief als de samenstelling ervan voor een aantal variabelen overeenkomt met die van de betreffende populatie, waarbij de steekproef wordt verkregen m.b.v een aselect steekproefmodel.

3 overeenkomstige elementen:
(1) Representativiteit geldt voor een aantal variabelen.
(2) De verhouding van de deelgroepen in de steekproef is gelijk aan de verhouding van de deelgroepen in de populatie. Er dient gekeken te worden naar de combinatie van de verschillende variabelen.
(3) De proefpersonen zijn geselecteerd middels een stochastisch of aselect steekproefmodel.

Een beperkte niet-significante afwijking ten opzichte van de verdeling van de populatie is geoorloofd. Of een afwijking significant is kan bijvoorbeeld getoetst worden middels de chi-kwadraat toets. Een andere manier om met een kleine afwijking van de verdeling in de populatie om te gaan is een weging toe te passen op een of meer strata.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Gestratificeerde steekproef

A

Wanneer voor een variabele verschillende deelgroepen of strata onderscheiden worden. Ook als je geen statistisch significante verschillen verwacht moet je steekproef toch gestratificeerd zijn om de gegevens van beide deelgroepen of strata te kunnen gebruiken. Als het niet zinvol is om deelgroepen te onderscheiden hoeft het niet (zie p. 6 tekst 3). Niet enkel het construct dat je wilt meten, bepaalt voor welke variabelen de steekproef gestratificeerd dient te worden, ook voor wie de vragenlijst bedoeld is, is hiervoor relevant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kwaliteitscentrum voor Diagnostiek variabelen

A

Aangeraden wordt om deelgroepen te onderscheiden in een steekproef met betrekking tot geslacht, leeftijd, nationaliteit/etnisch culturele achtergrond en regio. In de praktijk is dit niet altijd mogelijk. Naast deze vier variabelen moet je ok deelgroepen onderscheiden van die variabelen die mogelijk een invloed hebben op het construct dat gemeten wordt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Aselect of stochastisch steekproefmodel

A

De proefpersonen voor de steekproef zijn op een zodanige wijze gerekruteerd dat iedereen uit de populatie een even grote kans heeft om in een steekproef terecht te komen. Mogelijke selectie kan plaatsvinden door de manier waarop een oproep wordt gedaan, betalen voor deelname, eigen netwerk aanspreken proefleider etc. Daarnaast dient deelname vrijwillig te zijn en mag dit enkel na het geven van geïnformeerde toestemming.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Weging toepassen

A

Door een weging toe te passen krijgt de groep die ondervertegenwoordigd is in de steekproef meer gewicht en/of krijgt de groep die oververtegenwoordigd is minder gewicht. Bij analyses op een gewogen steekproef lijkt het alsof er meer proefpersonen uit de ondervertegenwoordigde groep in de steekproef zitten en/of minder van de oververtegenwoordigde groep. Na weging sluit de verdeling in de steekproef beter aan bij die in de populatie en dit zonder da tje extra proefpersonen moet rekruteren voor je normgroep.

Wegingsfactor > 1 betekent dat aan de scores van die groep meer gewicht wordt toegekend; en vice versa. De wegingsfactor die toegepast mag worden is beperkt; oververtegenwoordiging is geen probleem, maar bij ondervertegenwoordiging is maximaal een factor 2 acceptabel; dit betekent dat de score van elke proefpersoon uit de groep waarvoor gewogen wordt dubbel meetelt. Een zwaardere weging is niet verantwoord, omdat bepaalde toevallige fluctuaties in de scores van een proefpersoon dan te zwaar zouden doorwegen in de uiteindelijke gewogen steekproef en dus in de normtabel die wordt toegepast op basis van deze gewogen steekproef. Om dit reden wordt oververtegenwoordiging dus niet als een probleem beschouwd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wanneer mogen niet-Vlaamse normgegevens gebruikt worden

A

Een steekproef dient te bestaan uit Vlaamse proefpersonen; gebeurt dit niet dan kan dit aanleiding geven tot een verschuiving in normgegevens (evenals bij een selectieve steekproeftrekking) en dat is niet wenselijk.

Wanneer het niet mogelijk is om Vlaamse normgegevens te verzamelen, bijvoorbeeld omwille van de kostprijs, dan mogen niet-Vlaamse normen gebruikt worden wanneer schaalequivalentie wordt aangetoond.

Daarnaast is het belangrijk om dit duidelijk te rapporteren in je verslag en voorzichtig te zijn met conclusies.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Belang van een recente steekproef

A

Ondertussen kan een verschuiving optreden in de populatie wat betreft het concept dat gemeten wordt. Dit betekent dat de interpretatie van de bekomen normscore niet correct meer is. Bijvoorbeeld Flynn-effect intelligentie.

EFPA en COTAN hebben criteria voor wat zij als voldoende recente normgegevens beschouwen.

EFPA:
Onvoldoende (20 jaar of ouder)
Voldoende (tussen 15 en 19 jaar oud)
Goed (tussen 10 en 14 jaar oud)
Uitstekend (minder dan 10 jaar oud)

COTAN:
Onvoldoende: na 20 jaar
Verouderd: na 15 jaar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Schaalequivalentie

A

Dit betekent dat de testuitgever bewijst dat de normgegevens in de oorspronkelijke niet-Vlaamse groep dezelfde zijn als in een groep Vlaamse proefpersonen. Voordeel; deze analyses kunnen op een kleinere steekproef worden uitgevoerd dan degene die nodig is om nieuwe, Vlaamse normen op te stellen.

COTAN zal de normen van een test die gebaseerd zijn op louter Vlaamse normen als onvoldoende beoordelen. Andersom betekent een beoordeling van de normen als goed door de COTAN niet automatisch dat deze beoordeling ook geldt voor gebruik in Vlaanderen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Voldoende grote steekproef

A

Klassieke normering: gebaseerd op de verdeling van de proefpersonen uit de normgroep: rangscores, standaardscores op basis van lineaire transformatie, standaardscores die genormaliseerd worden op basis van niet-lineaire transformatie.

EFPA:
- Gebruik met lage inzet
Onvoldoende: < 200
Voldoende : 200-299
Goed: 300-999
Uitstekend: minstens 1000
- Gebruik met hoge inzet
Onvoldoende: 200-299
Voldoende: 300-399
Goed: 400-999
Uitstekend: minstens 1000

COTAN:
- Minder belangrijke beslissingen op individueel niveau
Onvoldoende: < 200
Voldoende: 200-299
Goed: minstens 300
- Belangrijke beslissingen op individueel niveau
Onvoldoende: < 300
Voldoende: 300-399
Goed: minstens 400

Nadeel klassieke normering: wanneer veel afzonderlijke normtabellen opgesteld moeten worden, kan het vereiste totaal aantal proefpersonen erg groot worden –> continu normering

Continu normering: de scores die behaald werden door alle proefpersonen uit de volledige normgroep worden gebruikt om via statistische software een lijn te laten schatten, die het best past bij de geobserveerde scores. Lijn wordt dusdanig getrokken dat de afwijkingen van de observaties ten opzichte van deze lijn zo klein mogelijk zijn. Vervolgens wordt deze lijn gebruikt om voor elke leeftijdsgroep te voorspellen welke score verwacht wordt dat iemand van deze leeftijd behaald. De verwachte score en de afwijking ten opzichte van deze score wordt vervolgens gebruikt om voor elke leeftijdsgroep de normtabel op te stellen. Verwachte score voor een bepaalde leeftijd = schaalgemiddelde.

Bij klassieke normering voor verschillende leeftijdsgroepen worden afzonderlijke normtabellen opgesteld, waardoor elke normtabel enkel gebaseerd is op de gegevens van de proefpersonen uit de normgroep van die bepaalde leeftijd. Elke leeftijdsgroep moet daarom voldoend aan de criteria van de EFPA en de COTAN. Bij continu normering wordt bij het schatten van de best passende lijn de gegevens van de proefpersonen van alle leeftijdsgroepen uit de normgroep gebruikt. Aan de hand van de lijn wordt per leeftijdsgroep ene ruwe score voorspeld, die word gebruikt om normtabellen op te stellen. Elke normtabel is daarom gebaseerd p[ gegevens van de volledige normgroep, waardoor minder proefpersonen nodig zin. Er zijn tot op heden nog geen duidelijke criteria opgesteld om te bepalen hoeveel proefpersonen beschouwd worden als voldoende of als goed in het geval van continu normering. Ook bij continu normering is het mogelijk om afzonderlijke normtabellen op te stellen voor bijvoorbeeld jongens en meisjes. Voor elke deelsteekproef wordt dan de best passende lijn geschat en vervolgens gebruikt om een normtabel op te stellen.

Regressie: statistische methode waarmee de best passende lijn wordt geschat. Kan op verschillende manieren geschat worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Rangscores

A

Op basis van het percentage proefpersonen uit de normgroep dat een bepaalde of een lagere score behaalde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standaardscores op basis van lineaire transformatie

A

Uitgevoerd aan de hand van het rekenkundig gemiddelde en de standaarddeviatie van de ruwe scores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Standaardscores die genormaliseerd worden op basis van niet-lineaire transformatie

A

Uitgevoerd op basis van de percentielen van de ruwe scores, die gelinkt worden aan de percentielen onder de normale verdeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Validiteit

A

Meet de test wat het behoort te meten. Een test kan niet valide zijn, zonder ook betrouwbaar te zijn.

Het is nodig om de validiteit van een testscore vast te stellen, wanneer deze wordt gebruikt voor een bepaald doel; de interpretatie van een score bij een bepaald doel. Niet is de Rorschach valide, maar is de depressie index van de Rorschach valide voor het identificeren van ernst van depressie?

Validiteit is niet een kwestie van alles of niets; sommige testen kunnen geen validiteit hebben voor een bepaald doel, maar er zijn geen testscores die perfect valide zijn voor een bepaald doel. Gekeken moet worden of de mate van validiteit volstaat. Bijvoorbeeld: in welke mate is de depressie index van de Rorschach valide voor het identificeren van ernst van depressie?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Betrouwbaarheid

A

Gaat over de consistentie van de metingen. Een test kan betrouwbaar zijn, zonder dat deze valide is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Betrouwbare test

A

Een test die consistent dezelfde score voor een individu oplevert. De score kan gerepliceerd worden op zijn minst binnen een bepaalde foutmarge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wat is geen bron van onbetrouwbaarheid

A

Echte veranderingen binnen de gemeten trek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Constante fouten (constant errors)

A

Een fout die ertoe leidt dat de score van een individu systematisch hoog of laag, ongeacht de stabiliteit in de status van de persoon op de eigenschap die wordt gemeten. Betrouwbaarheid ziet niet op constante fouten, maar enkel op niet-systematische fouten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Wat zijn bronnen van onbetrouwbaarheid

A

Alles wat leidt tot niet-systematische variatie in testscores. Er zijn vier hoofdcategorieën: (1) testscoring, (2) testinhoud, (3) afnamecondities, (4) persoonlijke omstandigheden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Test scoring

A

Variatie in test scoring is een bron van onbetrouwbaarheid. Dit kan bijvoorbeeld het gevolg zijn van verschillen in scoring tussen personen (scoorder 1 en scoorder 2) (wie scoort de antwoorden). Een groter probleem bij open vragen. Deze variatie kan geëlimineerd worden door scoring door machines bij meerkeuzevragen. Hoe meer menselijke beoordeling nodig is, hoe meer deze bron van onbetrouwbaarheid een rol kan spelen. Indien menselijke beoordeling noodzakelijk is, is het belangrijk om scoringhandleidingen te hebben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Test content

A

Variaties in de selectie van items in een test kan resulteren in niet-systematische fouten in testscores. De scores van individuen zijn hoger of lager als gevolg random veranderingen in een bepaalde set van items in de test, niet als gevolg van echte verschillen in de trek die wordt gemeten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Test administration conditions

A

Een test dient gestandaardiseerde procedures voor afname te hebben. Het gaat daarbij om factoren zoals instructies, tijdlimieten en fysieke regels omtrent afname.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Personal conditions

A

De tijdelijke condities van personen die de test maken kunnen niet-systematische invloeden hebben op de testscores. Variaties in deze factoren leiden niet automatisch tot onbetrouwbaarheid, het kan zijn dat factoren de prestatie op de test niet beïnvloeden. Dit betreft een empirische vraag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

True score theory

A

(1) Classical test theory (CTT), (2) item response theory (IRT), (3) generalizability theory (GT). De meerderheid van de informatie omtrent betrouwbaarheid in testhandleiding, tijdschriften en rapporten over scoring is gebaseerd op CTT.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Classical test theory (CTT)

A

O = observed score = echte score van een individu op een test = ruwe score/standaardscore.
T = true score = score die en persoon zou krijgen wanneer alle bronnen van onbetrouwbaarheid werden weggenomen = gemiddelde score op basis van meerdere afnames van de test op verschillende momenten en in verschillende condities –> deze score hebben we nooit echt, enkel de geobserveerde score.
E = error score = T - O; deze score kan positief of negatief zijn.

r (reliability) = variantie T/variantie O
= variantie O - variantie E/ variantie O

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Methoden om betrouwbaarheid vast te stellen

A

(1) test-retest betrouwbaarheid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Test-retest reliability

A

Dezelfde test wordt op meerdere momenten afgenomen bij hetzelfde individu. De tijd tussen twee momenten varieert meestal tussen een dag en een maand.

r = correlatie tussen scores op moment 1 en scores op moment 2 = stability coefficient.

Het helpt bij het verminderen van de invloed van veranderingen in persoonlijke condities, maar helpt niet bij de invloed van veranderingen in testinhoud, omdat dezelfde test op meerdere momenten wordt afgenomen. Soms kan het ook helpen bij de invloed van testafname als bron van onbetrouwbaarheid, afhankelijk van of de test in dezelfde omgeving/door dezelfde persoon wordt afgenomen. Soms kan het ook helpen bij de invloed van inter-scorer variation, afhankelijk van of de test wordt gescoord door dezelfde persoon op beide momenten.

Nadelen test-retest reliability: (1) houdt geen rekening met niet-systematische fouten als gevolg van testinhoud, (2) behalve voor simpele testen is het een lastige taak om de test-hertest betrouwbaarheid te verkrijgen, (3) de eerste testafname kan invloed hebben op de tweede afname.

Daarnaast is ook de tijdsduur tussen beide momenten van afname belangrijk; interval moet lang genoeg zijn om te zorgen dat de eerste afname minimale invloed heeft op de tweede afname, maar aan de andere kant moet het interval ook niet te lang zijn, omdat een trek misschien echte veranderingen doorgaat tussen twee momenten van afname.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Inter-scorer reliability/inter-observer reliability/inter-rater reliability

A

Niet-systematische variantie is het gevolg van wie de test scoort. Dezelfde test wordt tweemaal gescoord, door twee individuen.

r = correlatie tussen scores van scoorder 1 en scoorder 2.
Bij meer dan twee scoorders wordt de intraclass correlation coefficient (ICC) gebruikt in plaats van de pearson correlation.

De scoorders dienen onafhankelijk te weren, ze dienen niet beïnvloed te worden door de andere scoorder.

Deze vorm van betrouwbaarheid ziet op variatie tussen scoorders, maar geeft geen informatie over een andere bron van fouten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Alternate form reliability/parallel form reliability/equivalent form reliability

A

Er worden twee of meer versies van testen afgenomen. Deze dienen vergelijkbaar te zijn in termen van hoeveelheid items, tijdslimieten, inhoudspecificaties en andere factoren. Beide versies worden bij dezelfde persoon afgenomen.

r = correlatie tussen score op versie 1 en score op versie 2.

Beide versies kunnen afgenomen worden achter elkaar als ze kort en niet te veeleisend zijn.

Worden beide versies direct na elkaar afgenomen, dan wordt enkel onbetrouwbaarheid als gevolg van testinhoud gemeten. Is er een interval tussen beide afnames, dan wordt ook onbetrouwbaarheid als gevolg van test-retest betrouwbaarheid, veranderingen in persoonlijke condities en afnamecondities gemeten.

Niet alle testen hebben een alternatieve versie; daarom wordt dit niet zeer frequent gemeten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Internal consistency reliability

A

Een van de meest gebruikte methoden. Drie methoden: (1) split-half, (2) Kuder-Richardson, (3) coefficient alpha.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Split-half reliability (internal consistency)

A

Een test, die in twee delen wordt gescoord, alsof ieder helft een alternatieve versie is van de test. Vervolgens wordt de correlatie berekend tussen de twee helften van de test. Een soort van mini-alternate forms meting van betrouwbaarheid.

Odd-even reliability: split-half reliability in which even numbers are scored and odd-numbers.

De correlatie tussen beide helften van de test geeft geen informatie over de betrouwbaarheid van de hele test, tenzij de Spearman-Brown correction wordt toegepast.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Kuder-Richardson formulas (internal consistency)

A

KR-20 en KR-21 werden vroeger veel gebruikt. Gingen uit van items met twee zijden (ja/nee, goed/fout etc.).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Coefficient Alpha (internal consistency)

A

Vereist in tegenstelling tot de Kuder-Richardson formulas geen items met twee zijden.

Coefficient alpha = Chronbach’s alpha.

Elk item kan gezien worden als een mini-versie van de test. Er kan dan gekeken worden hoe elk item overeenstemt met al de andere items (mini-forms) in de test.
- Wanneer de hoeveelheid items toeneemt, neemt betrouwbaarheid toe.
- Wanneer de inter-item correlatie toeneemt, neemt de betrouwbaarheid toe.

Wanneer er een grote hoeveelheid items is en de inter-item correlatie is laag, dan is de betrouwbaarheid nog relatief hoog. Alpha steunt op de gemiddelde correlatie tussen items, en de hoeveelheid items is ook belangrijk. Alpha geeft de mate aan waarin items in de test hetzelfde construct of trek meten. Het is een meting van item homogeniteit: mate waarin de items vergelijkbaar zijn in wat zij meten.

Het is een meting van onbetrouwbaarheid als gevolg van content sampling, maar niet van testafname, persoonlijke condities of scoring.

De metingen van interne consistentie zijn niet geschikt voor speeded tests.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Standard error of measurement (SEM)

A

SEM = SD * wortel (1-r)

SEM = standaarddeviatie van een hypothetisch oneindige hoeveelheid scores rondom de true score van een persoon.

Als r = 1 dan SEM = 0
Als r = 0 dan SEM = SD test

SEM kan gebruikt worden om een betrouwbaarheidsinterval te verkrijgen.

68% true score (+/- 1 SEM) van geobserveerde score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Standard errors

A

(1) Standard error of measurement, (2) standard error of the mean, (3) standard error of estimate/standard error of prediction.

(1) SD van een hypothetische populatie geobserveerde scores verdeelt rondom de werkelijke score van een individu.
(2) SD van een hypothetische populatie van steekproefgemiddelden verdeelt rondom het populatiegemiddelde. Gebruikt voor tests of significance (t-testen, z-testen).
(3) SD van de echte Y-waarden rondom de geschatte Y-waarden, waneer Y wordt geschat aan de hand van X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Hoe hoog moet betrouwbaarheid zijn

A

(1) Afhankelijk van wat je wil doen met de test; bij belangrijke beslissing of zware weging resultaat –> hoge betrouwbaarheid (.90 of hoger), bij meerdere bronnen –> gemiddelde betrouwbaarheid, bij groepsgemiddeldes –> nog minder betrouwbaarheid volstaat.

Excellent: .90 of hoger
Goed: .80-.89 –> andere informatie dient bekeken te worden naast de score.
Voldoende: .70-.79 –> bedachtzaam zijn en andere informatie dient bekeken te worden naast de score.
Research use: .60-.69
<.60 –> andere test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Construct

A

Een trek of karakteristiek. Bijvoorbeeld depressie of rekenvaardigheden. Een test meet idealiter het complete construct.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Construct underrepresentation

A

The part of the construct not covered by the test. The construct of interest is not fully covered by the test.

42
Q

Construct-irrelevant variance

A

Test measures some characteristics other than what we want to measure.

43
Q

Content validity: traditions

A

Traditional: content.
Newer: content.

44
Q

Convergent and discriminant validity: traditions

A

Traditional: criterion-related: concurrrent and predictive.
Newer: relations to other variables: convergent and discriminant and test-criterion relationships.

45
Q

Response processes and internal structure: traditions

A

Traditional: construct.
Newer: response processes, internal structure, consequences.

46
Q

Gezichtsvaliditeit

A

Lijkt een test te meten wat het beoogt te meten (construct). Het is niet-empirisch; het is nooit een vervanger voor empirische validiteit. Je kan niet naar een test kijken en aan de hand daarvan vaststellen dat deze valide is. Het kan handig zijn wanneer twee testen deze empirische validiteit hebben.

47
Q

Content validity/inhoudsvaliditeit

A

De relatie tussen de inhoud van een test en een goed gedefinieerd domein van kennis of gedrag. De inhoud van de tets moet overeenkomen met de inhoud van een relevant domein.

Vooral toegepast in (educational) achievement tests; bepalen van de mate waarin iemand kennis heeft van materiaal; Major Field Tests en Stanford Achievement Test, en employment tests: mate waarin iemand kennis en/of skills heeft die nodig zijn voor de uitoefening van een bepaald beroep. Niet veel gebruikt binnen intelligentie en persoonlijkheid.

48
Q

Bloom’s taxonomy

A

Knowledge, analysis, comprehension, synthesis, application, evaluation.

49
Q

Instructional validity/curricular validity

A

Een speciale toepassing van content validity en stelt de vraag aan de orde of de inhoud ook daadwerkelijk is gedoceerd. Er moet een mogelijkheid zijn geweest om te leren; bijvoorbeeld door blootstelling aan lesmateriaal dat overeenstemt met de testvragen.

Vooral van toepassing op educational achievement tests.

50
Q

Job analysis

A

Het process van het ontwikkelen van een lijst van kennis en vaardigheden die zijn vereist voor bepaalde beroepen.

51
Q

Verschillen achievement tests en employment tests t.a.v. inhoudsvaliditeit

A

(1) Bij achievement tests worden veelal geprinte documenten gebruikt als basis voor de inhoud specificaties. Bij employment tests veelal panels van experts, welke de specificaties ontwikkelen.
(2) Bij achievement tests wordt vrijwel nooit een overeenstemmingspercentage figuur gebruikt, maar wel bij de evaluatie van employment tests.

52
Q

Problemen met content validity

A

Het proces van vaststellen van content validiteit kan lastig zijn in de praktijk. Problemen zijn het gevolg van een drietal bronnen:
(1) Een duidelijk specificatie krijgen van de inhoud van een domein is vaak lastig.
(2) Moeilijk om te beoordelen hoe goed items de elementen van inhoudspecificaties dekken.
(3) Het verwijst niet naar de echte prestatie op een test; alle andere methoden die validiteit vaststellen verwijzen naar empirische prestatie.

53
Q

Criterion-related validity

A

Het vaststellen van de relatie tussen prestatie op een test en een ander criteria dat wordt gezien als een belangrijke indicator van het construct dat men wil meten.

Concepten:
(1) Prediciieve validiteit.
(2) Concurrente validiteit.
Beide concepten zijn hetzelfde, behalve qua tijd van afname.

Gangbare toepassingen:
(1) Extern realistisch criterium die het relevante construct definieert (external realistic criterion).
(2) Groepsverschillen (group contrasts).
(3) Een andere test (another test).

54
Q

Predictieve validiteit

A

Vorm van validiteit van een test of meting waarmee wordt aangegeven in hoeverre een test een criterium buiten de test kan voorspellen. Het begrip heeft betrekking op de vraag in hoeverre de test of meting voorspellende waarde heeft.

55
Q

Concurrente validiteit

A

Soms is het mogelijk om gelijktijdig met het gebruik van een instrument een andere (valide) waarneming te doen.

56
Q

External realistic criterion

A

Soms is er een extern criterium welke een realistische definitie geeft van het relevante construct. Over dit externe criterium zouden we graag meer informatie hebben.
(1) Soms is dit niet mogelijk tot een tijdstip in de toekomst en daarom willen we schatten wat de mogelijke positie van een persoon zal zijn t.a.v. dit criterium.
(2) Soms is het tijdrovend/zijn de kosten te groot om informatie over dit criterium te verkrijgen.

Y = external criterium
X = test
Y = bX + a

Standard error of estimate = SE = Sy * wortel (1-rxy^2)

57
Q

Contrasted groups

A

Het criterium is groepslid zijn. Het is de bedoeling om aan te tonen dat de test een onderscheidt kan maken tussen groepen. Hierbij dient de mate van scheiding tussen groepen in het oog gehouden worden. Een grote n zorgt ervoor dat het makkelijk is om een significant verschil tussen groepen te krijgen. Statistische significantie is dan ook niet voldoende, er dient ook praktische significantie te zijn.

58
Q

Correlations with other tests

A

Correlatie berekenen (net als bij de external realistic criterion) tussen een test waarvan de validiteit beoordeelt dient te worden en een andere test waarvan bekend is dat deze wordt gezien als valide met betrekking tot het meten van een bepaald construct. Deze andere is het criterium.
(1) Nieuwe test is misschien korter of minder duur.
(2) Nieuwe test kan betere normen hebben of efficiënter zijn voor scoring procedures.

59
Q

Jingle fallacy

A

Denken dat dezelfde bewoordingen gebruiken voor twee dingen betekent dat deze twee dingen ook echt hetzelfde zijn.

60
Q

Jangle fallacy

A

Denkel dat twee dingen echt verschillend zijn omdat er verschillende bewoordingen worden gebruikt.

61
Q
A
62
Q

Conditions affecting the correlation coefficient - criterion related validity

A

(1) Relatie tussen test en criterium is niet-lineair –> pearson correlatie onderschat de werkelijke reikwijdte van de relatie. De bivariate distributie voor de twee variabelen dient altijd bekeken te worden (geen gebruikelijk probleem).
(2) Verschillen in groep heterogeniteit: (gebruikelijk probleem): een heterogenen groep leidt tot een relatief hoge validiteitscoefficient.
(3) Homoscedasticity: ongeveer gelijke spreiding.

63
Q

Reliability-validity relationship

A

De validiteit van een test is tot een bepaalde hoogte afhankelijk van de betrouwbaarheid van een test en het criterium. Beperkte betrouwbaarheid van de test of het criterium zal dan ook de criterion-related validity beperken.

Bij een test zonder betrouwbaarheid zijn de testscores gewoonweg random error, de test heeft dan geen validiteit. Wanneer en criterium geen validiteit heeft is de status op het criterium gewoonweg random error, de test heeft dan geen validiteit met betrekking tot het criterium, ook wanneer de test wel valide is.

Een test kan echter geen validiteit hebben en toch betrouwbaar zijn.

64
Q

Attenuation

A

De beperking van de validiteit als gevolg van een imperfecte betrouwbaarheid.

65
Q

Disattenuated validity coefficient

A

Validity coefficient corrected for unreliability. Meestal wordt enkel gecorrigeerd voor onbetrouwbaarheid van de test en niet voor onbetrouwbaarheid van het criterium.

66
Q

Criterium contamination

A

Een situatie waarin het criterium wordt beïnvloed door factoren die geen verband houden met het concept dat wordt gemeten. Dit leidt in de meeste gevallen tot een verhoogde correlatie tussen test en criterium.

67
Q

Convergent validity

A

Een relatief hoge correlatie tussen de test en een criterium waarvan wordt gedacht dat dit hetzelfde construct meet als de test.

Veel gebruikt bij persoonlijkheidstesten; maar niet bij vaardigheids- en achievementtests.

68
Q

Discriminant validity

A

Een relatief lage correlatie tussen andere constructen en het construct dat de test beoogt te meten.

Veel gebruikt bij persoonlijkheidstesten; maar niet bij vaardigheids- en achievementtests.

69
Q

Cross validation

A

Bepaal je vergelijking en R op één steekproef; pas dan de vergelijking toe op een nieuwe steekproef om te zien welke R eruit komt. De afname van validiteit van de eerste naar tweede steekproef wordt validity shrinkage genoemd. Dit probleem kan relatief groot zijn wanneer de eerste sample klein is en neemt af bij toename van de steekproefgrootte.

70
Q

Incremental validity

A

Hoeveel unieke informatie een test toevoegt aan de reeds bestaande informatie.

71
Q

Statistical versus clinical prediction

A

In het algemeen zijn de statistische voorspellingen gelijk aan en veelal beter dan de voorspelling door klinische experts.

Wanneer er geen geschikte database is, hebben we echter klinische experts nodig om de constructen te ontwikkelen die middels de formules gemeten moeten worden.

72
Q

Decision theory

A

Een verzameling concepten, termen en procedures voor het analyseren van de kwantitatieve effecten van onze beslissingen. Toegepast op testen, behelzen de beslissingen het al dan niet gebruiken van testen. Hierbij kan bijvoorbeeld gedacht worden aan de kosten en tijd.

73
Q

Hit

A

Een zaak die dezelfde status heeft met betrekking tot zowel de test als het criterium. Hits zijn zaken die de cutscores op zowel het criterium als de test overstijgen (high hit rate –> goede criterium gerelateerde validiteit) of beide daaronder vallen (low hit rate).

74
Q

False positives

A

Zaken die de cutscore voor de test overstijgen, maar niet op het criterium.

75
Q

False negatives

A

Zaken die de cutscore voor het criterium overstijgen, maar niet voor de test.

76
Q

Wat beïnvloed het percentage hits, false positives en false negatives

A

(1) De mate van correlatie tussen de test en het criterium; bij perfecte correlatie (1.00) geen false positives of false negatives; bij geen correlatie is de som gelijk aan het aantal hits.
(2) De plaats van de cutoff score op de test.

77
Q

Base rate

A

Het percentage individuen in de populatie dat bepaalde karakteristieken heeft. Wanneer dit erg laag of hoog is, is het lastig om aan te tonen dat een test goede validiteit heeft met betrekking tot het identificeren van individuen in de doelgroep. Een goede testvaliditeit is het makkelijkst te verkrijgen wanneer de base rate (bijna) gelijk is aan .50. De base rate kan veranderen afhankelijk van de definitie van de populatie.

78
Q

Taylor-Russell tables

A

Geeft aan hoeveel de selectieresultaten verbeteren als de validiteit van de test toeneemt.

79
Q

Sensitivity and specifity

A

Deze termen worden gebruikt wanneer een test gebruikt wordt om individuen in twee groepen op te delen.

80
Q

Sensitivity

A

De mate waarin de criteriumgroep correct geïdentificeerd wordt.

81
Q

Specificity

A

De mate waarin de contrastgroep niet geïdentificeerd wordt.

82
Q

Welke factoren beïnvloeden de sensitiviteit en specificiteit van een test

A

(1) De mate van onderscheid tussen beide groepen (hoe meer hoe beter), (2) de plaatsing van de cutscore (bij een vaste mate van onderscheid zal het verplaatsen van de cutscore omgekeerd variëren; als sensitiviteit toeneemt, neem specificiteit af en vice versa.

83
Q

Internal consistency

A

Wanneer dit hoog is betekent dit dat er aanwijzing is dat een test een bepaald construct of bepaalde trek meet. Interne consistentie geeft slechts zwak dubbelzinnig bewijs met betrekking tot validiteit. Het is meer een voorwaarde voor validiteit.

84
Q

Factor analysis

A

Belangrijke bron van informatie voor construct validiteit.

85
Q

Effect van experimentele variabelen

A

Het bestuderen van deze effecten is gelijkaardig aan de contrasted group method van criterion-related validity. Bij contrasted-group studies worden normaal gesproken natuurlijke groepen gebruikt, terwijl dit bij het construct validiteit niet het geval is; hier worden ze gecreëerd.

86
Q

Developmental changes

A

Kan net als de effecten van experimentele variabelen ook gezien worden als variatie tussen contrasted groups. We vergelijken groepen van verschillende leeftijden of klassen.

87
Q

Construct validity

A

(1) Internal structure, (2) factor analysis, (3) response processes, (4) effect of experimental variables, (5) developmental changes.

88
Q

Consequential validity

A

De gevolgen van het testgebruik en de interpretatie ervan. Het gaat zowel om beoogde als niet-beoogde gevolgen.

89
Q

Test bias (opposite test fairness)

A

Meet een test zijn target construct vergelijkbaar in verschillende groepen. Een biased test doet dit niet.

90
Q

Validity generalization

A

Proces waarin al het bewijs wordt gewogen en de relevantie van bestaande studies op een specifiek beoogd gebruik. Meta-analyse is een technique voor het samenvatten van statistische informatie uit meerdere studies met betrekking tot een onderwerp.

91
Q

Fairheid

A

Ontstond in het kader van selectieproeven hoger onderwijs. Meten we wat we willen meten op equivalente wijze in/bij verschillende (groepen van) individuen (validiteit). Moet aandacht krijgen in alle fasen van testontwikkeling tot interpretatie van scores in specifieke contexten. Is afhankelijk individuele kenmerken getesten en testcontexten).

Fairheid is niet gelijkheid.

92
Q

Score verschillen tussen bepaalde groepen, test automatisch niet fair?

A

Nee, groepen mogen verschillen maar enkel als er ook in onderliggende construct dat je wil meten echt een verschil is tussen deze groepen.

93
Q

Bedreigingen van fairheid; 4 gebieden

A

(1) Testinhoud: constructrelevante variantie als gevolg van onaangepast testinhoud: moeilijke woorden (test kritisch lezen), verschillen in interesse voor testmateriaal, verschillen in herkenning in het testmateriaal (reactietijdproeven), beledigende karakter van items.
(2) Testcontext: vaagheid van testinstructies, interacties met examinator (stereotypebedreiging), taal van testing (meertalige kinderen hebben context-specifieke taalkennis).
(3) Testrespons: verschillen in vertrouwdheid/voorkeur voor bepaalde antwoorden, vorm van antwoorden kan additionele vaardigheden vereisen, kan interageren met scoringssleutel.
(4) Kans om te leren: hadden de personen de kans om de inhoud en vaardigheden van de test te kunnen leren (recente immigranten en scholen in kansarme buurten). Hangt af van de context: fairheid indien zowel opleiding als testing door zelfde instantie gebeuren; fairheid niet noodzakelijk in het gedrang bij toegang tot specialiseerde opleiding. Moeilijk te definiëren en kwantificeren op het individuele niveau.

94
Q
A
95
Q

Zien of zorgen dat een test fair is

A

Bij testconstructie
Bij testvalidering
Bij testgebruik

96
Q

Bij testconstructie (fairheid)

A
  • Universal design: op voorhand duidelijk specificeren welk construct men precies wenst te meten en voor welke doelgroep de meting precies bedoeld is.
  • Duidelijk identificeren welke kenmerken van de geteste kunnen interfereren met de meting van het bedoelde construct (testinhoud, testcontext, testrespons en kans op leren).
  • Test zo ontwikkelen dat hij fair is voor alle individuen in de doelgroep.

Kijk naar iteminhoud
- Vermijd cognitieve bronnen van constructirrelevante variantie (woorden uit specifieke contexten die er niet toe doen; taal en moeilijkheidsniveau van taal).
- Vermijd affectieve bronnen van constructirrelevante variantie (omstreden standpunten, pijn, dood, religie, stereotypen).
- Vermijd fysische bronnen van constructirrelevantie (visuele weergave/auditieve weergave).

97
Q

Bij testvalidering (fairheid)

A

Doe interne structuuranalyses
Doe itemvertekeningsanalyses (differential item functioning (DIF)).
Onderzoek de mate van predicitieve vertekening.

98
Q

Bij testgebruik (fairheid)

A

= adaptie van een test
- Testaccommodatie: vergelijkbaarheid van de scores blijft behouden (bv. vergroten lettertype voor slechtzienden).
- Testmodificatie: leidt tot niet-vergelijkbare scores die het bedoelde construct veranderen (vb. gebruik van rekenmachine bij dyscalculie).

99
Q

Hoe hoog moet je coëfficiënt zijn: betrouwbaarheid

A

COTAN

Belangrijke individuele beslissingen
Minstens .90 = goed
Minstens .80-.89 = voldoende
Hoogstens .79 = onvoldoende

Minder belangrijke individuele beslissingen
Minstens .80 = goed
Minstens .70-.79 = voldoende
Hoogstens .69 = onvoldoende

Groepsvergelijking of experimentele toepassingen
Minstens .70 = goed
Minstens .60-.69 = voldoende
Hoogstens .59 = onvoldoende

100
Q

Hoe hoog moet het coëfficiënt zijn - validiteit

A

.10 = zwak
.30 = medium
.50 = sterk

101
Q
A
102
Q

Criterion related validity

A

Extern criterium, gecontrasteerde groepen (sensitiviteit/specificiteit), correlaties met andere testen (convergente & divergente validiteit).

103
Q

Construct validity

A

Interne structuur, factoranalyse, antwoordprocessen, effect van experimentele variabelen, ontwikkelingsaspecten.