8. Validiteit en betekenis Flashcards
Hoe wordt validiteit gedefinieerd volgens de Standards for Educational and Psychological Testing?
In de Standards for Educational and Psychological Testing wordt validiteit gedefinieerd als de mate waarin evidentie en theorie de interpretatie van de testscores ondersteunen bij het gebruik van de test. #evidence and theory
Drenth en Sijtsma geven als algemene definitie van validiteit? En wat is het validiteitsproces?
- Validiteit: ‘de mate waarin de test aan zijn doel beantwoordt’. Of een bepaalde test valide is, hangt af van het doel waarvoor je de test gebruikt en samenhangend daarmee de context/onderzoeksgroep waarbinnen je deze test gebruikt.
- validiteitsproces: verzamelen van evidentie voor de rechtvaardiging van de sprong van testgedrag naar te meten eigenschap. Vb: geven sommen in een test voldoende de rekenvaardigheid weer? # verzamelen van stukjes validiteit om sprong te kunnen maken.
De vier belangrijke vormen van validiteit volgens Drenth en Sijtsma
- predictive validity
- concurrent validity
- Content validity/ inhoudsvaliditeit, Bezwaar? hoe kan subjectiviteit worden voorkomen? Lijkt op face validity?
- Construct validity, bestaat uit 3 stappen
- predictive validity: gaat strikt genomen alleen gaat over het succes waarmee toekomstige criteriumscores kunnen worden voorspeld. Klopt de voorspelling achteraf?
- concurrent validity: klopt de voorpelling adhv uitkomsten andere tests?
- Content validity/ inhoudsvaliditeit: de mate waarin de test de inhoud van het criterium (kennis, vaardigheid, etc) omschrijft. Vb: in welke mate een proefwerk Frans iets zegt over de gehele kennis van de Franse taal.
Bezwaar is dat vaak empirisch onderzoek naar begrippen vaak ontbreekt, omdat vragen vaak komen uit eerdere toetsen die ook weer zijn gevalideerd uit eerdere toetsen (cirkelredenering).
subjectiviteit kan worden voorkomen door een tweede beoordelaar te gebruiken.
Lijkt op face validity omdat het een zwaar appel doet op subjectieve oordelen. - Construct validity; meet in hoeverre de test de te meten ‘constructen’ daadwerkelijk meet. Lijkt daarom op betekenisanalyse.
Bestaat uit 3 stappen:
4.1. Vinden van juiste eigenschappen die een verklaring geven.
4.2. Toetsbare hypotheses formuleren.
4.3. Uitvoeren van empirisch onderzoek om hypothese te toetsen.
2 specifieke varianten van begripsvaliditeit: synthetische en congruent validiteit.
Aanverwante vormen zoals: face-validity en incremental validity
1. synthetische validiteit: (als criterium wordt niet het criterium in zijn geheel (bijvoorbeeld leidinggeven) gebruikt, maar kleinere, zinvolle elementen van het grotere criterium (bijvoorbeeld omgang met mensen). #alleen synthetische kleding.
2. congruent validity: (soortgenootvaliditeit; als criterium wordt een bestaande test gebruikt die dezelfde eigenschap pretendeert te meten). #concurrentie, zelfde als concurrent validity.
- face-validity wordt er op het eerste #gezicht gemeten wat je wil meten.
4. Incremental validity (incrementele (toegevoegde) validiteit, wat betrekking heeft op de toename in validiteit die het gevolg is van toevoeging van een nieuwe test aan een bestaande testbatterij). #meer pannetjes toevoegen
COSMIN-taxonomie en taxonomie van De Von et al.
COSMIN-taxonomie: deze taxonomie beschrijft drie kwaliteitsdomeinen van testen, namelijk betrouwbaarheid, validiteit en reactievermogen. Elk domein bevat een of meer meeteigenschappen (bijvoorbeeld bij het domein validiteit: content validity,
criterion validity en construct validity; verder te verdelen in structural validity, hypothesetoetsing en cross-cultural validity).
taxonomie van De Von et al. overlapt met die van Drenth en Sijtsma.
en zie afbeelding https://youlearn.ou.nl/web/pb1502181944/cursus/-/coursenavigator/49498154?_nl_ou_dlwo_courseview_WAR_nloudlwocourseplanportlet__facesViewIdRender=%2Fxhtml%2Fviewer%2FcourseNavigator.xhtml
multitrek-multimethode-benadering: Wat zijn de voornaamste eisen
multitrek-multimethodematrix: wat is het idee hiervan?
- b-waarden
- v-waarden
- m-waarden
- d-waarden
- multitrek-multimethode-benadering
Het analyseren op consistentie van het correlatiepatroon dat ontstaat op het moment dat verschillende testen voor meer dan één eigenschap worden gebruikt.
Voornaamste eisen: confirmerende validiteit (metingen van dezelfde eigenschap met verschillende tests moeten hoog met elkaar correleren) en discriminante validiteit (metingen van verschillende eigenschappen moeten laag met elkaar correleren). - multitrek-multimethodematrix: idee is dat een test voor een bepaalde eigenschap zou kunnen worden vervangen door een andere test die hetzelfde pretendeert te meten. (p. 390) (driehoekjes). Met één model de betrouwbaarheid en conformerende en discriminerende validiteit te onderzoeken.
- b-waarden: betrouwbaarheid - correlaties voor zelfde trek en zelfde methode.
- v-waarden: correlatie voor zelfde trek maar verschillende methode. Moet significant met 0 verschillen. Moet hoger zijn dan d-waarde en m-waarde.
- m-waarden: correlatie voor zelfde methode maar verschillende trekken. Gelijke patronen als d-waarde.
- d-waarden: correlatie voor verschillende trekken en methoden. Gelijke patronen als m-waarde.
Predictie, paradictie, postdictie
Predictie: toekomst
paradictie: heden
postdictie: verleden
Predictive validity vs predictieve validiteit en wanneer worden bepaald?
- Predictive validity; klopt voorspelling achteraf?
- Predictieve validiteit; breder, niet gebonden aan toekomstig criterium, maar ook voorspelling van ieder extern criterium in heden en verleden. Vb: cito = predictor, prestatie vervolgonderwijs = criterium.
Kan pas worden bepaald wanneer criteriumgedrag en kriteriummaat gekozen/vastgesteld zijn.
Drie type criterium (Thorndike, 1949).
- Welke twee problemen spelen hierin op?
Volgens Drenth en Sijtsma betere scheiding van criterium:
- Wat is conceptuele criterium?
- de daaruit voortkomende criteriummaat: criteriumgedrag/ criteriumprestatie?
- Aan welke eis moet de meting van het criterium voldoen?
- Uiteindelijk/ ultimate; alomvattende einddoel.
- tussentijds/ intermediate; prestatie op eindexamen ipv latere beroepsprestaties
- onmiddellijk/ immediate; vb totaal studiepunten eerste jaar.
Problemen:
- tijd: Men kiest vaak voor 2 en 3 omdat 1 te ver weg in tijd ligt.
- beschikbaarheid: wel meetbaar? te veel omvattend? Wel in getallen uit te drukken?
Conceptuele criterium; uiteindelijke doel van instelling of organisatie in zichtbare resultaten. Vb: arbeidsprestatie van werknemer of kennis van schoolvakken.
- De criteriummaat zijn uitspraken of scores die iets zeggen over het criteriumgedrag/ criteriumprestatie (bv zelfbeoordeling of door psychiater). waarneembaar.
- De meting van het criterium moet aan dezelfde eisen van betrouwbaarheid en validiteit voldoen als de test waarmee dit criterium wordt voorspeld.
6 fases bij het opzetten van een testbatterij met predictieve validiteit
- Operionaliseren
- Keuze
- Proefafname
- Validatie
- Predictorbatterij
- Kruisvalidering
Fase 1: Operationeel maken van criteriumgedrag
Fase 2: Keuze en constructie test
Fase 3: Proefafname bestaande of nieuwe test (bij bestaande test alleen nodig bij afwijkende populatie).
Fase 4: validatie van testprocedure
Fase 5: samenstellen van predictorbatterij (test opnemen die onderling weinig correleren, zodat zoveel mogelijk onderzocht kan worden).
Fase 6: kruisvalidering; controleren of 2e steekproef overeenkomst met de 1e. door te controleren of regressiegewichten op elkaar lijken en multiple correlatie ongeveer gelijk zijn.
Gestratificeerde steekproef?
- welke voorwaarde?
- Voor welke groep extra noodzakelijk?
- waarom?
- In steekproef expliciet onderscheid maken tussen groepen bv jongeren en ouderen. Vervolgens aselect bv 30% jongeren en 70% ouderen te trekken.
- Voorwaarde is dat iedereen gelijke kansen heeft om in de steekproef te komen.
- Extra noodzakelijk voor kleine groepen aangezien deze extra gevoelig zijn voor over- of onderrepresentatie van deelgroepen.
- Waarom: omdat betrouwbaarheid en validiteit meer gevoelig zijn voor variatie in de spreiding, maar minder voor variatie in het gemiddelde van testscore.
Contaminatie van het criterium
De correlatie tussen test en criteriumscore valt kunstmatig hoog uit omdat eindbeoordelaar (onbewust) uitslag van het onderzoek meeneemt in eindoordeel. Bv leidinggevende die iemand ontslaat omdat hij slecht uit de test komt en toch al slecht presteerde. #docent met dikke 'kont' opzitten.
Validiteitscoëficiënt
- welke twee uitzonderingen en hoe op te lossen?
Correlatie tussen testscore en criteriumscore
- Kromlijnige relatie; te hoge druk op test waardoor proefpersonen gaan falen en de stijgende lijn opeens weer daalt. Op te lossen met correlatieratio η.
- Heteroscedastische relatie; relatie tussen prestatie en hoge intelligentie. Hoge intelligentie zorgt niet altijd voor betere prestaties. Op te lossen met Ө die gemiddelde relatie weergeeft.
Suppressor variabele
r(x1,y) >0, r(x2,y) =0. x1 correleert voor een deel met x2. Wanneer x2 deel wordt verwijderd uit x1 (x1') correleert dit sterker met y dan x1 deed. Bv taalvaardigheid (x2) die rol speelt in toets van rekenvaardigheid (x1).
Moderatorvariabele
Correleert zelf niet of nauwelijks met criteriumscore, maar wel andere variabele beïnvloed.
Bv variabele correleert wel met mannen, maar niet met vrouwen, dus in populatie correleert criterium matig.