OU toets gedeelte 2. Flashcards
21 van 60
Sommige tests werken volgens het principe van ‘toeschrijving’.
Hierbij moet men
a uit twee rijen antwoorden de juiste combinaties kiezen.
b bij een rij alternatieven aangeven aan welke de grootste plausibiliteit toegekend kan worden.
c aangeven welke delen van een stelling en/of de conjunctie daartussen juist is.
a is juist.
. Hier gaat het om het kiezen van de juiste combinaties tussen twee sets antwoorden. Het idee is dat je specifieke kenmerken of eigenschappen moet toewijzen aan de juiste combinaties.
b is onjuist.
in dit geval lijkt het meer te gaan om het beoordelen van de geloofwaardigheid of waarschijnlijkheid van individuele alternatieven. Dit kan bijvoorbeeld relevant zijn bij het evalueren van hypotheses of uitspraken op basis van hun plausibiliteit.e rijen.
c.
Deze betekenis lijkt gericht te zijn op de beoordeling van de correctheid van specifieke delen van een bewering of de juistheid van de conjunctie tussen beweringen. Het zou kunnen betekenen dat je moet aangeven welke onderdelen van een bewering correct zijn of wat de juiste logische relatie is tussen verschillende beweringen.
22 van 60
Drenth en Sijtsma geven een aantal aanwijzingen en overwegingen voor de constructie van
antwoordschalen bij tests voor gedragswijze.
Een van de overwegingen betreft.
a.het aantal items per schaal.
b het aantal antwoordopties per schaal.
c het aantal constructen per schaal.
Zie tekstboek, p. 130.
b het aantal antwoordopties per schaal.
23 van 60
In een gestratificeerde steekproef
a.heeft iedere deelnemer evenveel kans in de steekproef terecht te komen.
b heeft iedere deelnemer binnen een random sample evenveel kan in de steekproef terecht te komen.
c heeft iedere deelnemer binnen een deelgroep evenveel kans in de steekproef terecht te komen.
Zie tekstboek, p. 137.
C. Bij een gestratificeerde steekproef wordt de populatie opgedeeld in verschillende deelgroepen of strata op basis van bepaalde kenmerken. Vervolgens wordt uit elk van deze deelgroepen een willekeurige steekproef getrokken. Het doel is om ervoor te zorgen dat elke deelgroep vertegenwoordigd is in de uiteindelijke steekproef, waardoor meer nauwkeurige uitspraken kunnen worden gedaan over de gehele populatie. Binnen elke deelgroep heeft elke deelnemer dus evenveel kans om in de steekproef terecht te komen
antwoord a is onjuist: a) “Heeft iedere deelnemer evenveel kans in de steekproef terecht te komen.”
Deze beschrijving past meer bij een eenvoudige willekeurige steekproef (simple random sample) dan bij een gestratificeerde steekproef. In een gestratificeerde steekproef heeft niet elke deelnemer in de totale populatie dezelfde kans om in de steekproef te worden opgenomen, omdat de populatie eerst wordt verdeeld in deelgroepen (strata) op basis van bepaalde kenmerken.
antwoord B is onjuis:
Deze beschrijving lijkt opnieuw meer van toepassing op een eenvoudige willekeurige steekproef. In een gestratificeerde steekproef worden deelnemers niet willekeurig geselecteerd uit de gehele populatie, maar worden ze geselecteerd uit specifieke deelgroepen (strata) op basis van bepaalde kenmerken.
24 van 60
Het langs klinisch-intuïtieve weg verwerken van de testsituatie in de evaluatie, is geoorloofd als het gaat om.
a classificerende uitspraken.
b hypothetische uitspraken.
c voorspellende uitspraken.
Zie tekstboek, p. 150 - 151.
Juist: b hypothetische uitspraken.
Hoe men dergelijke problemen kan ondervangen hangt af van het belang van het onderzoek.
Gaat het om het genereren van hypothesen of het vinden van wegen waarlangs verder onderzoek nuttig zou kunnen zijn, dan mag men best langs klinisch-intuïtieve weg elementen van
de testsituatie in de evaluatie verwerken.
a en b zijn onjuist Voorspellende of classificerende uitspraken vereisen een steviger basis. Een zo groot mogelijke vergelijkbaarheid en objectiviteit kunnen het
beste worden bereikt door een zo normaal mogelijke relatie op te bouwen, met een positieve
en stimulerende toon. Men zal daarna in de verwerking en berekening van de testscore ‘doen
alsof’ de genoemde invloeden genegeerd kunnen worden
27 van 60
Welke transformatie leidt tot een symmetrische verdeling rondom de gemiddelde score?
a z-scores
b stanines
c noch z-scores noch stanines
Zie tekstboek, p. 185.
B juist b stanines.
fout = a Een ernstig en
veel voorkomend misverstand is dat z-scores automatisch normaal
verdeeld zouden zijn. Om standaardscores of z-scores te verkrijgen, worden de ruwe scores,
X, uitgedrukt in het aantal standaarddeviatie-eenheden dat zij van het
gemiddelde verwijderd liggen,
28 van 60
30 procent van de respondenten heeft een ruwe score van 40 of lager en 32 procent heeft een ruwe score
van 41 of lager.
Wat is de percentiele score die overeenkomt met de ruwe score van 41?
a 20
b 26
c 31
antwoord C 31.
Percentielen laten zien welk percentage van de scores lager is dan een bepaalde score.
32 procent van de respondenten heeft een ruwe score van 41 of lager.dus 32 procent van de scores is 41 lager dan 41.
dus als jij een ruwe score van 41 hebt, val je in of boven die 32 procent van de respondenten
. Met andere woorden, je zit op het 32e percentielpunt maar 31 komt in de buurt.
29 van 60
Tussen welk paar z-scores is het percentage personen het grootst als de oorspronkelijke scores normaalverdeeld zijn?
a tussen -0.20 en 0.20
b tussen 1.00 en 1.40
c tussen 2.00 en 2.40
Juist.
Zie tekstboek, p. 186.
tussen -0.20 en 0.20
In de context van z-scores bij een normaalverdeling, is het gemiddelde altijd 0 en de standaarddeviatie is 1. Dus, voor elke z-score op de standaard normaalverdeling, is het gemiddelde 0 en de standaarddeviatie is 1.
Nu, laten we naar de keuzes kijken:
a) tussen -0.20 en 0.20
b) tussen 1.00 en 1.40
c) tussen 2.00 en 2.40
a) De z-scores tussen -0.20 en 0.20 liggen binnen één standaarddeviatie van het gemiddelde (0).
b) De z-scores tussen 1.00 en 1.40 bevinden zich buiten één standaarddeviatie van het gemiddelde.
c) De z-scores tussen 2.00 en 2.40 bevinden zich verder buiten één standaarddeviatie van het gemiddelde.
Dus, omdat we geïnteresseerd zijn in het gebied binnen één standaarddeviatie van het gemiddelde bij een normaalverdeling, is het correcte antwoord:
a) tussen -0.20 en 0.20
30 van 60
Welke verklaring voor het niet-systematische deel van de testscore wordt normaliter verondersteld?
a leeftijdsgebonden ontwikkeling van bepaalde eigenschappen
b geslachtsverschillen in sommige persoonseigenschappen
c Men gaat ervan uit dat er toevallige invloeden op de testprestatie werkzaam zijn.
Juist.
Zie tekstboek, p. 191-192.
c Men gaat ervan uit dat er toevallige invloeden op de testprestatie werkzaam zijn.
a is fout want Leeftijdsgebonden ontwikkeling van bepaalde eigenschappen: Deze verklaring suggereert dat de testprestaties kunnen worden beïnvloed door de leeftijdsgebonden ontwikkeling van bepaalde eigenschappen. Dit is een systematische invloed die niet als “niet-systematisch” wordt beschouwd.
b is fout want Geslachtsverschillen in sommige persoonseigenschappen: Net als bij keuze a, verwijst dit naar een systematische invloed die specifiek gerelateerd is aan geslachtsverschillen.
c is juist v want Men gaat ervan uit dat er toevallige invloeden op de testprestatie werkzaam zijn: Deze keuze beschrijft het niet-systematische deel van de testscore. Toevallige invloeden zijn onvoorspelbaar en variëren van geval tot geval. Ze zijn niet gebonden aan leeftijd, geslacht of andere systematische factoren.
In tests en metingen willen we het systematische deel van de score scheiden van het niet-systematische deel. Het niet-systematische deel, zoals beschreven in keuze c, wordt vaak aangeduid als meetfouten of willekeurige invloeden die niet onder controle zijn van de onderzoeker. Daarom wordt keuze c als juist beschouwd.
31 van 60
Voor een kennistest met meerkeuze-items geldt dat bij een toenemende waarde van de ware score (T) de
standaardmeetfout.
a afneemt.
b toeneemt.
c gelijk blijft.
Juist.
Zie tekstboek, p. 197/198.
A is juist.
tel je voor dat je een test doet waarbij je punten kunt verdienen voor elk goed antwoord. Je werkelijke score, laten we die T noemen, is hoeveel je eigenlijk weet. De standaardmeetfout is als een soort meting van hoeveel we kunnen verwachten dat je echte score kan variëren, zelfs als je dezelfde test meerdere keren zou doen.
a) Als je werkelijke score (T) hoger wordt, betekent dit dat je meer weet. In zo’n geval neemt de standaardmeetfout vaak af. Dit betekent dat we meer vertrouwen hebben in de nauwkeurigheid van je score.
b) Als je werkelijke score (T) lager wordt, betekent dit dat je minder weet. In zo’n geval kan de standaardmeetfout toenemen, wat betekent dat er meer variabiliteit kan zijn in je scores.
c) Het idee dat de standaardmeetfout gelijk blijft, is minder gangbaar. Meestal wordt verwacht dat de standaardmeetfout verandert naarmate je ware score verandert.
Dus, in de context van de vraag, als je meer weet (hogere T), neemt de standaardmeetfout vaak af (antwoord a).
32 van 60
Welke methode zou een betere schatting geven van de betrouwbaarheid zonder aanvullende wiskundige
correcties?
a. de correlatie tussen twee helften van de test
b.de correlatie tussen twee parallelle tests
c.de correlatie tussen twee herhaalde metingen van dezelfde test
Zie tekstboek, p. 205, 206, 211, 213
Bij de herhaalde metingen is een leereffect mogelijk en bij het splitsen van de test moet men corrigeren
voor het dalen van de betrouwbaarheid.
b.de correlatie tussen twee parallelle tests.
Stel je voor dat je een test hebt waarmee je iets meet, zoals intelligentie. Als je wilt weten hoe betrouwbaar die test is, kun je kijken naar twee methoden:
Wanneer je de betrouwbaarheid van een meetinstrument wilt schatten, kun je kijken naar de correlatie tussen twee parallelle tests. Parallelle tests zijn twee versies van dezelfde test die zijn ontworpen om dezelfde constructen te meten. De correlatie tussen deze tests geeft een indicatie van de betrouwbaarheid van het meetinstrument.
De correlatie tussen twee helften van een test kan ook worden gebruikt om betrouwbaarheid te schatten, maar deze methode kan minder betrouwbaar zijn dan het gebruik van parallelle tests.( optie a)
De correlatie tussen twee herhaalde metingen van dezelfde test kan beïnvloed worden door factoren zoals geheugen- en leereffecten en geeft mogelijk niet alleen de betrouwbaarheid van de test zelf weer. Daarom is het gebruik van parallelle tests vaak een betere benadering.(optie c)
Dus, de betere methode zonder extra wiskundige correcties is b. de correlatie tussen twee parallelle tests. Het geeft een solide indicatie van hoe betrouwbaar de test is( optie b)
3 van 60
Als de items van een test dichotoom zijn dan is KR20
a kleiner dan Cronbachs alfa.
b gelijk aan Cronbachs alfa.
c groter dan Cronbachs alfa.
Zie tekstboek, p. 222+224.
b
KR20, is gelijk aan alfa als alle items dichotoom
gescoord zijn.
40 van 60
In welke modellen kunnen de itemresponsfuncties elkaar snijden?
a het model van monotone homogeniteit en het Rasch-model
b het model van dubbele monotonie en het drie-parameter logistische model
c het Birnbaum-model en het drie-parameter logistische model
Zie tekstboek, p. 283 en 286.
c het Birnbaum-model en het drie-parameter logistische model
het model van monotone homogeniteit als het Rasch-model gaan ervan uit dat de itemresponsfuncties monotoon zijn, wat betekent dat ze niet mogen kruisen.
In deze modellen wordt aangenomen dat een hogere vaardigheid altijd leidt tot een hogere kans op het correct beantwoorden van een item, en de responsfuncties zijn dus niet in staat om elkaar te kruisen.
Het model van dubbele monotonie staat kruisende itemresponsfuncties toe, maar het drie-parameter logistische model gaat uit van een strikt monotoon stijgende itemresponsfunctie. Dus, hoewel het model van dubbele monotonie dit toestaat, is het drie-parameter logistische model niet geschikt voor kruisende itemresponsfuncties
42 van 60
Beoordeel de juistheid van de volgende twee stellingen.
I Een test kan een adequate voorspelling opleveren, als de data zowel valide als voldoende
operationaliseerbaar zijn.
II Validering van een test behelst het nagaan in hoeverre de sprong van testscore naar normscore
gerechtvaardigd is.
Alleen I is onjuist.
Alleen II is onjuist.
I en II zijn onjuist.
I en II zijn onjuist.
41 van 60
Een persoon-responsfunctie van een specifieke geteste persoon blijkt na het dalen relatief hoog aan het
einde te verlopen (de curve lijkt ongeveer op een letter ‘U’).
Dit is een teken
a van bedrog of ‘item exposure’.
b het blind gissen op vrijwel alle items
c van een functie zoals deze verwacht kan worden bij testangst.
a van bedrog of ‘item exposure’.
er is een afbeelding in het digitale boek op pagina 315.
je hebt een lijn die van hoog naar laag loopt dat staat voor dalend zoals verwacht.
je hebt een lijn die van links naar rechts vlak loopt dit staat voor vlak en laag, zoals bij blind gissen op vrijwel alle items.
je hebt eentje die een beetje laag begint dan bol omhoog haat en daarna weer wat lager deze stata voor relatief
laag in het begin, zoals bij testangst een beetje als een ondersteboven U
en dan heb je eentje die als een U loopt en dit is ; en relatief hoog aan het einde, zoals bij
bedrog of ‘item exposure
43 van 60
Binnen de Amerikaanse testpsychologie is een tendens waar te nemen om validiteit als
a multidimensioneel concept te beschouwen.
b differentieel concept te beschouwen.
c eenledig concept te beschouwen.
Zie cursusmateriaal op yOUlearn, introductie op hoofdstuk 8.
c eenledig concept te beschouwen.
c is juist want: Dit betekent dat validiteit wordt gezien als een algemeen kenmerk van een meetinstrument, waarbij wordt beoordeeld in hoeverre de test meet wat het beoogt te meten.
a Multidimensioneel concept te beschouwen (onjuist): Een multidimensionele benadering zou suggereren dat validiteit verschillende dimensies heeft en dat elk aspect van de testprestatie apart wordt beoordeeld. De gangbare praktijk in de Amerikaanse testpsychologie is echter om validiteit als een eenledig concept te beschouwen, gericht op de algehele effectiviteit van de test.
b) Differentieel concept te beschouwen (onjuist): Een differentiële benadering zou betekenen dat validiteit afhankelijk is van specifieke kenmerken, groepen of contexten. Hoewel er aandacht is voor verschillende soorten validiteit (bijv. predictieve, inhoudsvaliditeit), wordt validiteit over het algemeen beschouwd als een algemeen concept dat van toepassing is op de gehele test, ongeacht specifieke subgroepen.