H6: Betrouwbaarheid Flashcards

1
Q

Belangrijk! Formules uit hoofdstuk 6

Wanneer er bij een vraag op het tentamen een formule een rol speelt, dan staat die formule erbij. U hoeft dus geen formule uit het hoofd te leren. U moet wel de formules begrijpen en u moet wel weten wat u met de formule kunt berekenen.

Aangezien het in hoofdstuk 6 formules regent geven we hier de formules die u echt moet kennen (dit betekent niet dat u die uit het hoofd moet leren en reproduceren):
6.1, 6.9, 6.10, 6.11, 6.16, 6.25, 6.26, 6.40, 6.45, 6.46, de formule onder 6.46, 6.47 en de formule onder 6.47.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat zijn 3 basisaannames bij testen volgens de naieve testtheorie?

A
  1. Wat we meten bestaat en is (redelijk) stabiel
  2. Wat we meten is kwantitatief meetbaar
  3. Kwantitatief verschil in waarden is betekenisvol
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn de hoofdconcepten van de Klassieke Testtheorie?

A
  1. Ware score (in individu en in populatie)
  2. Meetfout is willekeurig
  3. Betrouwbaarheid
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is de belangrijkste formule van de klassieke testtheorie?

A

Xij = Ti + Eij
Respons = ware score + meetfoutq

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is de belangrijkste formule van de klassieke testtheorie?

A

Xij = Ti + Eij
Respons = ware score + meetfout

Hierbij is de respons een willekeurige score (X), gekozen uit al de verschillende keren dat de respondent de vragenlijst heeft ingevuld.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat is de ware score bij de klassieke testtheorie?

A

Gemiddelde van alle scores van een persoon bij eenzelfde meting op verschillende momenten (dus eenzelfde vragenlijst op verschillende momenten ingevuld. score zou hetzelfde moeten zijn, maar is het niet)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is een synoniem voor de ware score?

A

Betrouwbare score

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is de som van alle meetfouten van replicaties?

A

0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is de correlatie tussen E (meetfout) en T (score)?

A

r(E,T) = 0

Want meetfout en score zijn onafhankelijk van elkaar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is variantie?

A

Variantie is het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde.

Variantie is altijd een positief getal. Hoe hoger het getal, hoe meer spreiding er is van de geobserveerde scores rondom de gemiddelde score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is de formule voor betrouwbaarheid?

A

Variantie van de ware score gedeeld door variantie van de geobserveerde score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat zijn voordelen van de klassieke testtheorie? 3x

A
  • Veel valide vragenlijsten zijn erop gebaseerd
  • Vrij goede resultaten voor totale scores
  • Eenvoudiger toe te passen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hoe is de klassieke testtheorie samen te vatten?

A

De ware score bestaat, maar ruis (oftewel meetfouten) zorgen voor variatie in de scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is de definitie van betrouwbaarheid?

Wat zijn hier 2 kanttekeningen bij?

A

De mate waarin een test bij herhaalde afnamen onder dezelfde condities dezelfde score oplevert

  1. In de praktijk blijkt dat een persoon tussen herhaalde afnames verandert, wat de uitslag bij een volgende afname systematisch kan veranderen.
  2. Gelijktijdige omgevingscondities kunnen niet worden gegarandeerd bij herhaalde afname
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een andere naam voor de klassieke testtheorie?

A

De ware-score theorie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is de centrale veronderstelling bij de klassieke testtheorie?

A

dat de testscore van een persoon kan worden opgevat als bestaande uit een ‘ware’ component en een meetfout, die het gevolg is van toevalsinvloeden. De ware component wordt ook wel de betrouwbare component genoemd, in plaats van component wordt ook wel over score gesproken.

Bij een realisatie van herhaalde afnamen zullen effecten van toevallige invloeden elkaar opheffen en dus is het gemiddelde van de behaalde scores gelijk aan de ware of betrouwbare score en de standaarddeviatie van de behaalde scores gelijk aan de standaarddeviatie van de meetfouten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat wordt er verstaan onder toevalsinvloeden die zorgen voor meetfouten bij de klassieke testtheorie?

A

factoren die aan de persoon zijn gebonden maar niet blijvend van aard zijn (bijvoorbeeld het niveau van concentratie of stemming als het gaat om iemands intelligentie), en factoren die aan de omgeving zijn gebonden (bijvoorbeeld de temperatuur, de hoeveelheid verkeerslawaai).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Om alle meetfout als willekeurige ruis rond een ware score te zien moet de ruis aan een aantal voorwaarden voldoen. Welke?

A
  1. Wanneer een test aan een voldoende grote groep personen of meerdere malen aan een persoon wordt afgenomen, kan op grond van het bovenstaande worden afgeleid dat de gemiddelde meetfout 0 is en dat het gemiddelde van de geobserveerde testscores gelijk is aan het gemiddelde van de ware scores.
  2. Omdat iedere individuele testscore een meetfout bevat, bestaat de variantie van de scores bij de afnames bij meerdere personen niet alleen uit variantie van de ware scores (betrouwbare variantie), maar ook uit variantie die aan de meetfouten kan worden toegeschreven (foutenvariantie).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Er zijn twee klassieke testtheoretische benaderingen om de betrouwbaarheid te schatten, elk bestaande uit 2 vormen. Welke 2?

A
  1. De eerste methode die twee vormen kent is gebaseerd op herhaalde testafnamen.
  2. Bij de tweede methode om betrouwbaarheid te bepalen kan worden volstaan met één testafname
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

De eerste methode om betrouwbaarheid in te schatten is gebaseerd op herhaalde testafnamen. Welke 2 vormen kent deze methode?

A
  1. De eerste vorm daarvan is gebaseerd op het berekenen van de correlatie tussen twee tests die equivalent of inwisselbaar zijn; zogenoemde paralleltests (zie § 6.3.1). Het equivalentiebegrip wordt geoperationaliseerd door de eis dat de gemiddelden en standaarddeviaties van deze beide tests gelijk zijn en dat de scores op beide tests dezelfde correlatie met een extern criterium hebben. Constructie van dergelijke paralleltests is in de regel moeilijk te realiseren, uitgezonderd enkele nauw omschreven variabelen, zoals rekenvaardigheid en spelling.
    De correlatie tussen deze twee tests wordt de paralleltestbetrouwbaarheid genoemd.
  2. De tweede vorm binnen de eerste methode blijft het dichtst bij het theoretische betrouwbaarheidsbegrip (herhaalbaarheid van metingen) en bestaat uit het herhaalde afnemen van dezelfde test, de test-hertestmethode (zie § 6.3.2). De betrouwbaarheid wordt dan bepaald door een index dat aangeeft hoe goed de scores van de meerdere afnames overeenkomen (dit kan een correlatie zijn, maar ook een ander kengetal dat de overeenkomst statistisch verwoordt). De correlatie tussen de twee testscores wordt de ▌test-hertestbetrouwbaarheid genoemd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Bij de tweede methode om betrouwbaarheid te bepalen kan worden volstaan met één testafname. Deze methode kent ook 2 vormen. Welke 2?

A
  1. De eerste vorm bestaat uit het verdelen van de test in twee helften en staat bekend als de splitsingsmethode (zie § 6.3.3). Bij de splitsing dient te worden gestreefd naar een evenwichtige spreiding, een evenredige verdeling en/of een aselecte toewijzing van items aan een van beide helften. De test wordt vervolgens voorgelegd aan de respondenten en achteraf wordt per testhelft een ruwe score bepaald. Indien de scores op beide testhelften werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op de halve test.
  2. Bij de tweede vorm wordt de betrouwbaarheid van een test bepaald op basis van de inwisselbaarheid van individuele items, een minder strenge eis dan parallellie. De test wordt dan in zijn geheel voorgelegd aan een representatieve groep respondenten, waarna de scores worden gebruikt voor de berekening van de interne-consistentiecoëfficiënt. Deze interne-consistentiemethode (zie § 6.3.4) heeft als basis de covarianties tussen alle paren opgaven (de covariantie van twee variabelen is gelijk aan het product van de correlatie en de beide standaarddeviaties).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wat is de populairste betrouwbaarheidscoëfficiënt?

A

Cronbach’s alfacoëfficiënt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wat zijn de kanttekeningen bij de Cronbach’s alfacoëfficiënt?

A
  1. Allereerst is de alfa een ondergrens van de betrouwbaarheid en levert dus een systematische onderschatting van de betrouwbaarheid op.
    Maar let op: enkel de alfa in de populatie (als men die kan vaststellen) is altijd kleiner of gelijk aan de werkelijke betrouwbaarheid. Dat wil zeggen dat - op haar best - de berekende alfa gelijk is aan de populatiebetrouwbaarheid.
    Echter kunnen we eigenlijk vrijwel nooit de Cronbach’s alfa berekenen in de populatie. Concreet betekent dit dat een alfa in een steekproef ook bij vlagen hoger kan uitvallen dan de alfa in de populatie. Daarmee zou de alfa hoger kunnen zijn dan de werkelijke betrouwbaarheid, vooral bij kleinere steekproeven.
  2. Daarnaast is de alfa rekenkundig afhankelijk van het aantal items in een test. Alfa neemt toe met meer items in de test. Deze toename is niet, zoals bij andere maten van interne consistentie, het gevolg van hogere inter-itemcorrelaties. Doordat alfa rekenkundig afhankelijk is van de testlengte kan bij een lange test met zeer lage inter-itemcorrelaties, ofwel een test met heterogene items, toch een hoge alfa worden gevonden. De hogere alpha geeft dan een illusie van betere interne consistentie bij langere tests.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Kun je Cronbach’s alfa’s met elkaar vergelijken?

A

Doordat de Cronbach’s alfa rekenkundig afhankelijk is van het aantal items, is het niet altijd gemakkelijk om alfa’s met elkaar te vergelijken, Het aantal items in de test moet namelijk ook in ogenschouw genomen worden. In § 6.4.2. wordt ingegaan op hoe de lengte van een test gemanipuleerd kan worden om hogere betrouwbaarheden te sorteren (zie verder hieronder). De formule in 6.4.2 kan ook gebruikt worden om alfa’s van schalen met verschillende testlengte met elkaar te vergelijken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Welke formule kan worden gebruikt om te berekenen wat de alfa van een korte test zou zijn als deze even lang zou zijn als een langere test?

A

De Spearman-Brown formule

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hoewel veelvoorkomend, is het dus niet zo zuiver om alfa te interpreteren als een maat voor de interne consistentie of de homogeniteit van de testopgaven. Indien men de interne consistentie van een test wil weten, dan staan daarvoor andere technieken. Zoals welke?

A

Factoranalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Welke conclusie kan over het gebruik van Cronbach’s alfa worden getrokken?

A

Concluderend kunnen we stellen dat hoewel alfa als ondergrens van betrouwbaarheid bij grotere steekproeven gebruikt kan worden, is het beter om alfa niet als de maat van homogeniteit of eendimensionaliteit te interpreteren vanwege haar rekenkundige afhankelijkheid van het aantal items.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Hoewel de betrouwbare (ware) score niet observeerbaar is, kan deze worden geschat. De eenvoudigste schatting is de geobserveerde score; deze schatting staat los van de waarde van de betrouwbaarheid, maar is geldig omdat aangetoond kan worden dat bij een willekeurige afname de meest waarschijnlijke waarde voor de meetfout nul is. Hoe kan een meer verfijnde schatting van de betrouwbare score worden gemaakt?

A

Door gebruik van een regressiemodel waarin de waarde van de twee constanten door de betrouwbaarheid wordt bepaald. Beide schattingen hebben een standaarddeviatie. Onder aanname van een normale verdeling kan een betrouwbaarheidsinterval berekend worden (bij 95 procent betrouwbaarheidsinterval zullen 95 procent van de berekende intervallen de ware score bevatten).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Wanneer een test een betrekkelijk lage betrouwbaarheid heeft, kan men deze verhogen door ….

A

testverlenging

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Hoe kan worden uitgerekend hoeveel opgaven moeten worden toegevoegd om een vereiste betrouwbaarheid te krijgen?

Welke veronderstelling geldt hierbij?

A

Spearman-Brownformule

erbij geldt de vooronderstelling dat de toe te voegen opgaven onderling even hoog moeten correleren als de reeds beschikbare opgaven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Op verschillende plaatsen wordt aan de orde gesteld dat betrouwbaarheid niet een puur technische eigenschap van een test is. Het streven naar de constructie van een test met een hoge betrouwbaarheid moet gebaseerd zijn op?

A

Het streven naar een test die een eendimensionale eigenschap meet.

Om dat te realiseren is een grote vakinhoudelijke deskundigheid vereist. Uit een hoge betrouwbaarheid mag niet zonder meer worden afgeleid dat een eendimensionale eigenschap wordt gemeten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Een testresultaat wordt doorgaans gebruikt om een voorspelling te doen over de toekomstige score op een bepaald criterium. Hoe wordt het voorspellingssucces uitgedrukt?

A

Het voorspellingssucces wordt uitgedrukt in een correlatiecoëfficiënt tussen de testscore en het criterium en wordt de validiteit van een test genoemd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

De validiteit van een test hangt ten dele af van de hoogte van de betrouwbaarheid van de test. Op welke manier?

A

De correlatie van testscore X met een willekeurige variabele Y zal altijd lager zijn dan of gelijk aan de wortel uit de betrouwbaarheid.
n een concreet geval zal de validiteit worden gedrukt doordat ook de betrouwbaarheid van het criterium niet 1.00 is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Voor de theorievorming is het van belang de berekende validiteit te corrigeren met welke formule?

In welke vraag geeft de gecorrigeerde validiteit inzicht?

A

Attenuatiecorrectie

De gecorrigeerde validiteit kan inzicht geven in de vraag in hoeverre test en criterium een beroep doen op dezelfde psychologische eigenschap.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Wat zijn toepassingen van de Spearman Brown formule? 2x

A
  1. Vragenlijst verkorten of verlengen
  2. Vragenlijsten van verschillende lengtes met elkaar vergelijken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Waar heeft de vraag naar de betrouwbaarheid van een test betrekking op?

A

De vraag naar de betrouwbaarheid van een test heeft betrekking op de vraag in hoeverre de verkregen testscore varieert over verschillende testsessies, wanneer een test onder gelijkblijvende condities tweemaal of vaker aan dezelfde persoon wordt voorgelegd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Welke effecten bemoeilijken de herhaalbaarheid van metingen van psychologische eigenschappen? 2x

A

a Geheugeneffecten: het herhaald voorleggen van dezelfde test zal vaak dezelfde testscore opleveren. De persoon zal zich kunnen herinneren wat hij/zij een vorige keer heeft geantwoord en doorgaans hetzelfde antwoord geven (consistent willen overkomen).

b Leereffecten: het herhaald afnemen van dezelfde test kan leiden tot een toename van de testscore. De persoon zal door het beantwoorden van de items bijleren en bij herhaalde afname dus vaker een ‘goed’ antwoord geven (oefenen in oplossen van specifieke problemen; aanleren van trucjes).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Wat kunnen we verstaan onder het afnemen van tests onder gelijkblijvende condities?

A

Onder gelijkblijvende condities vallen doorgaans allerlei kenmerken van de testomgeving en de testprocedure (gelijkblijven van items, instructie, ruimte, materiaal), de voor de meting relevante psychologische eigenschappen van de persoon (gelijkblijven van woordbegrip bij een numerieke vaardighedentest; gelijkblijven van de emotionele reactie op items) en de lichamelijke en fysiologische processen in een persoon (gelijkblijvende motoriek en/of waarneming).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Waar houdt de klassieke testtheorie zich mee bezig?

A

De klassieke testtheorie houdt zich bezig met het in kaart brengen van de relatieve inbreng van de voor afneming onvoorspelbare invloeden op de testprestatie en de bij afnemingen systematisch werkzame eigenschappen van personen en testsituatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Geef een omschrijving van het begrip ‘ware (betrouwbare) score’.

A

De ware (betrouwbare) score is de vaste, systematische component van de geobserveerde score. De betrouwbare score representeert de eigenschap van de persoon die men met de test wil meten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Geef een omschrijving van het begrip ‘meetfout’.

A

De meetfout is de niet-systematische component van de geobserveerde score. De meetfout vertegenwoordigt toevallige en onbedoelde omstandigheden in de persoon en de testsituatie die aanleiding geven tot het lager of hoger uitvallen van de geobserveerde score, vergeleken met de ware (betrouwbare) score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Leg uit wat bedoeld wordt met de veronderstelling dat in een populatie van personen meetfouten nergens mee correleren.

A

Formule 6.9 luidt als volgt: r(E,Y) = 0. Hier staat dat de meetfout van X een correlatie van 0 heeft met elke willekeurige variabele Y. Dit betekent geenszins dat de correlatie tussen X en Y gelijk is aan 0. Immers, X bestaat gedeeltelijk uit een ware score en gedeeltelijk uit een meetfout: X = T + E. Het gedeelte ware score van X kan wel degelijk correleren met Y. De meetfout (E) van X (bestaande uit allerlei toevallige omstandigheden) mag niet correleren met Y. Zou dit wel het geval zijn, dan zijn de omstandigheden niet meer toevallig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Beredeneer dat de correlatie tussen de meetfout en X groter is dan 0 in de populatie.

A

Formule 6.10 luidt als volgt: r(E,X) > 0. Uitgangspunt is de formule X = T + E. Vervolgens gaan we ervan uit dat X altijd een meetfout bevat, dat betekent dat E niet gelijk is aan 0. Dan is er altijd sprake van een correlatie tussen E en X die groter is dan 0. In de populatie hebben we meerdere T’s (mensen verschillen in hun T scores). Bij een specifiek getal E kunnen dan enkele X-scores horen. We willen dat de correlatie tussen E en X zo klein mogelijk is. Als we meerdere metingen hebben bij eenzelfde persoon dan is T bij deze persoon gelijk aan één specifiek getal. De correlatie tussen X en E voor deze persoon wordt dan 1. Zie ook pagina 159 waar gesteld wordt dat bij een lineaire relatie de correlatie 1 wordt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Wat kan men concluderen uit de formules 6.9, 6.10 en 6.11?

A

De conclusie uit de formules 6.9, 6.10 en 6.11 is dat meetfouten niet met de betrouwbare score correleren en evenmin met een willekeurige andere variabele. Dat betekent dat de meetfout bestaat uit toevalligheden die zich bij een tweede meting niet herhalen. Uiteraard treden er dan wel weer andere toevallige omstandigheden op die meetfouten veroorzaken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Geef een omschrijving van het begrip ‘standaardmeetfout’.

A

De standaardmeetfout is de standaarddeviatie van de meetfouten die zouden optreden als de test een groot aantal malen zou worden afgenomen bij dezelfde persoon. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Geef een omschrijving van het begrip ‘standaardschattingsfout’.

A

De standaardschattingsfout is de standaarddeviatie van de fouten die het gevolg zijn van de afwijking van de geschatte ware score ten opzichte van de ware score. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Wat is het belang van de betrouwbaarheid [6.15] en de standaardmeetfout [6.16] in de klassieke testtheorie?

A

De betrouwbaarheid en de standaardmeetfout worden in de klassieke testtheorie gebruikt om een schatting te krijgen van de nauwkeurigheid van een meting met behulp van een specifieke test. Met andere woorden: beide maten worden gebruikt om een indruk te krijgen van de mate waarin de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Welke benaderingen voor het schatten van de betrouwbaarheid van een test worden in het algemeen onderscheiden?

A

De eerste benadering is gebaseerd op twee testafnemingen. Dit kunnen twee verschillende tests zijn die equivalent of inwisselbaar zijn (parallelvormmethode) of twee afnemingen van dezelfde test (test-hertestmethode). De tweede benadering is gebaseerd op één enkele testafneming. Dit kan een splitsing van de test in twee halve tests met evenveel items zijn (splitsingsmethode) of een aantal berekeningen met de scores op de items van een test, afgenomen bij een representatieve groep respondenten (interne-consistentiemethode).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

Geef een omschrijving van de splitsingsmethode.

A

De splitsingsmethode is een manier waarop de betrouwbaarheid berekend kan worden. Het is niet de naam van formule 6.25. Volgens deze methode wordt de betrouwbaarheid geschat door de test in twee stukken te splitsen en vervolgens de correlatiecoëfficiënt van de twee testhelften te berekenen. Dit geeft een schatting van de betrouwbaarheid. Op deze manier wordt de betrouwbaarheid (rxx) van de halve test verkregen. Voor de betrouwbaarheid van de hele test moet voor K het getal 2 worden ingevuld. De hele test is immers tweemaal zo lang als de halve test. De waarde van de betrouwbaarheid wordt dan dus groter, om de eenvoudige reden dat je in de hele test meer items hebt dan in de halve test. Op pagina 213 van het handboek wordt deze berekening getoond. Formule 6.26

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

Kan de splitsingsmethode gebruikt worden wanneer de test te lang wordt bevonden?

A

De splitsingsmethode kan ook gebruikt worden als de test die afgenomen dient te worden, te lang is. Formule 6.25 dient in dit geval te worden gebruikt. Op deze manier kan nagegaan worden hoe groot de betrouwbaarheid nog is wanneer een gedeelte van de test wordt weggelaten. Omgekeerd kunnen voor een test met een lage betrouwbaarheid nieuwe items worden gemaakt, zodat de test wordt verlengd. Met behulp van formule 6.25 kan nagegaan worden wat het effect van het toevoegen van items op de betrouwbaarheid is. In het algemeen is K het quotiënt van het aantal items in de verlengde dan wel de verkorte test en het aantal items in de oorspronkelijke test. K is dus een getal groter dan 1 wanneer de test verlengd wordt, en kleiner dan 1 als de test verkort wordt. Bij testverlenging neemt de betrouwbaarheid toe, bij testverkorting wordt de betrouwbaarheid kleiner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

Wat is de meest bekende coëfficiënt voor het schatten van de betrouwbaarheid bij één testafname?

A

De bekendste coëfficiënt van interne consistentie is de alfacoëfficiënt. Deze coëfficiënt wordt ook vaak aangeduid met de benaming Cronbach’s alfa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Waarom kan een maat voor interne consistentie beter niet gebruikt worden in de zin van een maat voor de homogeniteit van de items in een test?

A

Het gebruik van interne consistentie in de zin van de homogeniteit van de items in een test weerspiegelt de veronderstelling van vele onderzoekers dat de alfa tot uiting zou brengen in hoeverre items in een test dezelfde eigenschap(pen) meten. Aangetoond is echter dat alfa in veel gevallen toeneemt met het toenemen van het aantal items in een test en dat alfa een hoge waarde kan hebben terwijl de test in sterke mate heterogeen is. Alfa kan dus beter als maat voor de ondergrens van de betrouwbaarheid van een test gebruikt worden dan als maat voor interne consistentie in de zin van homogene items.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Waarvoor worden de standaardmeetfout en de standaardschattingsfout gebruikt? Welke informatie is noodzakelijk om de standaardschattingsfout te kunnen bepalen?

A

De standaardmeetfout en de standaardschattingsfout worden gebruikt om de nauwkeurigheid van de schatting van iemands betrouwbare score T te bepalen. Voor het bepalen van de standaardschattingsfout is het noodzakelijk om te beschikken over de betrouwbaarheid, rxx’.

53
Q

Wat is het verband tussen de Spearman-Brown-formule, de testlengte en de betrouwbaarheid?

A

Met behulp van de Spearman-Brown-formule kan worden nagegaan wat de invloed van het toevoegen of verwijderen van items is op de betrouwbaarheid van een test. Vanwege het monotoon stijgende verband tussen testlengte en betrouwbaarheid geldt ten eerste dat de betrouwbaarheidswinst kleiner wordt naarmate meer items aan een test worden toegevoegd, en ten tweede dat bij een geringe aanvangsbetrouwbaarheid men voor het verkrijgen van voldoende betrouwbaarheid een praktisch onhaalbaar aantal parallelle items moet toevoegen aan de test.

54
Q

Wat is het belang van de grootheid die aangeduid wordt met de term ‘betrouwbaarheidsindex’ en wat is het verband tussen betrouwbaarheid en validiteit?

A

Het belang van de betrouwbaarheidsindex (de wortel uit de betrouwbaarheid) is dat deze een bovengrens aangeeft voor de correlatie tussen de testscore X en een willekeurige variabele Y (het criterium). Indien een test een lage betrouwbaarheid heeft, dan zal deze ook een geringe validiteit hebben (uitgedrukt in de correlatiecoëfficiënt van de testscore met de criteriumscore).

55
Q

Waar geeft de formule voor attenuatiecorrectie een indicatie van? Welke waarde heeft de correlatie in het geval dat de correlatie tussen test- en criteriumscore 0.40 is en de betrouwbaarheid van test en testcriterium 0.80 respectievelijk 0.60 is? Wat is de betekenis van deze gecorrigeerde correlatie?

A

De formule voor attenuatiecorrectie geeft aan wat zou kunnen gebeuren met de correlatie als de beide tests perfect betrouwbaar zouden zijn. De correlatie heeft na attenuatiecorrectie de waarde 0.58 [berekend met formule 6.53]. Aangezien de waarde 0.58 hoger is dan de waarde 0.40, kan geconcludeerd worden dat de variabelen X en Y in hoge mate hetzelfde meten.

56
Q

Waarom is de betrouwbaarheid van een verschilscore van belang en waardoor wordt deze bepaald?

A

De betrouwbaarheid van een verschilscore heeft te maken met de vraag of men aan een gevonden verschil tussen twee testscores van dezelfde persoon enige waarde mag hechten, danwel of dit verschil kan worden toegeschreven aan de onbetrouwbaarheid van (een van) de testscores. Uit formule 6.54 wordt duidelijk, dat naarmate de betrouwbaarheden van twee tests lager zijn, de betrouwbaarheid van het verschil lager is. De betrouwbaarheid van de verschilscores is eveneens gering als de samenhang (uitgedrukt in de covariantie) van de testscores sterk is. In beide gevallen zullen verschilscores voornamelijk uit meetfouten bestaan.

57
Q

Geven betrouwbaarheids- en validiteitscoëfficiënten van een test, geconstrueerd voor meting binnen populatie A, ook een adequate kwaliteitsindicatie van de test voor meting binnen populatie B?

A

Doorgaans gelden in een andere populatie dan waarvoor de test geconstrueerd is, andere betrouwbaarheids- en validiteitscoefficiënten. Dit heeft te maken met het feit dat de variantie van de betrouwbare scores veelal (sterk) zal variëren in verschillende populaties. Gedacht kan worden aan een rekentoets die wel voldoet voor het nauwkeurig meten van rekenvaardigheden van twaalfjarige scholieren, maar te moeilijk is voor tienjarige scholieren.

58
Q

Welke condities kunnen worden onderscheiden in verband met de veelal beoogde generaliseerbaarheid van testresultaten?

A

De condities waarover testresultaten eventueel gegeneraliseerd kunnen worden, zijn bijvoorbeeld generalisaties in de tijd, over vraagvormen, over soortgelijke tests of met betrekking tot de vraaginhoud. De testconstructeur dient dus reeds bij het construeren van een test rekening te houden met de door de testgebruiker gewenste generalisaties van de testresultaten

59
Q

Kan men dezelfde persoon zinvol diverse malen dezelfde test voorleggen?

A

Het antwoord op de vraag of metingen van psychologische eigenschappen van een bepaald
persoon zinvol herhaalbaar zijn, is ontkennend. Dezelfde test zal op den duur dezelfde testscore opleveren, omdat de persoon zich zal herinneren wat hij de vorige keer heeft
geantwoord, of zelfs een hogere score opleveren, omdat de persoon zijn vaardigheden verbetert. Zinvolle herhaalbaarheid van metingen wordt in hoge mate bemoeilijkt door geheugeneffecten en leerprocessen, die zich al bij de tweede afname doen gelden. Herhaalbaarheid
moeten we ons daarom hypothetisch voorstellen.

60
Q

Wat moet men zich voorstellen bij gelijkblijvende condities tijdens opeenvolgende testsessies?

A

hieronder vallen doorgaans allerlei kenmerken van de testomgeving en testprocedure. De eis van gelijkblijvende condities geldt bijvoorbeeld voor items, instructies en ruimte,
maar ook voor psychologische eigenschappen van de persoon, die voor de meting relevant
zijn. De term relevant refereert aan alle eigenschappen die invloed hebben op de testprestatie. Zo kan de betrouwbaarheid van een testscore zowel door de gemeten eigenschap, als door
een onbedoelde eigenschap worden bepaald, maar het gaat om de mate waarin de meting
herhaalbaar is, inclusief alle niet-bedoelde effecten. Voorwaarde in verband met de onafhankelijk voor de eigenschap zelf, en niet het gevolg mag zijn van de testprocedure. Zijn veranderingen
wel het gevolg van de testprocedure, dan zijn de testafnemingen niet meer onafhankelijk.
De vraag kan nu gesteld worden hoe het komt dat testscores, in een hypothetisch gedachteexperiment, bij herhaalde metingen onder gelijkblijvende condities toch fluctueren. Het antwoord op deze vraag is nogal abstract. Uitgangspunt is dat er invloeden op de testprestatie
werkzaam zijn, die op een onvoorspelbare of toevallige wijze variëren over herhaalde afnemingen. Deze invloeden kunnen voor de geteste persoon nadelig of voordelig zijn. Over een
groot aantal metingen heffen voordelen en nadelen elkaar op. Alle factoren die ten grondslag
liggen aan de toevallige invloeden op het testgedrag hebben gemeen dat ze gebonden zijn aan
een specifieke testsessie.

61
Q

Hoe worden herhaalde metingen aangeduid binnen de klassieke testtheorie?

A

Onafhankelijke replicaties

62
Q

In welke delen wordt iemands in een specifieke testsessie geobserveerde score opgesplitst? 2x

Welke formule hoort hierbij?

A
  1. Constant / systematisch deel
  2. Toevallig / niet-systematisch deel

Xij = Ti + Eij

Xij: de score van persoon i, behaald tijdens replicatie j van een
specifieke test.

Ti: gemiddelde score die persoon i heeft behaald over een
zeer groot aantal onafhankelijke replicaties.
T staat voor ‘true score’, maar bij voorkeur wordt T de betrouwbare score genoemd.

Eij: het toevallige deel, varieert over replicaties
E staat voor ‘error’ = meetfout.

63
Q

In het geval van een populatie van personen, waarbij van ieder individu één testscore beschikbaar is, luidt voor een willekeurige persoon i het klassieke testmodel nu de formule….

A

Xi=Ti + Ei

64
Q

Wat betekent de formule 𝑟(𝐸, 𝑌) = 0 ?

A

Dat in een populatie van personen de meetfouten op een test
met geen enkele andere variabele correleren, tenzij die fouten er zelf deel van uitmaken:

65
Q

Check formules 6.10 en 6.11 in het boek!!!

A
66
Q

Hoe wordt de betrouwbaarheid van de testscore gemeten in een populatie van personen (aangeduid met rXX’)?

A

rXX wordt gedefinieerd als de verhouding van de varianties van betrouwbare score en geobserveerde score.

67
Q

Wat is de formule voor de standaardmeetfout van de testscore?

A

S(𝐸) = 𝑆(𝑋)√1− 𝑟XX′

68
Q

Betrouwbaarheid (6.15) en standaardmeetfout (6.16) spelen in de klassieke testtheorie een centrale rol. Waar worden ze voor gebruikt?

Wat is een praktisch probleem bij de formules?

A

Zij worden gebruikt om een schatting te krijgen van de nauwkeurigheid van een meting met behulp van een specifieke test in een specifieke populatie.

Beide formules bevatten 2 onbekenden.

69
Q

Hoe komt het onderscheid tussen betrouwbare score en meetfout en het onderscheid tussen bedoelde en onbedoelde factoren die de testprestatie beinvloeden terug in de testscores?

A
  1. De onbedoelde scorecomponent valt niet samen met de meetfout. Bijv bij een rigiditeitstest meet je ook onbedoelde scorecomponenten als emotionaliteit en woordbegrip mee.
  2. De bedoelde scorecomponent valt niet samen met de betrouwbare scorecomponent. Er bestaat geen zuivere meting voor rigiditeit of intelligentie alleen.
70
Q

Wat is een paralleltest ?

A

Als twee verschillende testen quivalent (inwisselbaar) zijn

71
Q

Wat is de interne consistentiemethode ?

A

Methode die gebaseerd is op de covarianties van alle individuele items en leidt tot een ondergrens van de betrouwbaarheid.

72
Q

Hoe kan in de praktijk de betrouwbaarheid van een testscore worden bepaald?

A

Door van de test een parallelversie te construeren en voor beide tests in een bepaalde steekproef de scores te verzamelen. De correlatie tussen deze scores geeft een schatting van de betrouwbaarheid van de afzonderlijke testscores in deze groep; ze zijn immers inwisselbaar.

73
Q

Wanneer zijn tests paralleltests? 3x

A
  1. De gemiddelden van de geobserveerde testscores zijn gelijk
  2. De varianties van de geobserveerde scores zijn gelijk
  3. De correlaties met een criterium (willekeurig variabele Y) zijn gelijk!

Opm. door standaardiseren van testscores kan hier gemakkelijk aan worden voldaan

74
Q

Waarom is niet direct te controleren of een paralleltest voldoet aan de eigenschap dat de correlatie gelijk is aan de betrouwbaarheid?

A

Betrouwbare scores zijn niet direct observeerbaar.
Daarom werken met geobserveerde testscores, werkend vanuit de formule dat de gemiddelde betrouwbare score op een test gelijk is aan de gemiddelde geobserveerde score

75
Q

Betrouwbare scores zijn niet direct observeerbaar.
Daarom werken met geobserveerde testscores, werkend vanuit de formule dat de gemiddelde betrouwbare score op een test gelijk is aan de gemiddelde geobserveerde score. 3x

A
  1. De test kan een duidelijk leereffect hebben gehad, zodat de onderzochte van zijn oefening kan profiteren bij de tweede afneming (vooral bij inzichtsopgaven).
  2. Het geheugen kan een belangrijke invloed hebben op de testprestatie, met name bij opgaven die op de een of andere wijze opvallen, korte tests en een kort interval tussen beide afnemingen.
  3. Het kan gebeuren dat een persoonlijkheidsvragenlijst of een attitudetest door het stellen van de vragen alleen al de onderzochte aan het denken zet en mede daardoor een stimulans betekent tot een meer gearticuleerde kijk op bijv. zichzelf of een ander, of tot een instellings- of attitudeverandering.
76
Q

Wordt de beschikbare groep proefpersonen groter of kleiner naarmate de interval tussen tests groter is?

A

De groep proefpersonen wordt KLEINER naarmate het interval groter is;

bijv. bij het meten van neuroticisme verdwijnen met name diegene die extreme scores vertonen (ziektebeeld verbetert tijdens interval of verslechterd juist veel waardoor ze afhaken, maar ook door verhuizing vallen proefpersonen uit)

77
Q

Wat vertelt de uitkomst van een Test-hertestmethode?

A

In hoeverre de testprestatie over een bepaalde periode stabiel blijft, dus met inbegrip van alle krachten die tussentijds van invloed zijn op de testprestatie.
De correlatie tussen beide verkregen testscores geeft dan een indruk van de stabiliteit van de testscore.

78
Q

Welke formule biedt de mogelijkheid om de betrouwbaarheid van de gehele test via de splitsingsmethode te bepalen?

A

Spearman-Brown formule

79
Q

Wat zijn de vuistregels voor het vormen van testhelften die parallellie enigszins benaderen? 3x

A
  1. (Prestatie)test beter niet splitsen in een makkelijke/moeilijke helft
  2. Niet splitsen naar de volgorde waarin de items worden voorgelegd
  3. Aan te raden: in verschillende versies items te kiezen die inhoudelijk veel op elkaar lijken
80
Q

Wat houdt de splitsingsgsmethode in?

A
  1. Is een manier waarop de betrouwbaarheid kan worden berekend
  2. De betrouwbaarheid wordt geschat door de test in 2 stukken te splitsen en vervolgens de correlatiecoëfficient van de twee testhelften te berekenen. Dit is de betrouwbaarheid (rxx) van de halve test
  3. Voor de betrouwbaarheid van de hele test de Spearman-Brown formule gebruiken. Daarbij is K=2 (test is 2 x zo lang). K is verlengings of verkortingsfactor. Zie formule 6.25 blz 213
81
Q

Wat houdt de splitsingsgsmethode in?

A

Deze volstaat met het afnemen van 1 test. Deze methode kan worden opgevat als een efficiente variant van de Parallelvormmethode.

Er worden twee HALVE paralleltests afgenomen (i.p.v. twee HELE). De test wordt voorgelegd en daaruit wordt een ruwe score bepaald per testhelft. Indien de beide scores werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test. Omdat de betrouwbaarheid ook afhangt van het aantal items in een test, wordt vervolgens een correctie uitgevoerd op de verkregen betrouwbaarheid ten einde de betrouwbaarheid van de gehele test te kunnen bepalen.

82
Q

Hoe verloopt de procedure van de interne-consistentiemethode?

A

Test wordt eenmalig voorgelegd aan representatieve groep respondenten;

Scores vormen basis voor berekening;

Alle covarianties tussen items worden berekend + variantie ruwe scores;

Resultaten ingevuld in een van de vele coefficienten van interne consistentie;

coefficienten worden gebruikt als schatting van betrouwbaarheid.

83
Q

Wat is de alfa in de populatie?

A

Een ondergrens voor betrouwbaarheid.

84
Q

De opvatting ‘Als alfa hoog is, zouden de items hetzelfde meten, en als alfa laag is niet’ is om twee redenen nogal ongelukkig, welke twee redenen zijn dit?

A
  1. Alfa is in veel gevallen een toenemende functie van het aantal items in de test
  2. Alfa kan een hogere waarde hebben terwijl de test inhoudelijk in sterke mate heterogeen is
85
Q

Welke coefficient van interne consistentie is de bekendste?

A

De alfacoefficient (van Cronbach); wordt gebruikt om de betrouwbaarheid te schatten.

86
Q

De alfacoefficient (van Cronbach); wordt gebruikt om de betrouwbaarheid te schatten.

A

Omdat Alfa in de populatie NOOIT groter kan zijn dan de betrouwbaarheid.

87
Q

Waarom is alfa de populairste methode om de betrouwbaarheid van een testscore te schatten?

A

Omdat alfa een formule is die men eenvoudig kan invult om resultaat te verkrijgen en dus hoeft men geen ingewikkelde en nogal kansloze procedures te volgen (bijv. constructie van parallele tests, dezelfde test tweemaal afnemen)om een goede schatting van de betrouwbaarheid te verkrijgen.

88
Q

Wat is de invloed van de grootte van de steekproef op de alpha? 2x

A
  1. Hoe kleiner de steekproef, hoe groter de fluctuatie in Alpha -> hoe onnauwkeuriger deze grootheid de polulatiewaarde schat
  2. Hierbij kan zelfs de alpha boven de poulatiebetrouwbaarheid RXX”uitkomen ( ipv alpha als ondergrens voor de betrouwbaarheid)
89
Q

Wat wordt er bedoeld met interne consistentie/ homogeniteit?

A

Met beide termen wordt bedoeld dat alfa tot uiting zou brengen in hoeverre de items in een test dezelfde eigenschap meten.

Dus als alfa hoog is, zouden de items hetzelfde meten en als alfa laag is niet.

90
Q

Wat is de belangrijkste methode voor een goede indruk van de interne consistentie van een test (deelaspecten of deelvaardigheden)? 2x

A
  • Factoranalyse
  • Testmodel uit de klasse der itemresponsmodellen
91
Q

Hoe kan de alfa verhoogd worden?

A

Om alfa te verhogen moeten we items selecteren waarvan de covarianties met de andere items groot positief zijn. De inter-item-covarianties per item kunnen echter sterk flucturen. Derhalve beoordeelt men items meestal op hun correlatie met de somscore op de andere items: de item-restcorrelatie.

92
Q

Hoe wordt cronbachs alfa berekend? 2x

A
  1. De som van: de covarianties tussen de itemscores (de inter-item-covarianties) en de variantie van de testscore X
  2. Komt neer op optellen van alle getallen in de variantie-covariantiematrix = de variantie van testscore X
93
Q

Hoe worden items in een test ter verhoging van alpha geselecteerd? 2x

A
  1. Alleen items die positief bijdragen aan de betrouwbaarheid worden geselecteerd
  2. Dit kan beoordeeld worden door de corrrelatie van een item op de item-restcorrelatie ( = correlatie met de somscore op de andere k-1 items).
94
Q

Alfa is louter een ondergrens voor de betrouwbaarheid. Dit wil niet zeggen dat alfa onbelangrijk is. Alfa is de belangrijkste methode om de betrouwbaarheid te schatten. Indien men echter een indruk wil hebben van de interne consistentie van een test, in de betekenis van de samenstelling naar de deelvaardigheden of de deelaspecten van een vaardigheid of trek, dan staan daartoe technieken als factoranalyse ten dienste. Of je kiest een testmodel uit de klasse van de item-responsemodellen.

A
95
Q

Wat is een alternatief voor alfa?

A

Lambda2-coëfficient, Guttman (1945): is een alternatief voor alfa en is een schatting voor de betrouwbaarheid van een test. Lambda2 wordt in de praktijk echter weinig gerapporteerd, zonder dat daar een aanwijsbaar goede reden voor is.

96
Q

Geef een omschrijving van het begrip ‘standaardschattingsfout’.

A

De standaardschattingsfout is de standaarddeviatie van de fouten die het gevolg zijn van de afwijking van de geschatte ware score ten opzichte van de ware score. De standaardschattingsfout is van belang als beste schatter van de ware score wordt verkregen met de regressieformule.

97
Q

Waarvoor worden de standaardmeetfout en de standaardschattingsfout gebruikt? Welke informatie is noodzakelijk om de standaardschattingsfout te kunnen bepalen?

A

De standaardmeetfout en de standaardschattingsfout worden gebruikt om de nauwkeurigheid van de schatting van iemands betrouwbare score T te bepalen.
Voor het bepalen van de standaardschattingsfout is het noodzakelijk om te beschikken over de betrouwbaarheid, rxx’.

98
Q

Wat is het ‘residu’?

A

Verschil tussen geobserveerde waarde en de geschatte waarde

99
Q

Wat zijn de twee methoden om betrouwbaarheid te schatten ?

A
  1. Stel Tgem gelijk aan de geobserveerde score (X) = eenvoudig en populair (hier wordt alleen de ruwe score gebruikt)
  2. Schat T op basis van X met behulp van de lineaire regressieformule (hier wordt naast de ruwe score ook de gemiddelde score en de betrouwbaarheid in de betreffende populatie gebruikt; deze methode is nauwkeuriger omdat de schatting is gebaseerd op meer relevante informatie)
100
Q

Wat is het lineaire regressiemodel?

A

Een lineaire functie die ontstaat als je een model maakt voor de relatie tussen X met Y, door de zoeken naar de lineaire functie die de puntenwolk in de grafiek zo goed mogelijk benaderd.
Lineaire regressie is een algemene methode om een onbekende variabele Y op basis van scores op een bekende variabele X te schatten.

101
Q

Betrouwbaarheidsintervallen zijn in absolute zin groot en verschillen tussen testscores moeten groot zijn om significant te zijn. Toch zijn testscores voor praktisch gebruik betrouwbaar om de volgende redenen:

A
  1. tests zijn goede meetinstrumenten voor individuele verschillen indien hun standaardmeetfout/standaardschattingsfout gering is ten opzichte van de lengte van de schaal
  2. voor wetenschappelijk onderzoek en het bepalen van verschillen tussen groepen is met name de steekproefgrootte van belang
  3. bij belangrijke beslissingen kan de onbetrouwbaarheid van de test gecompenseerd worden door gebruik te maken van andere gegevens over de persoon.
102
Q

Wat is het verband tussen de Spearman-Brown-formule, de testlengte en de betrouwbaarheid?

A

Met behulp van de Spearman-Brown-formule kan nagegaan worden wat de invloed van het toevoegen of verwijderen van items is o de betrouwbaarheid van een test. Vanwege het monotoon stijgende verband tussen testlengte en betrouwbaarheid geldt ten eerste dat de betrouwbaarheidswinst kleiner wordt naarmate meer items aan een test worden toegevoegd, en ten tweede dat bij een geringe aanvangsbetrouwbaarheid men voor het verkrijgen van voldoende betrouwbaarheid een praktisch onhaalbaar aantal parallelle items moet toevoegen aan de test.

103
Q

Wanneer heeft een testverlenging zin om de validiteit te verhogen?

A
  1. als de aanvangsbetrouwbaarheid (rxx’) niet al te laag is (bijv. 0.60 tot 0.80)
  2. en het aantal items in de test niet al te groot is
104
Q

Waar geeft de formule voor attenuatiecorrectie een indicatie van?

A

De formule voor attenuatiecorrectie geeft aan wat zou kunnen gebeuren met de correlatie als de beide tests perfect betrouwbaar zouden zijn.

De formule voor attenuatiecorrectie biedt de mogelijkheid om na te gaan of 2 variabelen al of niet hetzelfde meten: in het eerste geval is de correlatie hoog en in het 2e geval laag. Deze formule biedt een bijdrage aan het onderzoek naar de betekenis en de begripsvaliditeit van de testscore.

105
Q

Wat is het belang van de grootheid die aangeduid wordt met de term ‘betrouwbaarheidsindex’ en wat is het verband tussen betrouwbaarheid en validiteit?

A

Het belang van de betrouwbaarheidsindex (de wortel uit de betrouwbaarheid) is dat deze een bovengrens aangeeft voor de correlatie tussen testscore X en een willekeurige variabele Y (het criterium). Indien een test een lage betrouwbaarheid heeft, dan zal deze ook een geringe validiteit hebben (uitgedrukt in de correlatiecoëfficiënt van de testscore met de criteriumscore).

106
Q

Neemt de validiteit evenredig toe bij een testverlenging (hogere betrouwbaarheid)?

A

Nee, dat de validiteitswinst slechts weinig toeneemt bij testverlenging (en dus een hogere betrouwbaarheid), komt doordat de test door deze verlenging niet inhoudelijk verandert, waardoor bijv. een criterium ineens beter voorspeld zou kunnen worden.

Voor zover de validiteitscoefficient toch toeneemt, is dat te danken aan het terugdringen van meetfouten die de samenhang van X en Y (enigzins vertroebelen.

107
Q

Wat is het belang van de grootheid die aangeduid wordt met de term ‘betrouwbaarheidsindex’ en wat is het verband tussen betrouwbaarheid en validiteit?

A
  1. De betrouwbaarhiedsindex is de correlatie tussen observeerbare score X en niet-observeerbare score T= wortel uit de betrouwbaarheid
  2. Het belang van de betrouwbaarheidsindex (de wortel uit de betrouwbaarheid) is dat deze een bovengrens aangeeft voor de correlatie tussen testscore X en een willekeurige variabele Y (het criterium).
  3. Indien een test een lage betrouwbaarheid heeft, dan zal deze ook een geringe validiteit hebben (uitgedrukt in de correlatiecoëfficiënt van de testscore met de criteriumscore).
108
Q

Wat wordt onderzocht in een latente-klassenanalyse?

A

Dit is een recente, statistische ontwikkeling in de classificatie van mensen op basis van scoreprofielen op tests of items uit tests en vragenlijsten.

Met behulp van deze methode wordt nagegaan in hoeverre in een groep van proefpersonen deelgroepen te onderscheiden zijn op basis van scoreprofielen.
Latent, omdat ze uit de gegevens worden berekend en niet al vooraf door de onderzoeker gedefinieerd zijn.

109
Q

Waarom is de betrouwbaarheid van en verschilscore van belang en waardoor wordt deze bepaald?

A

De betrouwbaarheid van een verschilscore heeft te maken met de raag of men aan een gevonden verschil tussen 2 testscores van dezelfde persoon enige waarde mag hechte, dan wel of dit verschil kan worden toegeschreven aan de onbetrouwbaarheid van (een van) de testscores. Naarmate de betrouwbaarheden van 2 tests lager zijn is de betrouwbaarheid van het verschil lager. De betrouwbaarheid van de verschilscores is eveneens gering als de samenhang (uitgedrukt in de covariantie) van de testscores sterk is. In beide gevallen zullen verschilscores voornamelijk uit meetfouten bestaan.

110
Q

Waarom is de betrouwbaarheid van een verschilscore van belang en waardoor wordt deze bepaald?

A

Nee:
1. In een andere populatie gelden andere betrouwbaarheids- en validiteitscoefficienten.

  1. Dit heeft te maken dat de variantie van de betrouwbare scores zal varieren in verschillende polulaties (bijv rekentoets meet wel nauwkeurig rekenvaardigheden voor 12-jarigen maar is te moeilijk voor 10-jarigen).
111
Q

Welke methode voor het bepalen van de betrouwbaarheid van de totaalscore van een aantal deeltests met een geringe covariantie (bijv. RAKIT) kan het beste worden gebruikt?

A
  1. Niet gebruiken: Cronbachs alpha voor alle items samen i.v.m. lage covariantie tussen de itemscores van de deeltesten
  2. Wel gebruiken: gestratificeerde alphacoëfficiënt: de som van de gekwadrateerde standaardmeetfouten van alle deeltesten worden hierbij meegenomen
112
Q

Wat houdt de generaliseerbaarheidstheorie van Cronbach e.a. in?

A

Zij gaan ervan uit dat de testgebruiker altijd een generalisering van de testresultaten beoogt.
Het totaal van condities waarnaar men wenst te generaliseren, wordt universum genoemd (betrouwbare score=universumscore; de gemiddelde testprestatie berekend over het universum van condities)

113
Q

Wat is het verschil tussen de Test-hertestmethode en de paralleltestmethode bij het meten van een veranderlijke psychologische eigenschap?

A

Indien een psychologische eigenschap veranderlijk is leidt de test-hertestmethode tot systematisch andere resultaten dan de paralleltestmethode. De test-hertestmethode geeft een indruk van de generaliseerbaarheid van de meting in de tijd, de paralleltestmethode geeft aan in hoeverre metingen verkregen met de ene testversie generaliseerbaar zijn naar de meetwaarden van de ander parallelle testversie.

114
Q

Welke condities kunnen worden onderscheiden in verband met de beoogde generaliseerbaarheid van tescondities?

A
  1. generalisaties in de tijd
  2. generalisaties over vraagvormen (bijv, open en gesloten vragen)
  3. generalisaties over soortgelijke tests
  4. generalisaties over de vraaginhoud (bijv. alle mogelijke onderwerpen uit de testtheorie)
115
Q

Is betrouwbaarheid alleen een voldoende voorwaarde voor een test?

A

Nee, het uiteindelijk doel van een test is uiteraard de gebruiksmogelijkheden. Het gat dan meestal om het adequaat meten van een eigenschap t.b.v. diagnostiek/voorspellen van een criterium t.b.v. advies, selectie of plaatsing.
Bij het realiseren van deze doelen is betrouwbaarheid een noodzakelijke maar NIET VOLDOENDE voorwaarde.

116
Q

Waarom is het onderscheid tussen een systematische of betrouwbare meting en een bedoelde of valide meting zo belangrijk?

A
  1. Een meting kan erg nauwkeurig zijn, maar nauwkeurigheid garandeert niet validiteit (dat de testscore een indicatie is van een bedoeld psychologisch begrip of dat met de testscore een bedoeld criterium kian worden voorspeld)
  2. Een onbetrouwbare testscore is wel altijd invalide (operationalisering van het te meten begrip is zo ongelukkig dat de testscore vooral uit meetfouten bestaat
117
Q

Waarom is de betrouwbaarheid van een verschilscore van belang en waardoor wordt deze bepaald?

A

de betrouwbaarheid van een verschilscore heeft te maken met de vraag of men aan een gevonden verschil tussen twee testscores van dezelfde persoon enige waarde mag hechten, danwel of dit verschil kan worden toegeschreven aan de onbetrouwbaarheid van (een van) de testscores
uit formule 6.54 - S. 241 wordt duidelijk, dat naarmate de betrouwbaarheden van twee tests lager zijn, de betrouwbaarheid van het verschil lager is
de betrouwbaarheid van de verschilscores is eveneens gering als de samenhang (uitgedrukt in de covariantie) van de testscores sterk is
in beide gevallen zullen verschilscores voornamelijk uit meetfouten bestaan

118
Q

Leg uit wat bedoeld wordt met de veronderstelling dat in een populatie van personen meetfouten nergens mee correleren.

A

formule 6.9 luidt als volgt: r(E,Y) = 0
hier staat dat de meetfout van X een correlatie van 0 heeft met elke willekeurige variabele Y
dit betekent geenszins dat de correlatie tussen X en Y gelijk is aan 0
immers, X bestaat gedeeltelijk uit een ware score en gedeeltelijk uit een meetfout: X = T + E
het gedeelte ware score van X kan wel degelijk correleren met Y
de meetfout (E) van X (bestaande uit allerlei toevallige omstandigheden) mag niet correleren met Y
zou dit hel het geval zijn, dan zijn de omstandigheden niet meer toevallig

119
Q

Bekijk formules: 6.1, 6.9, 6.10, 6.11, 6.16, 6.25, 6.26, 6.40, 6.45, 6.46, de formule onder 6.46, 6.47 en de formule onder 6.47.

A
120
Q

Meetfouten van een test correleren altijd 0 met
Uw antwoord

ware scores van dezelfde test EN geobserveerde scores van een andere test

geobserveerde scores van dezelfde test.

geobserveerde scores van een andere test.

ware scores van dezelfde test.

A

ware scores van dezelfde test.

121
Q

Wanneer een test aan een groep personen wordt afgenomen, is het gemiddelde van de betrouwbare scores (T)

< X
= X
> X
0

Uw antwoord

Antwoord C is goed.

Antwoord B is goed.

Antwoord A is goed.

Antwoord D is goed.

A

B

122
Q

Wanneer een test aan een groep personen wordt afgenomen, is de standaarddeviatie van de ware scores (SLT)

<S(X)
= S(X)
>S(X)
0

Uw antwoord

Antwoord A is goed.

Antwoord C is goed.

Antwoord D is goed.

Antwoord B is goed.

A

A

123
Q

Wanneer men de betrouwbaarheid van een test wil bepalen, kan dit in het algemeen het beste gebeuren door

Uw antwoord

een test willekeurig in twee helften te splitsen.

zowel dezelfde test tweemaal af te nemen als twee paralleltests af te nemen aangezien beide in het algemeen dezelfde uitkomst opleveren.Onjuist

twee paralleltests af te nemen.

dezelfde test tweemaal af te nemen.

A

twee paralleltests af te nemen.

124
Q

Een test bestaat uit 80 opgaven; de betrouwbaarheid is 0.80. Een onderzoeker wil de test inkorten tot 40 opgaven. Hij vindt het verlies aan betrouwbaarheid acceptabel en verkort de test opnieuw tot 20 opgaven.

Welke betrouwbaarheden leveren de beide verkortingen op?

Gebruik formule 6.25.

Uw antwoord

0.40 en 0.20Onjuist

0.67 en 0.50 (Juist)

0.67 en 0.33

0.40 en 0.33

A

Twee keer toepassen van de formule met K = 0.50. (Eventueel kan, uitgaande van de gegevens in de opgave, voor de tweede verkorting K = 0.25 worden gekozen). Merk op dat de eerste halvering in een kleinere daling van de betrouwbaarheid resulteert dan de tweede halvering.

Een vragenlijst wordt gehalveerd. U hebt dus 50% van de vragen overgehouden. K is gelijk aan 0.5.

Eerste halvering: Rkk = 0.50.80 / (1+(0.5-1)0.8) = 0.67

De tweede halvering (50% van 50% is 25%; K=0.25) Rkk=0.250.80 / (1+(0.25-1)0.8) = 0.50

125
Q

Een schoolvorderingentoets met een betrouwbaarheid van 0.65 correleert 0.85 met een criterium voor schoolsucces.

Deze uitkomst is

Uw antwoord

onmogelijk.

alleen mogelijk als veel leerlingen dezelfde criteriumscore behalen.

altijd mogelijk.

alleen mogelijk als veel leerlingen dezelfde testscore behalen.

A

Onmogelijk.
Een test met een lage betrouwbaarheid zal een geringe validiteit hebben (uitgedrukt in een correlatiecoëfficiënt). Een test met een hoge betrouwbaarheid kan daarentegen een hoge validiteit hebben.

126
Q

Wat zegt het 95% betrouwbaarheidsinterval?

A

95% van de intervallen bevatten de ware score

127
Q

Wat is standaardmeetfout?

A
  • standaarddeviatie van de meetfouten bij vele replicaties bij dezelfde
    persoon (‘hoe observaties van elkaar verschillen’), S(
128
Q

Wat is standaardschattingsfout?

A
  • standaarddeviatie van de fouten die het gevolg zijn van de afwijking van
    de geschatte ware score ten opzichte van de ware score.
    SD van de T- T̂circumflex
129
Q

De betrouwbaarheid varieert over de Ө-schaal volgens ITT
en niet volgens KTT (pp. 320-321 en video).

Waar of niet waar?

A

waar