Hoofdstuk 6. Betrouwbaarheid Flashcards

1
Q

Betrouwbaarheid en de vragen die het oproept

A

Betrouwbaarheid is de mate van herhaalbaarheid van metingen. Hierbij dringen zich twee vragen op.
• Kan je dezelfde persoon wel meermalen zinvol testen?
• Wat moeten we verstaan onder gelijkblijvende condities?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Kan je dezelfde persoon meermalen zinvol testen?

A

Zinvolle herhaalbaarheid van metingen wordt bemoeilijkt door geheugeneffecten en leerprocessen wat al bij de tweede test kan gelden. Hierdoor moet herhaalbaarheid gezien worden als een hypothetische situatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat moet je je voorstellen bij gelijkblijvende condities?

A

Onder gelijkblijvende condities vallen doorgaans allerlei kenmerken van de testomgeving en de testprocedure (gelijkblijven van items, instructie, ruimte, materiaal), de voor de meting relevante psychologische eigenschappen van de persoon (gelijkblijven van woordbegrip bij een numerieke vaardighedentest; gelijkblijven van de emotionele reactie op items) en de lichamelijke en fysiologische processen in een persoon (gelijkblijvende motoriek en/of waarneming).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hoe kan het dat testscores bij herhaalde metingen onder gelijkblijvende condities toch fluctueren?

A

Er zijn invloeden op de testprestatie werkzaam die op een onvoorspelbare of toevallige wijze variëren over herhaalde afnemingen van de test. Deze invloeden kunnen nadelig maar ook voordeling zijn, zodat ze de score verhogen of verlagen. Voorbeelden van toevallige invloeden zijn een black-out of een helder moment, een hoestbui, laag overkomend vliegtuig enz. enz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Klassieke testtheorie

A

De klassieke testtheorie brengt de relatieve inbreng van de onvoorspelbare invloeden op de testprestatie in kaart. Daarnaast brengt het de systematische werkzame eigenschappen van personen en testsituaties in kaart. De klassieke testtheorie vindt zijn oorsprong in begin 1900 door Spearman en is verder ontwikkeld door Gulliksen (1950) en Lord en Novick (1968). De klassieke testtheorie is een gedachte-experiment waarbij er sprake is van onafhankelijke replicaties. Dit is in de praktijk onmogelijk. Belangrijke onderscheidingen zijn:
• Betrouwbare score en meetfout.
• Betrouwbaarheid van testscores en de standaardmeetfout.
• Bedoelde en onbedoelde scorecomponent.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Onafhankelijke replicaties

A

Herhaalde metingen. Testprestaties zijn bij verschillende afnemingen onafhankelijk van elkaar. Er zijn geen leer- en herinnereffecten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Basisidee van testen (naïeve testtheorie)

A

Bij een test gaan we ervan uit dat wat we meten
• Bestaat en redelijk stabiel is
• Kwantitatief meetbaar is
• Kwantitatieve verschillen in waarden hebben betekenis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ware score

A

Ook wel True score of betrouwbare score genoemd (T). De gemiddelde score van alle onafhankelijke metingen van één persoon. Vanuit de klassieke testtheorie. Dit is dus een gedachte-experiment. De betrouwbare score representeert de eigenschap van de persoon die men met de test wil meten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Meetfout

A

De afwijking tussen de individuele score en de ware score. De meetfout vertegenwoordigt toevallige en onbedoelde omstandigheden in de persoon en de testsituatie die aanleiding geven tot het lager of hoger uitvallen van de geobserveerde score, vergeleken met de ware (betrouwbare) score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Respons

A

Ware score + meetfout. Oftewel: de individuele score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Formule ware score

A

X=T+E. Deze moet je kennen! Wordt niet gegeven.
XIJ = Score van persoon I tijdens de replicatie J.
TI = Ware score van deze persoon.
EIJ = Meetfout (error) op moment van replicatie. De gemiddelde meetfout is altijd 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Eigenschappen betrouwbare score en meetfout voor een individu

A
  • Gemiddelde meetfout is 0
  • Standaarddeviatie is de standaardmeetfout van persoon i. Voor specifieke persoon i geldt over onafhankelijke replicaties dat de spreiding van de meetfouten gelijk is aan de spreiding van de geobserveerde scores. Uitgangspunt in praktijk is dat de standaardmeetfout voor iedereen identiek is. Maar dit is niet juist: personen die weinig weten gissen meer (en dus grotere standaardmeetfout). Dus: de ‘persoonsgebonden’ standaardmeetfout neemt af bij een toenemende waarde T.
  • De standaardmeetfout van psychologische metingen (testscores) is vaak aanzienlijk. Reden: onderliggende psychologische processen kunnen m.b.v. een test niet zo nauwkeurig worden beschreven als bv fysische processen
  • Meetfouten correleren altijd 0 met de ware score van dezelfde test.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Eigenschappen betrouwbare score en meetfout in een populatie

A

• In een populatie van personen correleert de meetfout (E) met geen enkel andere variabele (Y), tenzij ze er zelf deel van uitmaken. Formule: r(E,Y) = 0. Zouden ze
wel correleren dan zijn de omstandigheden niet meer toevallig.
• De correlatie tussen de meetfout E en de score X is altijd groter dan 0. Formule: r(E,X)>0. Uitgangspunt is de formule X = T + E. Vervolgens gaan we ervan uit dat X altijd een meetfout bevat, dat betekent dat E niet gelijk is aan 0. Dan is er altijd sprake van een correlatie tussen E en X die groter is dan 0. Deze correlatie hoort
wel klein te zijn. Is dat niet het geval, dan is X voornamelijk een meetfout in plaats van een representatie van de ware score T.
• De meetfouten en de ware score correleren niet. r(E,T)=0
• S(T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Variantie

A

Variantie is het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde. Dit is altijd een positief getal. Hoe hoger het getal, hoe meer spreiding er is van de geobserveerde scores rondom de gemiddelde score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Definitie en formule van betrouwbaarheid

A

De betrouwbaarheid van de testscore gemeten in een populatie van personen (rXX’) wordt gedefinieerd als de verhouding van de varianties van betrouwbare score en geobserveerde score. De betrouwbaarheid is dus de proportie van de variantie van de testscores, X, die systematisch is. Betrouwbaarheid kan de waarden 0 (verschillen in testscores zijn puur aan toeval toe te schrijven, meetinstrument mislukt) tot 1 (iedereen dezelfde meetfout) aannemen.
Formulie: rxx’ = S2(T) gedeeld door S2(X)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standaardmeetfout

A

De standaardmeetfout is de standaarddeviatie van de meetfouten die zouden optreden als de test een groot aantal malen zou worden afgenomen bij dezelfde persoon. Dus hoe observaties van elkaar verschillen. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score. De formule van de standaardmeetfout is. Waarbij
S (E) = variantie van de meetfout
S (X) = variantie van de testscore
Rxx’ = betrouwbaarheid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Standaardschattingsfout

A

De standaardschattingsfout is de standaarddeviatie van de fouten die het gevolg zijn van de afwijking van de geschatte ware score ten opzichte van de ware score. Dit is de SD van T-T. Her gaat om hoe nauwkeurig is de steekproef voor het ware populatiegemiddelde. De standaardmeetfout is van belang als de geobserveerde score wordt opgevat als de beste schatter van de ware (betrouwbare) score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Belang betrouwbaarheid en standaardmeetfout

A

De betrouwbaarheid en de standaardmeetfout worden in de klassieke testtheorie gebruikt om een schatting te krijgen van de nauwkeurigheid van een meting met behulp van een specifieke test. Met andere woorden: beide maten worden gebruikt om een indruk te krijgen van de mate waarin de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Bedoelde v.s. onbedoelde scorecomponent

A

Er zijn bedoelde en onbedoelde factoren die een testprestatie beïnvloeden. De bedoelde scorecomponenten is dat psychologische construct wat je wilt meten, dit valt niet samen met de betrouwbare score. De onbedoelde scorecomponenten zijn datgene wat invloed heeft op de bedoelde component, inclusief de meetfout.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Twee benaderingen voor het schatten van betrouwbaarheid

A
  • Gebaseerd op twee testafnemingen (herhaalde meting). Deze is verdeeld onder de parallelvormmethode en de test-hertestmethode.
  • Gebaseerd op een enkele testafneming (eenmalige meting). Deze is verdeeld onder de splitsingsmethode en de interne-consistentiemethode
21
Q

Parallelvormmethode voor het schatten van betrouwbaarheid

A

Er wordt gebruik gemaakt van twee onafhankelijke (equivalente en inwisselbare) tests die aan één groep proefpersonen wordt voorgelegd. De correlatie tussen parallelle tests wordt de paralleltestbetrouwbaarheid genoemd. En de correlatie tussen scores van beide is gelijk aan de betrouwbaarheid van afzonderlijke scores. Vooronderstellingen van de paralleltest is;
• Bepaalde persoon i geeft op twee paralleltests identieke betrouwbare scores
• Spreiding van de ruwe score in de populatie is op beide tests gelijk
Eigenschappen van de paralleltest zijn:
• Testscore van iedere persoon is in beide tests gelijk
• Gem. betrouwbare score op de test is gelijk aan gem. geobserveerde score
• Varianties van geobserveerde scores is in beide tests identiek.
• Met iedere willekeurige variabele (Y) heeft de paralleltest dezelfde correlatie. Dit is de belangrijkste.
Het is moeilijk om daadwerkelijk paralleltests te construeren en pas na het testen weet je of het werkt. In de praktijk zullen testversies niet precies parallel zijn. Het gevolg is dat in de populatie de correlatie tussen de resulterende scores op beide versies kleiner is dan wanneer beide versies wel parallel zouden zijn.

22
Q

Test-hertestmethode

A

Twee afnemingen van dezelfde test aan dezelfde groep met een behoorlijke tussentijd. De test speelt bij de tweede afneming zelf de rol van onafhankelijke replicatie. De correlatie tussen beide verkregen ruwe scores is in de populatie gelijk aan de betrouwbaarheid van de test, mits beide afnemingen onafhankelijke replicaties zijn. R(X1,X2) = rxx’ De correlatie tussen de twee testscores wordt de test- hertestbetrouwbaarheid genoemd.
Wanneer er veranderingen plaatsvinden tussen de eerste en de tweede test geeft de test-hertestmethode afwijkende resultaten. Bij weinig wijzigende eigenschappen geeft de test-hertestmethode een goede indruk van de betrouwbaarheid volgens de parallelvormmethode. Er zijn diverse redenen waarom r(X1,X2) soms geen goede bepaling van rxx’ geeft.
• Veranderingen in de gemeten eigenschap na de eerste meting.
• Geheugen van de respondent.
• Een persoonlijkheidsvragenlijst of attitude test kan men aan het denken zetten
Bepaling van de grootte van het testinterval is lastig. Deze mag niet te groot en niet te klein zijn. Dit maakt dat X1 en X2 vaak niet als onafhankelijke replicaties kan worden beschouwd. De correlatie r (en dus betrouwbaarheid) zal hierdoor te hoog of te laag uitvallen. De test-hertestmethode kan wel aangeven of de testprestatie stabiel is gebleven

23
Q

Splitsingsmethode

A

Een splitsing van één test in twee halve testen waarbij iedere helft evenveel items bevat. Deze twee halve testen spelen de rol van parallelle tests. Per testhelft wordt een ruwe score bepaald. Als de beide scores werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test. Via een wiskundige ingreep wordt gecorrigeerd om de betrouwbaarheid van de gehele test te bepalen en het resultaat hiervan is een schatting van de paralleltestbetrouwbaarheid. De betrouwbaarheid van de gehele test is via de Spearman-Brown-formule te bepalen waarbij K dan 2 is want je test is tweemaal zo lang als de betrouwbaarheid van een halve test. De formule van splitsingsmethode suggereert dat beide helften parallel zijn. Dit is zelden het geval. Er zijn een aantal vuistregels voor het vormen van twee helften.
• Een evenwichtige spreiding van gemakkelijke en moeilijke items.
• Niet 1e en 2e helft maar even en oneven.
• Heterogeniteit qua inhoud: paren maken van vragen die op elkaar lijken.
De cronbachs alfa is precies gelijk aan de gemiddelde splitsingsbetrouwbaarheid, berekend over alle mogelijke splitsingen van een test in twee helften. Bovenstaande splitsing hoeft dus niet uitgevoerd te worden.

24
Q

Rekenregels

A

Eerst tussen haakjes.
Machten en wortsels van links naar rechts.
Vermenigvuldigen en delen van links naar rechts
Optellen van links naar rechts.

25
Q

Spearman-Brown formule

A

De Spearman-Brown-formule hoort bij de klassieke testtheorie en is gebaseerd op de vooronderstelling van parallelle metingen. De klassieke theorie gaat ervan uit dat elk item dezelfde betrouwbaarheid bevat. De Spearman-Brown biedt de mogelijkheid om de betrouwbaarheid bij testverlenging en testverkorting te bepalen. De betrouwbaarheid van een test is deels afhankelijk van de lengte van die test.
rXX’ = Betrouwbaarheid van de score op de test
rKK = Betrouwbaarheid van de score op de verlengde of verkorte test.
K = Verlengingsfactor of verkortingsfactor. Bij een verlengingsfactor is K > 1. Bij verkorting 0 < K < 1
Toepassingen van Brown:
• Bereiken van gewenste betrouwbaarheid
• Testen vergelijken. (Zijn tests met verschillende aantal items even betrouwbaar?)
• Bepalen of test verkort of verlengd moet worden bij gewenste betrouwbaarheid
• Testen met verschillend aantal items met elkaar vergelijken.
K kan je berekenen. Dit doe je door het aantal items van de verlenging/verkorting te delen door het aantal items van de oorspronkelijke test. B.v. je wilt niet meer dan 10 items gebruiken maar het origineel heeft er 21, dan is verkortingsfactor K 0.48.

26
Q

Interne consisentie methode

A

Deze is gebaseerd op de covarianties tussen alle individuele items en leidt tot een ondergrens van de betrouwbaarheid. Cronbachs alfa behoort tot deze methode en is gebaseerd op de inwisselbaarheid van individuele items in de test of van groepjes items. De test wordt eenmalig voorgelegd aan een representatie groep respondenten. Alle covarianties tussen de items wordt berekend, ook de variant van de ruwe score (X). Samen met het aantal items (k), worden deze resultaten ingevuld in één van de vele coëfficiënten van interne consistentie (b.v. alfacoëfficiëntie). Deze coëfficiënten worden gebruikt als schattingen van de betrouwbaarheid rXX”.

27
Q

Cornbachs alfa als ondergrens voor betrouwbaarheid

A
  • Alfa is een ondergrens voor betrouwbaarheid rxx’ ≥ alfa.
  • Als alle items in hoofdzaak dezelfde eigenschap meten, dan zal de betrouwbaarheid en de alfa elkaar weinig ontlopen.
  • Alfa is de populairste methode om betrouwbaarheid te meten omdat de formule eenvoudig is.
28
Q

Cornbachs alfa als ondergrens in relatie tot de populatie en de steekproef

A

Alfa is in de populatie de ondergrens voor de betrouwbaarheid, maar in de praktijk wordt alfa geschat m.b.v. de steekproefgegevens. Die schatting is aan een zekere onnauwkeurigheid onderhevig en dit betekent dat zij hoger en lager kan uitvallen dan de alfawaarde in de populatie. Bij kleinere steekproeven kan de alfa van de steekproef hoger liggen dan de betrouwbaarheid. De alfa is rekenkundig afhankelijk van het aantal items in de test. Hoe meer items, hoe hoger de alfa. En hoe groter de steekproef, hoe realistischer de alfa. De steekproef dient minimaal 500 proefpersonen te hebben voor een nauwkeurige alfa.

29
Q

Interpretatie en gebruik van alfa

A

KR20 is gelijk aan alfa als items dichotoom zijn. M.b.v. testlengte, inter-itemcovariantie en de variantie van de testscore (=som van itemscores) wordt de alfa berekend. Vervolgens moeten items die niet positief bijdragen aan de betrouwbaarheid uit de test. Dit is vaak lastig en daarvoor wordt de item-restcorrelatie gebruikt = De beoordeling van items op hun correlatie met de somscore op de andere k-1 items. Waarbij k is het aantal items. Dus: per item een item-restcorrelatie i.p.v. heel veel k-1 inter-item-covarianties. Veel onderzoekers gebruiken alfa als maat voor de interne consistentie (homogeniteit) van de test. Dit is nogal ongelukkig want:
• Hoe meer items, hoe hoger de alfa. Een hoge betrouwbaarheid heeft alles te maken met hoe nauwkeurig de test meet, niet wát de test meet. Dit laatste is echter wel wat met homogeniteit bedoeld wordt.
• De alfa kan een hoge waarde hebben terwijl de test heterogeen is. B.v. bij een test met deelgroepen die andere eigenschappen meet.

30
Q

Inter-item covariantie

A

Wil je de interne consistentie weten dan kun je dit meten m.b.v. de factoranalyse. De covarianties tussen de itemscores.

31
Q

Alternatief voor alfa

A

De lambda2-coëfficiënt volgens Guttman maakt deel uit van een oneindig lange reeks ondergrenzen voor de betrouwbaarheid van een test. De coëfficiënten in deze reeks worden mucoëfficiënten genoemd en zijn genummerd vanaf 0. De coëfficiënten kunnen geordend naar oplopende grootte waarbij de nummering correspondeert met hun plaats in deze ordening.
Mu0 ≤ mu1 ≤ mu2 ≤ mu3 ≤ … ≤ rxx’
Mu0 is identiek aan alfa, dus alfa is de laagste ondergrens. Mu1 is identiek aan Lambda2. In de populatie ligt Lambda2 dus minstens zo dicht bij de betrouwbaarheid als alfa en zou je deze beter kunnen berekenen om de betrouwbaarheid te schatten.

32
Q

Lineaire regressie

A

Bij een lineaire regressie kun je aantonen hoe waarde X verband houdt tot Y. Je kunt daarmee b.v. voorspellen wat CITO score X zegt over succes op middelbare school Y. Ŷ=a+bX. Als correlatie tussen X en Y niet perfect is (dus r(X,Y) = < 1), dan gaat de schatting van Y gepaard met een zekere mate van onnauwkeurigheid: het verschil tussen geobserveerde en geschatte waarde. Dit verschil is residu. In een groep personen is het gemiddelde residu gelijk aan nul. De standaardschattingsfout kan met een formule berekend worden, deze geeft een indruk van de onnauwkeurigheid van de schatting van Y met behulp van X.

33
Q

T̂=X. Betrouwbare score schatten.

A

T̂=X. Oftewel: De voorspelde betrouwbare score T̂ = gelijk aan de geobserveerde score X. Dit is een eenvoudige en populaire methode. Volgens het klassieke testmodel verschilt X alleen van T door een meetfout E (X=T+E). Dus T kan geschat worden d.m.v. X. De standaarddeviatie van de schattingsfouten is gelijk aan de standaarddeviatie van de residuen, T −T̂ en aan de standaardmeetfout. Het gemiddelde residu is gelijk aan 0, en de standaarddeviatie is een maat voor de onnauwkeurigheid van de schatting.

34
Q

T̂ = a+bX. Betrouwbare score schatten.

A

T̂ = a+bX. Oftewel: T wordt geschat op basis van X m.b.v. de lineaireregressieformule. Deze methode gebruikt meer informatie en is daarmee nauwkeuriger. Hierbij wordt een belangrijk resultaat uit de klassieke testtheorie toegepast. Namelijk dat de correlatie r(X,T), gelijk is aan √rxx′. Dus in formule: r(X,T) = √rxx′. Dit maakt dat de formule van regressie kan worden herschreven naar T̂=rxx’X+(1-rxx’)X̅. De standaarddeviatie van de schattingsfouten T - T̂ is hier de standaardschattingsfout. De standaarddeviatie kan berekend worden door S(T-T̂)=S(T)√1− rXT2. De standaardschattingsfout door S(T-T̂)=S(T)√1− rXX′. Hierbij wordt de betrouwbaarheid rXX’ geschat d.m.v. Cronbachs alfa en blijft over dat we S(T) moeten schatten. Dit kan door S2(T) = rxx’S2(X) en hieruit de wortel te trekken S(T)=√rXX′S(X). (LET OP! Is in het boek niet helder beschreven maar bij deze tweede formule berekend je het kwadraat van S) Ook hier kan de betrouwbaarheid d.m.v. Cronbachs alfa worden geschat terwijl S(X) uit de testgegevens kan worden berekend.

35
Q

Verschil tussen T̂=X en T̂ = a+bX.

A

T̂=X gebruikt alleen de ruwe score. T̂ = a+bX. Gebruikt ook de gemiddelde score en de betrouwbaarheid. Hoe hoger de betrouwbaarheid, hoe meer gewicht de individuele testprestatie X krijgt. Hoe kleiner de betrouwbaarheid, hoe onbetrouwbaarder X en dan wordt de rol van groepskenmerk X̅ belangrijker. Weet je weinig van de individuele score X, dan kan je beter op het groepsgemiddelde afgaan.

36
Q

Formule betrouwbaarheidsinterval

A

Betrouwbaarheidsinterval = T̂ ± Breedte-index (1.96) x standaardfout.

37
Q

Testscores vergelijken (grote en kleine BI)

A

De betrouwbaarheidsintervallen zijn, ook bij een hoge betrouwbaarheid, relatief groot. Dit betekent dat de testscores X tamelijk onnauwkeurige schattingen van T zijn. Hoe meer items in een test, hoe hoger de betrouwbaarheid. Hoe meer items, hoe meer mogelijke testscores en hoe hoger de spreiding (S)X. De standaardmeetfout wordt daarmee ook groter en het betrouwbaarheidsinterval voor T volgens methode T̂=X ook. Dit lijkt vreemd maar je moet beseffen dat een tweemaal zo grote standaardmeetfout samengaat met een viermaal zo lange schaal. De BI van verschillende personen zullen nu verder uiteen liggen en zullen op de lange schaal minder snel overlappen dan op een korte schaal. Dit maakt het gemakkelijker om significante verschillen te vinden. De winst in betrouwbaarheid is dus niet absoluut maar relatief. De BI moet gezien worden in het licht van de lengte van de schaal. Uit bovenstaande moet niet de conclusie worden getrokken dat testscores onbetrouwbaar zijn omdat:
• De tests zijn goede meetinstrumenten voor ind. Verschillen als hun standaardmeetfout of standaardschattingsfout gering is ten opzichte van lengte van de schaal. Standaardmeetfout en standaardschattingsfout geven meer informatie dan BI.
• Test in wetenschappelijk onderzoek vereist een minder hoge meetnauwkeurigheid. Wel moet betrouwbaarheid behoorlijk zijn. Vooral de grootte van de steekproef van proefpersonen is van belang. Voor ind testgebruik worden hogere eisen gesteld.
• Geringe aantal items in de test (hierdoor schaallengte kort, standaardmeetfout groot) kan gecompenseerd worden door diverse testprestaties en evt. andere gegevens over de persoon bij de uitspraak te betrekken.

38
Q

Conclusies betrouwbaarheid en testlengte

A

Conclusies m.b.t. testverlening:
• De betrouwbaarheidswinst wordt kleiner naarmate meer items worden toegevoegd. De grootste winst zit in het begin.
• Het heeft weinig zin een test met geringe betrouwbaarheid te verlengen.
• De validiteit van een testscore profiteert maar marginaal van testverlenging.
Samenvatting kan je stellen dat testverlening vooral zin heeft als de aanvangsbetrouwbaarheid niet al te laag is (min. 0.60) en het aantal items in de test niet al te groot (10 tot 20).

39
Q

Betrouwbaarheid en validiteit

A

De betrouwbaarheid van testscore X legt beperkingen op aan de correlatie van X met variabele Y. Omdat de validiteit meestal wordt uitgedrukt in correlatiecoëfficiënt zijn deze beperkingen dus ook van toepassing op de validiteit. Y is meestal het criterium, datgene wat je wilt voorspellen. De betrouwbaarheidsindex kan berekend worden (de wortel uit de betrouwbaarheid) om een bovengrens aan te geven voor de correlatie van testscore X met variabele Y. Betrouwbaarheid impliceert niet validiteit. Testen met een lage betrouwbaarheid
heeft ook een geringe validiteit.

40
Q

De formule van attenuatiecorrectie

A

De formule voor attenuatiecorrectie geeft aan wat zou kunnen gebeuren met de correlatie als de beide tests perfect betrouwbaar zouden zijn. Het biedt ook de mogelijkheid om na te gaan of twee variabelen al of niet hetzelfde meten. De noemer is kleiner dan 1 waardoor r (TXTY) altijd groter is dan de echte validiteit r(X,Y). De correlatie tussen de betrouwbare scores is groter dan die tussen de observeerbare scores. Daardoor denken onderzoekers wel eens dat hun test beter voorspelt dan de gegevens laten zien, maar dit klopt niet. De validiteitscoëfficiënt is gelijk aan r(X,Y).

41
Q

Betrouwbaarheid van verschilscores

A

Is een gevonden verschil tussen twee testscores van dezelfde persoon betrouwbaar (heeft b.v. therapie effect gehad) of kan het worden toegeschreven aan onbetrouwbaarheid van testscores of beide? Voor de differentiële voorspelling is de betrouwbaarheid van een gevonden verschil een essentiële voorwaarde. De betrouwbaarheid van het verschil (D) is lager naarmate de betrouwbaarheid van afzonderlijk X1 en X2 lager zijn. De betrouwbaarheid van verschilscores is eveneens gering als covariantie van X1en X2 sterk is. In beide gevallen zullen verschilscores vooral uit meetfouten bestaan. Dit betekent dat:
• Je moet streven naar zo onafhankelijk mogelijke tests. Hoe lager de testscores correleren, hoe beter.
• Beide testscores moeten zo betrouwbaar mogelijk zijn.

42
Q

Latente klassenanalyse

A

Latente-klassenanalyse is een recente, statistische ontwikkeling in de classificatie van mensen op basis van scoreprofielen op tests of items. M.b.v. deze methode wordt nagegaan in hoeverre in een groep van proefpersonen deelgroepen te onderscheiden zijn op basis van scoreprofielen. Per deelgroep wordt een interpretatie gegeven van de specifieke kenmerken van die deelgroep m.b.v. de p-waarden. Latent = achteraf uit gegevens berekenen en niet vooraf door onderzoek gedefinieerd.

43
Q

Betrouwbaarheid v.s. spreiding van T en meetfouten

A

Er bestaat een sterk positief verband tussen de variantie van de betrouwbare score T en de betrouwbaarheid rxx’. De variantie van de meetfout binnen b.v. een groep van elfjarigen en twaalfjarigen even groot is als binnen de groep van elfjarigen alleen. Wat wel sterk zal variëren is de variantie van de betrouwbare scores, want dit is een groepskenmerk.

44
Q

Betrouwbaarheid van heterogene tests

A

Voor het meten van complexe begrippen zoals intelligentie worden testbatterijen ontwikkeld die bestaan uit soms tien of meer deeltests. De onafhankelijkheid tussen deeltests komt tot uiting in lage correlaties of geringe covarianties tussen scores op de deeltests. Daarnaast wil men vaak ook een indicatie van iemands algemene intelligentieniveau, waarvoor de totaalscore op alle deeltests tezamen wordt genomen. Vanwege de veelal lage covarianties tussen de itemscores uit verschillende deeltests is de Cronbachs alfa geen slimme keuze. Een zinvolle methode is die van de gestratificeerde alfacoëfficiënt.

45
Q

Generaliseerbaarheid van metingen

A

De test-hertestmethode geeft een indruk van de generaliseerbaarheid van de meting in de tijd. Paralleltestmethode geeft aan in hoeverre metingen verkregen met de ene testversie generaliseerbaar zijn naar op hetzelfde moment verkregen meetwaarden van de andere parallelle testversie.

46
Q

Generaliseerbaarheidstheorie van Cronbachs

A

De testgebruiker zal altijd een generalisering van de testresultaten beogen. Het totaal van condities waarnaar men wenst te generaliseren is het universum. Verschillende condities waarover testresultaten gegeneraliseerd kunnen worden zijn b.v. tijd, vraagvormen, soortgelijke test, vraaginhoud. We hebben het daarbij niet over betrouwbare score maar over universumscore: de gemiddelde testprestatie berekend over het universum van condities. Afhankelijk van de definitie van het universum varieert de universumscore maar ook de betrouwbaarheid. Deze betrouwbaarheid wordt de generaliseerbaarheid genoemd. Meetfout E heeft dus niet alleen te maken met invloeden op de testprestatie maar ook met toeval en andere
variantiebronnen.

47
Q

Nadelen van de klassieke testtheorie

A
  • Eigenschappen van een test kunnen niet afzonderlijk v.d. populatie begrepen worden. De kengetallen van de populatie zijn afhankelijk vd samenstelling vd test.
  • Er is geen eenduidige manier om de betrouwbaarheid te schatten. Diverse methoden geven verschillende betrouwbaarheid.
  • De theorie is gericht op de test als geheel. Items kunnen echter verschillen in moeilijkheidsgraad of informatie over construct.
48
Q

Voordelen van de klassieke testtheorie

A
  • Veel valide vragenlijsten zijn gebaseerd op de klassieke testtheorie.
  • Goede resultaten voor totale scores
  • Eenvoudig toe te passen.