H3 Flashcards
Gestandaardiseerde maten:
- Ontwikkeld en gestandaardiseerd op gedefinieerde populaties
- Vaak multiple-item vragenlijsten en cognitieve tests
- Normatieve gegevens
- Vastgesteld aan de hand van groot aantal mensen
- Statistieken verdeling, gemiddelde, standaarddeviatie, bereik, betrouwbaarheid
- Vaak weergeven in opzoektabellen achterin handleidingen
- Meervoudige regressie
§ Bevat belangrijkste normcriteria
§ Voorspelde normatieve waarde op test en afwijking van voorspelde waarden
- Zijn uiterst waardevol bij het beoordelen van verandering in afzonderlijke gevallen
- Hiermee verwijzen naar bredere bevolking
- Voordeel: Ontwikkelen normen
- Daardoor bepalen of de eventuele verandering in gedrag tijdens een interventie alleen komt door ‘measurement error’ of dat deze verandering groter is dan dat
- Kan helpen om de betekenis van de scores van een test te bepalen
- Gemakkelijker uitsluiten dat verandering in gedrag wordt veroorzaakt door meetfouten
- Langere testen, vaak in voor- en nameting
- Betrouwbaarheid vaak goed, maar afvragen of het wel valide is
Grondbeginselen gestandaardiseerde maten (2)
- Instructies/protocol volgen, anders systematische fouten en verminderde validiteit
- Expliciete instructie, zodat respondenten vragenlijst goed begrijpen
Normaalverdeling
- Symmetrisch rond het gemiddelde
- Gemiddelde, modus en mediaan allemaal zelfde waarde, dit ‘verkleint’ aan weerszijden van het gemiddelde
- Positie van individu gemakkelijk vergelijken met z-scores
z-score & voordelen (4)
- Aantal standaarddeviaties die een waarneming van het gemiddelde afligt
- 0= Waarneming hetzelfde als het gemiddelde
- Positieve z-score: de waarneming ligt boven het gemiddelde, bij negatieve score ligt het eronder
- Bij (-)3 standaarddeviaties, dan is het een uitschieter
- 95% waarnemingen ±1.96
- Voordelen
§ Gestandaardiseerd: onafhankelijk van meetschaal
§ Kan je waardes met elkaar vergelijken met verschillende schalen
§ Kijken hoe extreem een waarneming is
§ Gemakkelijk om te zetten naar andere schalen (zoals IQ-schaal) - z=(x−x ̅)/s
Omzetten nieuwe scores (Converted/aangepaste/getransformeerde score)
§ nieuwe score=z∗sd+x ̅
§ Z-score heeft een gemiddelde van 0 en een standaarddeviatie van 1. Dit is om te zetten in een eigen score
§ T-score: Gemiddelde 50, standaarddeviatie 10
§ IQ-score: Gemiddelde 100, standaarddeviatie 15
§ M-score: Gemiddelde 10, standaarddeviatie 3
Klassieke test theorie: (X=T+E) & assumpties (2)
- Meettheorie voor analyseren-ontwikkelen van testen
- Traditionele theorie met lange geschiedenis
- Geobserveerde score bestaat uit ware- & error score
- Fundamentele assumpties klassieke theorie
1) De testscore wordt bepaald door de betrouwbare score en de meetfout (Xo=Xt+Xe)
* Betrouwbare score & meetfout zijn niet observeerbaar
* Gemiddelde testscore komt overeen met gemiddelde betrouwbare score (X ̅o=X ̅t)
2) De meetfout komt random voor (Xe=0 & Rte=0 & Ree=0)
* Meetfout die score betrouwbare score omhoog en omlaag kunnen halen
* Meetfout heeft de neiging zichzelf op te heffen over alle respondenten/middelt uit (X ̅e=0)
* Meetfout correleert niet met betrouwbare score (Rte=0)
Fundamentele concepten klassieke theorie (3)
1) Test/ruwe/waargenomen score (observed score) (Xo)
* Waarde verkregen uit de meting
* Testscore= Betrouwbare score + meetfout
* Enige score die we kunnen weten
* Hopen dat dit zoveel mogelijk afhangt van de betrouwbare score
* Variantie Xo = Variantie Xt + Variantie Xe
2) Betrouwbare score (true score) (Xt) –> systematisch deel
* Het daadwerkelijke niveau van het attribuut dat wordt gemeten
* Alles heeft een betrouwbare score
* Als er geen meetfout bij zit
* Gemiddelde score als een meting oneindig vaak wordt afgenomen
* Bevat ook systematische fouten (niet valide)
* Verwachte testscore van respondent
* Blijft constant bij replicaties
3) Meetfout (measurement error) (Xe)
a. (Systematische fout)
b. Willekeurige fout
- Gemiddelde van alle willekeurige fouten is 0
- Zijn onafhankelijk van werkelijke score
- Constante variantie van alle scores
- Normaal verdeeld
- Ruis
Betrouwbaarheid
- Mate waarin testscores gelijk blijven wanneer test tweemaal of vaker onder gelijkblijvende condities aan dezelfde persoon wordt voorgelegd (maat van precisie)
- Rxx=(variance true)/(variance (observed))
- Rxx=(variance (true))/(variance (true)+variance (error))
- Tussen 0 (niet betrouwbaar) en 1 (perfect)
- Als error 0 is, dan betrouwbaarheid perfect (1)
- Betrouwbaarheid voorwaarde voor validiteit
Betrouwbaarheid
- Mate waarin testscores gelijk blijven wanneer test tweemaal of vaker onder gelijkblijvende condities aan dezelfde persoon wordt voorgelegd (maat van precisie)
- Rxx=(variance true)/(variance (observed))=(variance (true))/(variance (true)+variance (error))
- Tussen 0 (niet betrouwbaar) en 1 (perfect)
- Als error 0 is, dan betrouwbaarheid perfect (1)
- Betrouwbaarheid voorwaarde voor validiteit
Betrouwbaarheid gebruiken bij (4)
1) Individuele diagnostiek
* significant verschil met criterium
* Significant verschil tussen 2 participanten
2) Onderzoek naar samenhang
§ Geeft bovengrens validiteit aan
§ Regressie
§ Correlatie
3) Onderzoek verschil in gemiddelde tussen groepen
* T-toets
4) Herhaalde metingen binnen personen
Methodes voor schatten van betrouwbaarheid: (3/3)
1) Paralleltestbetrouwbaarheid (alternate forms method)
* Stappen:
a) Neem 2 parallelle testen af
b) Bereken de correlatie tussen de 2 testscores
c) Correlatie=betrouwbaarheidschatting
* Vaak gebruikt bij speedtesten
2) Test-hertestbetrouwbaarheid
* Dezelfde test tweemaal afnamen
* Moment ertussen kan sterk variëren
* Stappen
a) Neem dezelfde test af op 2 verschillende momenten
b) Bereken de correlatie tussen de 2 testscores
c) Correlatie=betrouwbaarheidschatting
* Werkt wel bij medische dingen, zoals bloeddruk. Of juist om ontwikkeling te zien
* Wordt wel vaak gebruikt, maar meer index voor stabiliteit dan een schatter voor betrouwbaarheid (ontwikkeling zien)
3) Interne-consistentie betrouwbaarheid
* 1 test, verdeeld in subsets
* Mogelijk probleem: Carryover effects
* Zegt niks over dimensies, alleen hoe nauwkeurig het gemeten is
* Zijn ondergrenzen van betrouwbaarheid
A) Splitsingsbetrouwbaarheid
- Stappen
a) Splitst test in 2 subtesten (bijv. even en oneven items)
b) Bereken correlatie tussen twee subtesten
c) Betrouwbaarheidsschatting met Spearman-Brown splitsingsformule
- rhh= correlatie tussen 2 helften
- Wordt weinig gebruikt, want er zijn betere schatters
B) Cronbachs alfa (α)
- Meest gebruikte methode
- Item-level benadering: Correlatie tussen alle items gebruikt voor betrouwbaarheid schatting
- Elk item als subtest
- Kan gebruikt worden voor betrouwbaarheidsinterval
- Weinig inspanning
- Alfa kan negatief zijn, maar dan is er iets mis gegaan
- ‘De betrouwbaarheid werd geschat met Cronachs alfa’
- α≤R_xx (behalve soms bij (kleine) steekproeven dan α>R_xx)
- Hoe hoger r ̅, hoe hoger α
- Hoe hoger N, hoe meer variantie meetfouten
C) Gestandaardiseerde alfa
- Gebruikt als testscores worden gestandaardiseerd (z-score), voordat ze worden opgeteld/gemiddelde wordt berekend (bij standaardscores gem. 0, standaarddeviatie 1)
- Als bijvoorbeeld varianties dramatisch van elkaar verschillen
- Betrouwbaarheidsschatting (cronbachs alfa)
- Word afgeraden, vanwege ongelijke antwoordcategorieën
Mogelijke problemen Paralleltestbetrouwbaarheid (5)
a) Ongelijke ware scores, omdat ze net iets verschillen in doel
b) Overdrachtseffecten (carryover effects), omdat eerste test invloed heeft op tweede test
c) Nooit met zekerheid kunnen zeggen of ze volledig parallel zijn
d) Er zijn (vrijwel) geen parallelle tests
e) Lastig en intensief 2 testafnames
Mogelijke problemen Test-hertestbetrouwbaarheid (3)
a) Ongelijke ware scores, door groei participant –> Lage betrouwbaarheid, behalve voor niet veranderende constructen (intelligentie)
b) Overdrachtseffecten (carryover effects), vooral als ze redelijk vlak achter elkaar worden afgenomen
c) Moeite om respondenten twee keer te laten deelnemen
Mogelijke problemen splitsingsbetrouwbaarheid (3)
a) Betrouwbaarheid alleen accuraat als subtesten parallel zijn (gelijke betrouwbare scores en foutvarianties)
b) Manieren van splitsen is willekeurig en kan leiden tot verschillende betrouwbaarheidsschattingen
c) Je schat de betrouwbaarheid voor de helft, niet voor de gehele test
Spearman-Brownformule
- Testverlenging Morley
- Manier om betrouwbaarheid van de testlengte in te schatten
- Voorspelt de betrouwbaarheid van een herziende test
- n= hoeveel keer zo lang de test is geworden
Standaardmeetfout
- Maat van meetprecisie van een testscore
- Spreiding (SD) als je 1 observatie hebt
- SEM=SD√(1−r)
- Als betrouwbaarheid toeneemt, dan neemt standaardfout af
Betrouwbaarheidsinterval
- Als we de betrouwbaarheid en standaarddeviatie van een test kennen, dan bepalen binnen welk bereik het ‘juiste’ antwoord waarschijnlijk zal vallen. Dit omvat het berekenen van de standaardmeetfout (SEM) om betrouwbaarheidsintervallen (CI) rond een bepaalde waarneming in te stellen
- Geldt voor 1 individu
- Tweezijdig toetsen
- Betrouwbaarheidsinterval 95%: X ̅ ±1.96(SEM)
Jacobson’s Reliable Change Index (RCI)
95%-betrouwbaarheidsinterval rond de baselinescore
RCI=(pre−treatment score − post−treatment score) /SE_diff
Clinically significant change (CSC)
- Klinisch significant
- Het kan wel statistisch relevant zijn, maar als het ‘probleem’ voor persoon verholpen is dan pas klinisch significant
- Geeft verdeling van scores van klinische groep en niet-klinische contrastgroep (referentiegroep) weer
- Cutscore vraagt enig denkwerk
Criteria Clinically Significant Change (CSC) (3)
a. Criteria a
- De cut-score zo bepaald dat functionele scores na therapie buiten bereik van disfunctionele populatie moeten vallen, gedefinieerd als het uiterste einde van de disfunctionele verdeling, meer dan 2 standaarddeviaties in de richting van de normale referentiegroep
- 2 SD meer conservatief dan 1.96
- Kiezen voor a: Bij veel overlap
§ Je wil weten of iemand verbeterd is
- Bepalen aan de hand van disfunctionele klinische groep (zit in staart van klinische groep)
- Als je voldoet: Uitkomstmaat buiten klinische range
- Criterium B is niet sterk genoeg
- Piekeren: Milde symptomen en veel overlap.
b. Criterium b
- Functioneringsniveau moet binnen het bereik van niet-disfunctionele groep vallen
- Cut-score zo bepaald dat score na therapie binnen bereik functionele populatie vallen, met uiterste einde functionele groep in richting disfunctionele groep
- Criterium score op nameting in de range van de non-klinische groep moet vallen om te spreken van een klinisch significant effect
- Kiezen voor b: Bij heel weinig over overlap
- Bepalen aan de hand van functionele groep (zit in staart van niet-klinische groep)
- Als je voldoet: Binnen niet-klinische range
- PTSS-problemen: 1 groep heeft er last van en 1 grote groep niet. Weinig overlap in symptomen. Je wil functioneren om niet-klinisch (functioneel niveau)
c. Criterium c
- Cliënt dichter bij het gemiddelde van de functionele groep zou plaatsen dan bij het gemiddelde van de disfunctionele groep
- Komt meeste voor
- Kiezen voor c: Als groepen enige overlap hebben (helft beide groepen)
- Bepaald op basis van disfunctionele (klinische) en niet-klinische groep
- Als je voldoet: Beter bij niet-klinische range dan bij klinische
- Slaapproblemen: heeft iedereen wel eens last van
Target measure:
- Dicht bij wat je wil meten (idiografisch)
- Herhaald meten
- Gemakkelijke/korte test
- Validiteit vaak goed, maar betrouwbaarheid goed in de gaten houden
Meta-analyse:
- Vereist technische kennis
- Fixed effect model
- Gaat ervan uit dat eventuele verschillen tussen steekproeven het gevolg zijn van steekproeffouten
- Zonder enige steekproeffout zouden de schattingen van elk onderzoek exact hetzelfde zijn
- X^2−verdeling, met vrijheidsgraden (k): N-1
- Random effect model
- Gaat ervan uit dat variatie in schattingen tussen steekproeven bestaat uit steekproeffout en andere willekeurige effecten die variëren tussen steekproeven en die kunnen worden verklaard door verschillen in andere parameters, bijv. percentage mannen, leeftijd en rekruteringsbron (kliniek, gemeenschap)
- De artikelen moeten gemiddelden (M), standaarddeviaties (SD) en steekproefomvang (n) en betrouwbaarheidscoëfficiënten rapporteren: testhertest (r) of bij voorkeur Cronbach’s alpha (a).
Kiezen modellen vaste en willekeurige effecten
1 Vaste effecten
- Brute emirie
- Priori-hypothese
- Fixed-effect model
- Kiezen als alle onderzoeken die in de analyse zijn opgenomen, equivalent zijn
- Gemeenschappelijke effectgrootte willen schatten voor een voorgeschreven populatie, en wat nog belangrijker is, we niet willen generaliseren naar andere populaties
- Bij bijv. meerdere herhalingen hebben van een onderzoek met steekproeven uit dezelfde populatie
2 Willekeurige effecten
- Random effect model
- Bij verschillende onderzoeken
- Verschillen kunnen gegevens beïnvloeden, waardoor geen gemeenschappelijke effectgrootte
Manieren van observeren (4)
1 Real-time recording
- Waarnemer noteert begin en einde gebeurtenis die van belang is in bepaalde tijdsperiode
- Doel: ononderbroken stroom van gedrag vastleggen
- Oorzakelijk verband achterhalen
- Tijdlijn creëeren
- Nadelen
* Kostbaar
* Vereist apparatuur en gespecialiseerde software
* Vermoeiend voor waarnemers
- Wordt zelden gebruikt in onderzoeken naar behandelresultaat, behalve in beginfase waarin het probleem zich voordoet worden afgebakend en gedefinieerd
2 Event recording
- Geïnteresseerd in frequentie van gedrag gedurende bepaalde periode
- Tellen aantal keren doelgedrag binnen bepaalde observatieperiode voorkomt
- Gebruik intra klasse correlatiecoëfficiënt
- Relatief eenvoudig en minimale apparatuur
- Doel: Frequentie van gedrag in bepaalde tijd
- Nadelen:
* Moeilijk om bronnen overeenstemming en onenigheid te bepalen (overlap van gedrag)
* Waarnemers voortdurend aandacht bij individu (vermoeiend)
* Vereist meerdere sessies om betrouwbaarheidscoëfficiënt te berekenen
3 Momentary time/scan sampling
- Observatoren worden gehint (meestal door elektronische timer) om een enkele observatie te doen en noteren of bepaald gedrag wel of niet voordoet op dat moment
- Met timer kijken of het op dat moment wel of niet voorkomt
- Ja/nee antwoord
- Flexibele methode
- Kan worden toegepast op situaties waarin meerdere gedragingen/individuen moeten worden geobserveerd
- Bepalen hoe vaak observeren
4 Partial interval recording
- Komt gedrag voor in bepaald interval
- Observatieschema opgesplitst in perioden van observatie/registratie
- Bepaalde tijd, bijv. 10s, observeren
- Schatting van aandeel (percentage) van registratie-intervallen waarin doelgedrag aanwezig is
- Niet registeren frequentie of duur, anders real-time of event-sampling