H9: Besliskunde Flashcards
De toegevoegde waarde van testresultaten op basis waarvan beslissingen worden genomen, is nauw verwant met het begrip….
incrementele validiteit
Door welke 3 kenmerken wordt een beslissing gekenmerkt?
- het individu of de groep individuen waarop de beslissing betrekking heeft
- de informatie waarop de beslissing wordt gebaseerd
- antal ‘behandelingen’ (therapie, training, volgen van opleiding enzovoorts) waaraan men een individu kan toewijzen
Beslissingen worden veelal genomen op basis van bepaalde….
beslisregels
Het totaal aan beslissingsregels vormt een…
beslissingsstrategie
Welke taxonomieën van beslissingsstrategieën zijn er?
- Enkelvoudige selectie - c.q. afwijzingsmodel
2.
Wat houdt de taxonomie “enkelvoudige selectie - c.q. afwijzingsmodel” in?
Dichotome beslissingen kunnen onderverdeeld worden in 4 categorieën op basis van:
1. Prestatie op de test (bijv. IQ score)
2. De daarop gebaseerde beslissing (bijv. wel/niet toewijzen huiswerkbegeleiding)
3. De werkelijke prestatie p het criterium (=criteriumprestatie; bijv. werkelijke intelligentie)
- Categorie A positieve missers: dit zijn personen die laag scoren op de test, terwijl ze in werkelijkheid voldoende scoren op het criterium. De personen worden op basis van de test ten onrechte afgewezen/niet geselecteerd voor een baan, studie of een andere ‘behandeling’.
- Categorie B positieve treffers: dit zijn personen die voldoende scoren op de test en ook in werkelijkheid een voldoende criteriumwaarde laten zien. Deze personen worden op basis van de testresultaten terecht geselecteerd voor een behandeling.
- Categorie C negatieve treffers: dit zijn personen die onvoldoende scoren op de test en ook in werkelijkheid onvoldoende presteren op het criterium. De personen worden terecht afgewezen.
- Categorie D negatieve missers: dit zijn personen die voldoende scoren op de test, maar in werkelijkheid onvoldoende presteren op het criterium. Ze worden ten onrechte geselecteerd voor een behandeling.
Wat is de criteriumprestatie?
Werkelijke prestatie op het criterium.
Wat is een kanttekening bij criteriumprestatie?
Het is goed te beseffen dat we soms geen echte scores hebben voor een criterium maar alleen een vaag beeld dat we kunnen beschrijven in termen van minder of meer, weinig of veel, slechter of beter. Denk bijvoorbeeld aan klachten, intelligentie, vaardigheden, stemming en diverse andere constructen die we met een test in kaart proberen te brengen maar niet direct kunnen meten.
Bij de 4 categorieen van “Enkelvoudig selectie- c.q. afwijzingsmodel” moeten welke 3 kanttekeningen worden geplaatst?
- In de eerste plaats is er meettechnisch gesproken niet langer sprake van intervalschalen voor test en criterium, maar van nominale schalen.
- In de praktijk zullen de categorieën A en C niet zichtbaar zijn. Individuen die tot deze categorieën behoren, worden op basis van de testscore namelijk afgewezen en voor hen zal informatie over het criterium veelal niet beschikbaar zijn.
- De naamgeving voor de kwadranten kan anders zijn in de Engelstalige literatuur. De auteurs van het tekstboek schrijven dat positieve missers die bij de categorie A horen in de Engelstalige literatuur als false positives aangeduid worden. Dit is echter een typefout. In de medische testliteratuur en diverse psychometrische publicaties worden namelijk de volgende termen gebruikt voor de vier bovengenoemde situaties:
A (in het boek aangeduid als positieve missers): false negatives of onterecht negatieven. Iemand heeft, bijvoorbeeld, een bepaalde ziekte maar wordt niet als ziek herkend op basis van de test.
B (positieve treffers): true positives of terecht positieven. Iemand wordt op basis van de test terecht als ziek aangemerkt.
C (negatieve treffers): true negatives of terecht negatieven. Iemand wordt op basis van de test terecht als niet ziek aangemerkt.
D (negatieve missers): false positives of onterecht positieven. Iemand wordt op basis van de test onterecht als ziek aangemerkt (in werkelijkheid heeft hij/zij de ziekte niet).
In de medische testliteratuur en diverse psychometrische publicaties worden welke termen gebruikt voor de 4 kwadranten van “Enkelvoudig selectie- c.q. afwijzingsmodel”?
A (in het boek aangeduid als positieve missers): false negatives of onterecht negatieven. Iemand heeft, bijvoorbeeld, een bepaalde ziekte maar wordt niet als ziek herkend op basis van de test.
B (positieve treffers): true positives of terecht positieven. Iemand wordt op basis van de test terecht als ziek aangemerkt.
C (negatieve treffers): true negatives of terecht negatieven. Iemand wordt op basis van de test terecht als niet ziek aangemerkt.
D (negatieve missers): false positives of onterecht positieven. Iemand wordt op basis van de test onterecht als ziek aangemerkt (in werkelijkheid heeft hij/zij de ziekte niet).
Merk op dat in de medische testliteratuur de termen ‘positief’ en ‘negatief’ naar de testscores verwijzen (een positieve en negatieve testuitslag betekent dat iemand volgens de test de ziekte wel of niet heeft). Een false positive verwijst dus naar een positieve testuitslag terwijl de persoon in werkelijkheid niet ziek is. In het tekstboek verwijzen de termen ‘positief’ en ‘negatief’ daarentegen naar de criteriumprestatie (iemands conditie). Tot positieve missers behoren personen die wel ziek zijn maar door de test worden gemist.
Wat zijn kengetallen? 7x
- Selectieratio
- Succesratio
- Sensitiviteit
- Specificiteit
- Positief predictieve waarde (PPW)
- Negatief predictieve waarde (NPW)
- Toevalskans
Wat is selectieratio?
het percentage aangenomen kandidaten: (B + D) / (A + B + C + D)
Wat is de toevalskans?
percentage van aangenomen kandidaten wanneer dit op toeval is gebaseerd: (A + B) / (A + B + C + D)
Wat is het succesratio?
het percentage toegelaten kandidaten met een voldoende score op het criterium, B / (B + D).
Wat is sensitiviteit?
De proportie van mensen met de ziekte/conditie die ook als zodanig zijn geïdentificeerd. In formulevorm gebaseerd op de kwadranten uit figuur 9.3 is dit gelijk aan B / (A + B).
Wat is specificiteit?
de proportie van mensen die niet de ziekte/conditie hebben en die ook als zodanig zijn geïdentificeerd. In de formulevorm is dit gelijk aan C / (C + D).
Wat is de positief predictieve waarde (PPW)?
De proportie van mensen met een positief testresultaat die daadwerkelijk de ziekte/conditie hebben. Dit is gelijk aan B / (B + D) ofwel de succesratio waar de auteurs van het tekstboek over spreken.
Wat is de negatief predictieve waarde?
de proportie van mensen met een negatief testresultaat die daadwerkelijk niet de ziekte/conditie hebben, C / (A + C).
Wat is een afkappunt?
Een afkappunt is de testscore die als grenswaarde wordt gehanteerd om te bepalen of de geteste persoon wel of niet behandeld moet worden.
Voor het bepalen van het optimale afkappunt kunnen bovengenoemde kengetallen helpen. Idealiter zou een test ten minste één optimaal afkappunt moeten hebben waarbij alle mensen met een testscore boven het afkappunt de conditie wel laten zien en alle mensen met een testscore lager dan of gelijk aan het afkappunt de conditie niet laten zien. Als we een meetschaal nemen voor het meten van depressieve symptomen dan zou dit optimale afkappunt alle depressieve en alle niet depressieve mensen van elkaar helpen te onderscheiden. Een dergelijk afkappunt zou de maximale sensitiviteit, specificiteit, PPW en NPW hebben.
Wat is de waarde van false negatives (A) bij het optimale afkappunt?
En van false positives (D)?
0
Omdat bij het meest optimale afkappunt, het aantal false negatives (A) en false positives (D) gelijk is aan 0, zullen de vier kengetallen steeds gelijk zijn aan….
1 (of 100 als dit in percentages wordt berekend).
In de formule van sensitiviteit staat bijvoorbeeld dat die gelijk is aan B / (A+B). Als A = 0, dan krijgen we B / (0 + B) = B / B = 1. Ook bij de specificiteit, de PPW en de NPW is makkelijk na te gaan dat ze 1 worden als D en A gelijk aan 0 zijn.
Voor de meeste tests of meetschalen bestaat een dergelijk optimaal afkappunt niet. Men zou dan een afkappunt moeten kiezen afhankelijk van het doel. Welke 3 doelen kunnen er zijn?
(1) uitsluiten van de conditie
(2) screenen voor de conditie
(3) insluiten van de conditie.
Welke benadering wordt gebruikt bij het bepalen van het afkappunt bij het doel: uitsluiten van conditie?
Afkappunt met de hoogste waarden van sensitiviteit + NPW.
Wanneer de conditie wordt uitgesloten wil de diagnosticus zeker weten dat de geteste persoon niet afwijkend scoort op het criterium, bijvoorbeeld niet depressief is. Dit kan bijvoorbeeld spelen als je zeker wilt weten dat iemand geen behandeling nodig heeft. Of als men een groep mensen wil selecteren waarvan met zekerheid gezegd kan worden dat ze gezond zijn. In dit geval is het aantal false negatives (A) extreem laag of gelijk aan 0, dus hebben sensitiviteit, B / (A + B), en de NPW, C / (A + C), de hoogste waarden. Hun som is daarbij maximaal. In werkelijkheid is het mogelijk dat A niet precies gelijk is aan 0. Men zoekt dan alsnog naar een afkappunt met een maximale som van sensitiviteit en de NPW..
Welke benadering wordt gebruikt bij het bepalen van het afkappunt bij het doel: screen voor de conditie?
Optimaal afkappunt afhankelijk van nadelen van foutieve beslissing.
Als het doel screenen voor de conditie is, dan probeert men het maximale uit de test te halen waarbij rekening wordt gehouden met de kosten van mogelijke fouten, zowel die van het missen van diegenen die wel de conditie hebben (positieve missers of false negatives) als die van het onterecht aanmerken van diegenen die de conditie niet hebben (negatieve missers of false positives). Met kosten worden zowel diverse voor- en nadelen voor de persoon zelf als financiële en maatschappelijke kosten bedoeld. Bij sommige ziektes is het bijvoorbeeld heel belangrijk dat zo veel mogelijk mensen gevonden worden die ziek zijn ongeacht de kosten van de screening. Denk bijvoorbeeld aan ziektes die zich snel kunnen verspreiden en tot dood of ernstige verminkingen kunnen leiden. Bij andere ziektes is het juist heel belangrijk om geen verkeerde diagnose te stellen vanwege ernstige bijwerkingen van de behandeling. Als een verkeerde diagnose tot amputatie van een been of arm zal leiden, is het natuurlijk heel belangrijk om een false positive te voorkomen.
Welke benadering wordt gebruikt bij het bepalen van het afkappunt bij het doel: insluiten van conditie?
Afkappunt met de hoogste waarden van specificiteit + PPW.
Bij het insluiten van de conditie wil de diagnosticus de eerder gestelde diagnose of een zeer sterk vermoeden dat iemand ziek is bevestigen. Als de score op een depressieschaal heel hoog is, dan is het vrij zeker dat er sprake is van een depressie. In dit geval is het aantal false positives (D) extreem laag of gelijk aan 0, dus hebben specificiteit, C / (C + D), en de PPW, B / (B + D) de hoogste waarden. Ook in dit geval zoekt men naar een afkappunt met een maximale som maar nu van specificiteit en de PPW.
Vaak heeft een bepaald afkappunt alleen een hoge sensitiviteit terwijl de specificiteit niet optimaal is. Of het is andersom: de specificiteit is hoog maar de sensitiviteit is niet optimaal.
Als het vooral belangrijk is om zo veel mogelijk terecht positieven (true positives) te selecteren (de kosten van false negatives zijn hoger dan de kosten van false positives) dan moet de sensitiviteit zo [laag/hoog] mogelijk zijn.
Men beweegt dan bij het kiezen van een afkappunt voor screeningsdoeleinden richting het ideale afkappunt voor het uitsluiten van de conditie met een maximale som van sensitiviteit en de NPW (figuur 1).
hoog
Als het vooral belangrijk is om zo veel mogelijk mensen te selecteren die terecht negatieven (true negatives) zijn dan moet vooral de XXX hoog zijn.
specificiteit
Dit is belangrijk wanneer de kosten van false positives hoger zijn dan van false negatives. Men kiest dan een afkappunt dat dichter ligt bij het ideale afkappunt voor het insluiten van de conditie waarbij de som van de specificiteit en PPW maximaal zijn.
Vaak wordt in de literatuur een afkappunt van een test geselecteerd waarbij de som van sensitiviteit en specificiteit maximaal zijn. Wanneer is dit afkappunt relevant?
Dit afkappunt is echter alleen relevant als de kosten van onterechte negatieven en de kosten van onterechte positieven gelijk zijn. In alle andere gevallen is het belangrijk om een ander afkappunt te kiezen. Het optimale afkappunt is dus afhankelijk van het gekozen doel en van de kosten die onjuiste beslissingen met zich meebrengen.
Om het optimale afkappunt te bepalen gegeven een bepaald doel is wat nodig?
Om voor alle mogelijke afkappunten de verschillende kengetallen, zoals sensitiviteit (SE), specificiteit (SP), NPW, PPW en likelihoodratios (LR’s; zie uitleg hieronder) te berekenen.
Bijv. De hoogste som van sensitiviteit en specificiteit in dit voorbeeld is bij score 7. Het afkappunt 6/7 of 7/8 (de keuze is afhankelijk van het doel, wel de conditie bevestigen of juist uitsluiten) zou derhalve gekozen kunnen worden als de kosten van false positives en van false negatives gelijk zijn. Mensen die 7 of hoger scoren, kunnen aangemerkt worden als diegenen met de conditie (ziekte of een ander criterium). Mensen die 7 of lager scoren, kunnen aangemerkt worden als diegenen die de conditie niet hebben.
In het boek wordt besproken waarom het belangrijk is om de grootte van de toevalskans zo nauwkeurig mogelijk te kennen. De toevalskans wordt bepaald door A + B te delen door het totale aantal geteste personen. Wat zijn 2 redenen?
- Bij een hoge toevalskans kan zelfs een test met een hoge validiteit weinig bijdragen aan een verhoging van de succesratio, terwijl bij een lagere prevalentiewaarde ook een test met een betrekkelijk lage validiteit een zinvolle verbetering kan opleveren. Daarentegen is het ook belangrijk te beseffen dat bij zeer lage prevalentiecijfers het testen ook tot foutieve beslissingen kan leiden als validiteit niet perfect is (zie p. 411).
- Daarnaast is het kennen van de toevalskans belangrijk voor het bepalen van het optimale afkappunt omdat de PPW en NPW van de toevalskans afhankelijk zijn.
Als we de NPW en de PPW bepaald hebben in een aselecte groep mensen die vrij goed de totale populatie vertegenwoordigt dan hopen we dat de toevalskans in deze groep gelijk is aan de toevalskans in de totale populatie. De toevalskans in de populatie wordt binnen de epidemiologie ook wel hoe genoemd?
prevalentie : het percentage van de bevolking dat op een specifiek moment een bepaalde ziekte (of een andere conditie) heeft.
Als de toevalskans of de prevalentie voor een specifieke studie onbekend is of als de PPW en de NPW onbekend of niet bruikbaar zijn, moeten we kijken naar andere kengetallen voor het bepalen van het optimale afkappunten. Welke twee likelihoodratio’s zijn niet afhankelijk van de prevalentie of de toevalskans?
- positive Likelihood Ratio (LR+, de positieve aannemelijkheidsverhouding). Dit is de verhouding tussen de kans dat een persoon met een conditie (ziekte, een bepaalde criteriumscore) een positief testresultaat heeft en de kans dat een persoon zonder deze conditie (geen ziekte, een andere criteriumscore) een positief testresultaat heeft. In medische termen is de LR+ een maat voor de kracht waarmee de test bij positief resultaat de waarschijnlijkheid van de ziekte verhoogt. Dit wordt berekend als sensitiviteit / (1-specificiteit).
- negative Likelihood Ratio (LR-, de negatieve aannemelijkheidsverhouding). Dit is de verhouding tussen de kans dat een persoon zonder een conditie een negatief testresultaat heeft en de kans dat een persoon met deze conditie een negatief testresultaat heeft. In het onderwijs kan de LR- bijv. als een maat gezien worden voor de kracht waarmee een test bij negatief resultaat de waarschijnlijkheid van de geschiktheid van de persoon voor een concrete studierichting vermindert. Dit wordt berekend als (1 - sensitiviteit) / specificiteit.
LR+ waarden hoger dan 10 worden als wat gezien?
Om een test te hebben die zo veel mogelijk mensen met een bepaalde conditie (bijvoorbeeld depressief) selecteert, zou de LR+ zo hoog mogelijk moeten zijn. Waarden hoger dan 10 worden als aanwijzing gezien van de conditie.
Waar wijst een LR- lager dan 0.1 op?
Om er zeker van te zijn dat de test accuraat is in het herkennen van diegenen die de conditie niet hebben (bijvoorbeeld niet depressief zijn) wil men een zo laag mogelijk LR- hebben. Een LR- lager dan 0.1 wijst sterk op afwezigheid van de conditie
Wanneer spreekt men van een intuïtieve of klinische voorspelling?
Wanneer testgegevens van diverse soort in het geding zijn (bijvoorbeeld scores op capaciteitentests en vragenlijsten naast meer of minder subjectieve indrukken op basis van interview en gedragsobservatie) en het criterium moeilijk operationaliseerbaar is (bijvoorbeeld het succes van psychotherapie), is de verleiding groot om te vertrouwen op de persoonlijke ervaring. Men combineert ‘in het hoofd’ de diverse soorten informatie tot een gewogen totaalscore en maakt op basis hiervan een schatting van de te verwachten criteriumuitkomst.
e gewichten kunnen per gediagnosticeerde persoon worden aangepast en zodoende zou men meer recht kunnen doen aan de uniciteit van het individu.
Wanneer is er sprake van een actuariële of statische voorspelling?
Een alternatieve benadering tov klinische voorspelling. komt neer op het negeren van de uniciteit van de onderzochte persoon door het gebruik van dezelfde gewichten voor alle personen. Deze gewichten dienen bij voorkeur op empirisch onderzoek te zijn gebaseerd en in een statistisch model (doorgaans het lineaire meervoudige regressiemodel) te passen; de gewichten zullen per test verschillen.
Wat heeft onderzoek aangetoond over statistische vs klinische voorspellingen?
itgebreid onderzoek heeft aangetoond dat klinische voorspellingen vrijwel altijd inferieur zijn aan statistische voorspellingen. Hiermee is uiteraard niet aangetoond dat het geen zin zou hebben rekening te houden met unieke kenmerken van de persoon, laat staan dat deze kenmerken niet zouden bestaan. Wel komt duidelijk naar voren dat het in het algemeen niet goed lukt met deze unieke eigenschappen rekening te houden bij het opstellen van een voorspelling.
Waarmee houdt de toegevoegde waarde van de test verband?
De vraag naar de toegevoegde waarde van de test kan niet los worden gezien van de vraag naar de waarde van de doelstelling van de beslissing die in een bepaalde context totstandkomt.
Welke externe factoren zijn van belang bij testgebruik?
- Persoonlijkheidseigenschappen
- Leefomstandigheden van de onderzochte persooN
- Eisen van de werkgever
- Aantal beschikbare sollicitanten