F7: Studier af diagnostisk akkuratesse Flashcards
F7 - Kunne give eksempler på forskellige diagnostiske tests i klinisk praksis og deres fordele og ulemper i forhold til akkuratesse, praktiske anvendelighed, økonomi, skadevirkninger, og tid til testsvar.
Ved valg af diagnostisk test overvejer man altid balancen mellem:
Nøjagtighed og konsekvensen af fejldiagnose
Omkostning og tilgængelighed
Patientkomfort og skader
Tidsfaktor – haster det?
Hurtigtest for streptokokker
- Hurtigt svar (<10 min)
- Kan vejlede antibiotikabehandling
Ulemper
- Falsk negativ i tidligt forløb
- Begrænset sensitivitet
CRP (C-reaktivt protein)
- Hurtig (point-of-care)
- Billig
- Anvendes bredt i praksis
Ulemper
- Ikke specifik for infektionstype
- Kan være falsk normal tidligt i forløb
Selvtest (nævnt til forelæsning)
✅ Fordele ved selvtest:
Tilgængelighed: Bruges hjemme – ingen transport eller ventetid.
Tidsbesparende: Hurtige svar.
Privatliv: Især vigtigt ved følsomme emner som HIV.
Empowerment: Øger patientens egen kontrol og involvering.
Aflastning af sundhedssystemet ved simple screeningsbehov.
⚠️ Ulemper og udfordringer:
Akkuratesse: Lavere sensitivitet/specifikitet end laboratorietests (fx COVID)
Forkert tolkning: Risiko for misforståelse af resultat (falsk tryghed eller panik)
Manglende opfølgning: Folk søger måske ikke læge ved positivt resultat
Praktisk udførelse: Fejl i prøveudtagning kan give ugyldigt resultat
Etisk/psykologisk: Bekymring eller angst uden professionel støtte
Selvtest er gode som første skridt i diagnostik eller monitorering, især for simple, lav-risiko situationer. Men de skal ofte følges op med professionel vurdering, og man skal kende testens begrænsninger.
Restriktiv brug af tests er vigtig: (Fra forelæsning)
- Ressourcehensyn (penge, klinikertid, bæredygtighed)
- Defensiv medicin
- Hensyn til patienten
- Kaskader af tests og bekymring
F7 - Kunne definere og beregne sensitivitet og specificitet.
🔍 Definitioner:
Sensitivitet = sandsynligheden for, at testen er positiv, når patienten har sygdommen
→ “Hvor god er testen til at fange syge?”
Specificitet = sandsynligheden for, at testen er negativ, når patienten ikke har sygdommen
→ “Hvor god er testen til at udelukke raske?”
A (sandt positiv) B (falsk positiv)
C (falsk negativ) D (sandt negativ)
A = Positiv test og JA til sygdom
B= Positiv test og NEJ til sygdom
C= Negativ test og JA til sygdom
D = Negativ test og NEJ til sygdom
Beregning
Sensitivitet = A / (A + C)
Specificitet = D / (B + D)
F7 - Kunne definere og beregne positive og negative prædiktive værdier.
🔍 Definitioner:
PPV (Positiv prædiktiv værdi) = Sandsynligheden for, at en person har sygdommen, når testen er positiv
→ “Hvor pålidelig er et positivt testsvar?”
NPV (Negativ prædiktiv værdi) = Sandsynligheden for, at en person ikke har sygdommen, når testen er negativ
→ “Hvor pålidelig er et negativt testsvar?”
Ud fra en 2 x 2 tabel c
PPV = A / (A + B)
NPV = D / (C + D)
F7 - Kunne redegøre for prævalensens betydning for prædiktive værdier og brug af tests i forskellig kontekst (hospital overfor almen praksis).
OBS: PPV og NPV afhænger af prævalensen! modsat sensitivitet og specificitet, som er uafhængige af prævalens.
Høj prævalens → høj PPV, lav NPV
Lav prævalens → lav PPV, høj NPV
📌 Eksempel:
Test for sygdom Y:
80 med sygdom → 72 tester positivt → A = 72
20 uden sygdom → 5 tester positivt → B = 5
PPV = 72 / (72 + 5) = 72 / 77 ≈ 93.5%
Hvis 15 af de 20 uden sygdom tester negativt → D = 15, C = 8
NPV = 15 / (8 + 15) = 15 / 23 ≈ 65.2%
📈 Høj prævalens (f.eks. på hospital):
PPV stiger → et positivt testsvar er mere sandsynligt korrekt
NPV falder → et negativt testsvar er mindre sikkert
🔎 Eksempel: Hvis mange patienter på en infektionsmedicinsk afdeling har influenza, er et positivt testsvar mere sandsynligt rigtigt.
📉 Lav prævalens (f.eks. i almen praksis):
PPV falder → større risiko for falsk positiv
NPV stiger → negativt testsvar er mere troværdigt
🔎 Eksempel: Ved screening i almen praksis for sjælden sygdom → mange falsk positive → lav PPV
🧠 Huskeregel:
“Jo flere syge i populationen → jo mere giver et positivt testsvar mening”
F7 - Kunne beskrive likelihood ratios.
Likelihood ratio (LR) er en måling af testens værdi i forhold til sandsynligheden for, at en person har eller ikke har sygdommen, givet et positivt eller negativt testsvar. Det giver en idé om, hvordan testen ændrer sandsynligheden for sygdom, og kan hjælpe med at vurdere testens præstation.
📈 To typer af likelihood ratios:
Positive likelihood ratio (LR+):
LR+ = Sensitivitet / (1 - Specificitet)
Bruges til at vurdere, hvor meget sandsynligheden for sygdom øges, når testen er positiv.
Høj LR+ betyder, at en positiv test meget sandsynligt indikerer sygdom.
🔎 Eksempel: En LR+ på 10 betyder, at en positiv test 10 gange mere sandsynligt indikerer sygdom.
Negative likelihood ratio (LR-):
LR- = (1 - Sensitivitet) / Specificitet
Bruges til at vurdere, hvor meget sandsynligheden for sygdom mindskes, når testen er negativ.
Lav LR- betyder, at en negativ test meget sandsynligt udelukker sygdom.
🔎 Eksempel: En LR- på 0,1 betyder, at en negativ test nedsætter sandsynligheden for sygdom til en tiendedel.
🧠 Huskeregel:
LR+ = Jo højere, jo bedre til at bekræfte sygdom.
LR- = Jo lavere, jo bedre til at udelukke sygdom.
📌 Hvordan bruges likelihood ratios?
LR+ > 10 og LR- < 0,1 giver stærk evidens for at enten bekræfte eller udelukke sygdom.
Ved LR+ > 1 og LR- > 1 ændrer testen sandsynligheden for sygdom, men ikke nødvendigvis meget markant.
Noter nævnt:
Fagan’s nomogram
Bayersiansk tankegang -> Opdater sin viden, når man får ny information.
F7 - Kunne beskrive kombinationen af tests i serie/panel.
🔍 1. Serie (sekventiel) testning:
Hvordan det fungerer: Testene anvendes én efter én, hvor den første test bruges til at udlukke de fleste raske personer (negative resultater), og derefter anvendes næste test kun på dem, der har haft en positiv test.
Fordel: Højere sensitivitet. Da man bruger flere tests, er det mindre sandsynligt, at en sygdom bliver overset.
Ulempe: Nogle raske personer (falsk negative) kan blive “udlukket” i de tidlige tests, hvilket kan medføre, at nogle ikke får efterfølgende test, selvom de burde.
Eksempel: Først en hurtig screeningstest for en sygdom (f.eks. et hurtigt antigen-test for en infektion). Hvis testresultatet er positivt, følges det op med en mere præcis test (f.eks. PCR-test). Denne tilgang vil fange flere sande positive (høj sensitivitet), men kan måske føre til nogle falsk negative, der bliver udeladt i den første test.
Effekt på resultater:
Sensitivitet øges.
Specificitet kan falde, fordi den første test kan føre til en række falsk positive, som kræver efterfølgende tests.
🔍 2. Parallel (samlet) testning:
Hvordan det fungerer: Testene anvendes samtidigt, og hvis en af testene er positiv, tages resultatet som positivt. Denne tilgang benyttes typisk, når det er vigtigt ikke at overse nogen sygdom (hvis man ønsker at sikre sig, at ingen bliver overset).
Fordel: Højere specificitet og færre falsk negative.
Ulempe: Mindre sensitivitet, da én negativ test kan betyde, at personen er klassificeret som negativ.
Eksempel: Brug af flere tests for at diagnosticere en sygdom, hvor man samtidig udfører både en klinisk undersøgelse, en blodprøve og en billeddannelse, og alle skal vise samme resultat for at bekræfte diagnosen. Denne metode minimerer risikoen for at overse sygdommen, men kan føre til flere falsk positive resultater.
Effekt på resultater:
Specificitet øges, da kun personer med flere positive tests resultater vil blive diagnosticeret med sygdommen.
Sensitivitet kan falde, fordi én negativ test kan føre til, at en person ikke diagnosticeres, selvom de måske har sygdommen.
📈 Kombination af tests i serie vs. panel:
I serie: Øger sensitiviteten (fanger flere sande positive) men kan reducere specificiteten (flere falsk positive).
I panel: Øger specificiteten (færre falsk positive) men kan reducere sensitiviteten (flere falsk negative).
🧠 Huskeregel:
Serie: “Mindre risiko for at overse sygdommen, men flere kan blive udelukket, hvis de er raske.”
Panel: “Reducerer risikoen for falsk positiv, men kan overse nogle med sygdommen.”
F7 - Kunne beskrive en ROC-kurve.
En ROC-kurve (Receiver Operating Characteristic curve) er et grafisk værktøj, der bruges til at vurdere præstationen af en diagnostisk test ved at plotte forholdet mellem testens sensitivitet og falsk positiv rate (1 - specificitet) for forskellige tærskelværdier. ROC-kurven giver et overblik over, hvordan testens præstation ændrer sig, når man varierer tærskelværdien for at definere et positivt resultat.
🔍 Hvad viser en ROC-kurve?
X-akse: Falsk positiv rate (1 - specificitet), som viser andelen af raske personer, der fejlagtigt klassificeres som syge.
Y-akse: Sensitivitet, som viser andelen af syge personer, der korrekt identificeres som syge af testen.
For hver tærskelværdi, som du vælger for testen, beregnes sensitiviteten og den falske positiv rate, og disse punkter plottes på kurven.
📈 Hvordan tolkes en ROC-kurve?
Ideal kurve: Den ideelle test ville have en ROC-kurve, der starter i øverste venstre hjørne, hvilket betyder 100% sensitivitet og 0% falsk positiv rate (høj sensitivitet og høj specificitet).
Diagonal linje: En tilfældig test uden diagnostisk evne vil have en ROC-kurve, der ligger langs den diagonale linje fra nederste venstre til øverste højre hjørne. Det betyder, at testen ikke er bedre end tilfældig gætning.
AUC (Area Under the Curve): Et centralt mål for en test’s præstation. AUC værdien varierer fra 0 til 1:
AUC = 1: Testen har perfekt præcision (ingen fejl).
AUC = 0.5: Testen er ikke bedre end tilfældig gætning.
AUC > 0.7 betragtes generelt som en god test.
F7 - Kunne beskrive indekstest og referencestandard.
- Indekstest:
Definition: En indekstest er den test, der evalueres i et studie for at vurdere dens evne til at diagnosticere en sygdom eller tilstand. Den kaldes også den index test eller den primære test.
Formål: Hensigten er at se, hvordan denne test præsterer i forhold til en mere pålidelig eller accepteret test (referencestandard). Indekstesten bruges til at identificere personer med en sygdom eller tilstand baseret på et positivt eller negativt resultat.
Eksempler:
Et hurtigt antigen-test for COVID-19 (indekstest) sammenlignet med en PCR-test (referencestandard). - Referencestandard:
Definition: En referencestandard (eller gold standard) er den mest pålidelige og præcise metode, der anvendes til at bestemme den korrekte diagnose i et studie. Det er den test, som indekstesten sammenlignes med for at vurdere dens præstation.
Formål: Formålet med referencestandarden er at give en objektiv vurdering af, om en person virkelig har sygdommen eller tilstanden, som indekstesten forsøger at identificere.
Eksempler:
PCR-test for COVID-19 som referencestandard, mens en hurtig antigen-test fungerer som indekstest.
Opsummering:
Indekstest: Den test, der undersøges i forhold til præstation.
Referencestandard: Den mest præcise og pålidelige test, som bruges som grundlag for at bedømme indekstestens præstation.
F7 - Kunne diskutere kilder til bias og generaliserbarhed i diagnostiske akkuratessestudier (herunder spectrum bias, fx ved anvendelse af værktøjet QUADAS-2).
- Spectrum Bias
Definition: Spectrum bias opstår, når der er en skævhed i udvalget af patienter, som testes i et diagnostisk studie, der ikke er repræsentativt for den bredere population, som testen er beregnet til at blive anvendt på i klinisk praksis. - Diagnostic Review Bias
Definition: Diagnostic review bias opstår, når den måde, hvorpå testen evalueres, er skæv, f.eks. hvis personer, der udfører referencetesten (den gyldne standard), er bevidste om indekstestens resultat. Dette kan føre til, at resultaterne af referencetesten kan være påvirket af testens udfald (f.eks. bekræftelsesbias).
QUADAS-2 Værktøjet:
QUADAS-2 er et værktøj, der er designet til atvurdere metodologisk kvalitetog vurdere risikoen for bias i diagnostiske studier.
Patientudvalg (Selection Bias):
Index Test (Diagnostic Review Bias):
Reference Test (Diagnostic Review Bias):
Flow og Timing (Information Bias):
F7 - Kunne redegøre for clinical prediction rules (fx Wells score) herunder deres anvendelse i samarbejdet med patienten.
Clinical Prediction Rules (CPRs) er værktøjer, der bruges til at estimere sandsynligheden for en bestemt diagnose eller klinisk udfald, baseret på kombinationer af kliniske fund, symptomer og evt. basale parakliniske tests. Et kendt eksempel er Wells score til vurdering af risiko for DVT (dyb venetrombose) eller lungeemboli.
🔹 Definition og formål:
CPRs er standardiserede scoringssystemer, der hjælper klinikeren med at:
Vurdere sandsynlighed for sygdom
Træffe beslutninger om videre udredning eller behandling
Strukturere klinisk ræsonnering
Forbedre kommunikation med patienten og mellem sundhedsprofessionelle
🔹 Anvendelse i klinikken
Triage: Hjælper med at vurdere, hvem der skal udredes mere intensivt.
Sparer ressourcer: Mindsker unødvendige tests og billeddiagnostik.
Beslutningsstøtte: Klinisk hjælpemiddel – erstatter ikke lægefaglig vurdering.
Samarbejde med patienten: Gør det nemmere at forklare patientens risiko og næste skridt (“din score peger på lav risiko, så vi starter med en blodprøve i stedet for scanning”).
🔹 Andre eksempler på CPRs:
Centor score – sandsynlighed for streptokoktonsillitis
CHA₂DS₂-VASc – risiko for stroke ved atrieflimren
CURB-65 – vurdering af sværhedsgrad ved pneumoni
Ottawa Ankle Rules – behov for røntgen ved ankelskade
F7 - Kort kunne beskrive rapporteringsretningslinjen STARD
🔹 Kort opsummering:
STARD sikrer, at læseren kan vurdere kvalitet og bias i et diagnostisk akkuratessestudie.
Indeholder en tjekliste med 30 punkter, bl.a. om:
Indekstest og referencestandard
Patientudvælgelse og inklusionskriterier
Blinding
Hvordan testresultater blev tolket og analyseret
Rapportering af sensitivitet, specificitet, LR, ROC-kurve
🔹 Formål:
Forbedre reproducerbarhed og kvalitet
Lettere at vurdere intern og ekstern validitet
Gør det muligt at sammenligne resultater på tværs af studier
👉 Bruges især i kliniske forskningsartikler, hvor man afprøver nye diagnostiske tests.