VetU T6: kvalitetsgranskning av artiklar Flashcards
Vad är sant och falskt positiva o negativa resultat? Typ I och typ II-fel? Vad brukar betecknas med α och β?
Vad menas med “power”?
The power or sensitivity of a binary hypothesis test is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true. It can be equivalently thought of as the probability of accepting the alternative hypothesis (H1) when it is true – that is, the ability of a test to detect an effect, if the effect actually exists. That is,
Power = P(reject H0 ⎮H1 is true)
The power of a test sometimes, less formally, refers to the probability of rejecting the null when it is not correct. Though this is not the formal definition stated above. The power is in general a function of the possible distributions, often determined by a parameter, under the alternative hypothesis. As the power increases, there are decreasing chances of a Type II error (false negative), which are also referred to as the false negative rate (β) since the power is equal to 1−β, again, under the alternative hypothesis. A similar concept is Type I error, also referred to as the “false positive rate” or the level of a test under the null hypothesis.
Power analysis can be used to calculate the minimum sample size required so that one can be reasonably likely to detect an effect of a given size. Power analysis can also be used to calculate the minimum effect size that is likely to be detected in a study using a given sample size. In addition, the concept of power is used to make comparisons between different statistical testing procedures: for example, between a parametric and a nonparametric test of the same hypothesis.
Null and Alternative Hypothesis
Generally to understand some characteristic of the general population we take a random sample and study the corresponding property of the sample. We then determine whether any conclusions we reach about the sample are representative of the population.
This is done by choosing an estimator function for the characteristic (of the population) we want to study and then applying this function to the sample to obtain an estimate. By using the appropriate statistical test we then determine whether this estimate is based solely on chance.
The hypothesis that the estimate is based solely on chance is called the null hypothesis. Thus, the null hypothesis is true if the observed data (in the sample) do not differ from what would be expected on the basis of chance alone. The complement of the null hypothesis is called the alternative hypothesis.
The null hypothesis is typically abbreviated as H0 and the alternative hypothesis as H1. Since the two are complementary (i.e. H0 is true if and only if H1 is false), it is sufficient to define the null hypothesis.
Since our sample usually only contains a subset of the data in the population, we cannot be absolutely certain as to whether the null hypothesis is true or not. We can merely gather information (via statistical tests) to determine whether it is likely or not. We therefore speak about rejecting or not rejecting (aka retaining) the null hypothesis on the basis of some test, but not of accepting the null hypothesis or the alternative hypothesis. Often in an experiment we are actually testing the validity of the alternative hypothesis by testing whether to reject the null hypothesis.
When performing such tests, there is some chance that we will reach the wrong conclusion. There are two types of errors:
Type I – H0 is rejected even though it is true (false positive)
Type II – H0 is not rejected even though it is false (false negative)
The acceptable level of a Type I error is designated by alpha (α), while the acceptable level of a Type II error is designated beta (β).
We use the following terminology:
Significance level is the acceptable level of type I error, denoted α. Typically, a significance level of α = .05 is used (although sometimes other levels such as α = .01 may be employed). This means that we are willing to tolerate up to 5% of type I errors, i.e. we are willing to accept the fact that in 1 out of every 20 samples we reject the null hypothesis even though it is true.
P-value (the probability value) is the value p of the statistic used to test the null hypothesis. If p
Critical region is the part of the sample space that corresponds to the rejection of the null hypothesis, i.e. the set of possible values of the test statistic which are better explained by the alternative hypothesis. The significance level is the probability that the test statistic will fall within the critical region when the null hypothesis is assumed.
Usually the critical region is depicted as a region under a curve for continuous distributions (or a portion of a bar chart for discrete distributions).
The typical approach for testing a null hypothesis is to select a statistic based on a sample of fixed size, calculate the value of the statistic for the sample and then reject the null hypothesis if and only if the statistic falls in the critical region.
One-tailed hypothesis testing specifies a direction of the statistical test. For example to test whether cloud seeding increases the average annual rainfall in an area which usually has an average annual rainfall of 20 cm, we define the null and alternative hypotheses as follows, where represents the average rainfall after cloud seeding.
H0: µ ≤ 20 (i.e. average rainfall does not increase after cloud seeding)
H1: µ > 20 (i.e. average rainfall increases after cloud seeding
Here the experimenters are quite sure that the cloud seeding will not significantly reduce rainfall, and so a one-tailed test is used where the critical region is as in the shaded area in Figure 1. The null hypothesis is rejected only if the test statistic falls in the critical region, i.e. the test statistic has a value larger than the critical value.
Figure 1 – Critical region is the right tail
The critical value here is the right (or upper) tail. It is quite possible to have one sided tests where the critical value is the left (or lower) tail. For example, suppose the cloud seeding is expected to decrease rainfall. Then the null hypothesis could be as follows:
H0: µ ≥ 20 (i.e. average rainfall does not decrease after cloud seeding)
H1: µ
Figure 2 – Critical region is the left tail
Two-tailed hypothesis testing doesn’t specify a direction of the test. For the cloud seeding example, it is more common to use a two-tailed test. Here the null and alternative hypotheses are as follows.
H0: µ = 20
H1: µ ≠ 20
The reasons for using a two-tailed test is that even though the experimenters expect cloud seeding to increase rainfall, it is possible that the reverse occurs and, in fact, a significant decrease in rainfall results. To take care of this possibility, a two tailed test is used with the critical region consisting of both the upper and lower tails.
Figure 3 – Two-tailed hypothesis testing
In this case we reject the null hypothesis if the test statistic falls in either side of the critical region. To achieve a significance level of α, the critical region in each tail must have size α/2.
Statistical power is 1 – β. Thus power is the probability that you find an effect when one exists, i.e. the probability of correctly rejecting a false null hypothesis. While a significance level for type I error of α = .05 is typically used, generally the target for β is .20 or .10, and so .80 or .90 is used as the target value for power.
The general procedure for null hypothesis testing is as follows:
State the null and alternative hypotheses
Specify α and the sample size
Select an appropriate statistical test
Collect data (note that the previous steps should be done prior to collecting data)
Compute the test statistic based on the sample data
Determine the p-value associated with the statistic
Decide whether to reject the null hypothesis by comparing the p-value to α (i.e. reject the null hypothesis if p
Report your results, including effect sizes (as described in Effect Size)
Observation: Suppose we perform a statistical test of the null hypothesis with α = .05 and obtain a p-value of p = .04, thereby rejecting the null hypothesis. This does not mean that there is a 4% probability of the null hypothesis being true, i.e. P(H0) =.04. What we have shown instead is that assuming the null hypothesis is true, the conditional probability that the sample data exhibits the obtained test statistic is 0.04; i.e. P(D|H0) =.04 where D = the event that the sample data exhibits the observed test statistic.
Statistical Power and Sample Size
As described in Null Hypothesis Testing above, beta (β) is the acceptable level of type II error, i.e. the probability that the null hypothesis is not rejected even though it is false and power is 1 – β. We now show how to estimate the power of test.
Example 1: Suppose bolts are being manufactured using a process so that it is known that the length of the bolts follows a normal distribution with standard deviation 12 mm. The manufacturer wants to check that the mean length of their bolts is 60 mm, and so takes a sample of 110 bolts and uses a one tail test with α = .05 (i.e. H0: µ ≤ 60). What is the probability of a type II error if the actual mean length is 62.5?
Since n = 110 and σ = 12, the standard error = = 1.144. Let x = the length of the bolt. The null hypothesis is rejected provided the sample mean is greater than the critical value of x, which is NORMINV(1 – α, μ, s.e.) = NORMINV(.95, 60, 1.144) = 61.88.
Now suppose that the actual mean is 62.5. The situation is illustrated in Figure 8.8, where the curve on the left represents the normal curve being tested with mean μ0 = 60 and the normal curve on the right represents the real distribution with mean μ1 = 62.5.
PM om tolkning av konfidensintervall
Säg att man i en studie vill uppskatta risken för att få lungcancer om man röker, jämfört med att man inte röker. Vi utgår ifrån att studien finner att rökning ökar risken för lungcancer med 10 gånger, jämfört med icke-rökare. Den relativa risken (RR) bland rökare är då 10.
Troligen har dock studien inte inkluderat alla rökare i hela världen, jämfört med alla icke-rökare i hela världen. Sådana studier brukar sällan vara möjliga. Istället har studien med största sannolikhet dragit ett stickprov från befolkningen, snarare än att studera hela befolkningen. Alltså har studien uppskattat (estimerat) risken för lungcancer bland rökare, snarare än att ha beräknat (kalkylerat) den.
Så fort vi uppskattar, även kallat skattar, en effekt behöver vi ta hänsyn till att slumpen kan ha spelat in när vi drog vårt stickprov ur den ursprungliga befolkningen. Hade vi dragit ett annat stickprov hade kanske RR för lungcancer bland rökare i stickprovet råkat bli något annorlunda, exempelvis 8 eller 11, jämfört med icke-rökarna i stickprovet.
Detta inför ett mått av osäkerhet i resultatet. Oftast betecknas osäkerheten i resultatet i vetenskapliga studier med ett så kallat konfidensintervall (KI). KI:t beskriver vilket intervall det är sannolikt att det verkliga svaret på befolkningsnivå ligger inom, och ger oss en känsla för vilken spridning av resultat vi kunde fått, om vi utfört ett stort antal studier på samma fråga men med olika stickprov.
Oftast vill man visa ett 95-procentigt konfidensintervall. Detta har mest att göra med konvention, alltså överenskommelse eller ”gammal vana”. Ett 95-procentigt KI innebär att om studien skulle utföras med 100 olika stickprov från samma population, skulle det ”sanna” värdet rymmas inom KI:t i 95 fall av 100.
Anledningen till att man föredrar ett 95%-igt KI är att detta reflekterar ett p-värde på mindre än 0,05. P-värdet i sin tur är sannolikheten att resultatet i studien kan ha uppstått bara pga slumpen, så man vill alltså ha låga värden (alltså låg risk för slumpeffekt) för att tro på att ens resultat är sanna. Annars, om p-värdet är högre än 0,05 (alltså högre än 5%) anser man typiskt sett att det är för hög risk att slumpen spelat in.
KI:t beräknas med hjälp av statistiska program, och det behöver man inte kunna göra i huvudet. Beräkningen tar hänsyn till värdet på RR som hittades i studien, vilket så kallat standardfel som förekom i beräkningen, och hur många individer som ingick i studien. (Sen tar den även hänsyn till hur brett konfidensintervall vi vill ha, alltså oftast 95%-igt, men ibland kan man exvis använda 99%-igt istället.)
Så; säg att vi gjort tre studier på lungcancer bland rökare, som kommer fram till följande:
1) RR = 10 (95% KI 8-11, p <0,0001)
Tolkning: vår studie har visat på en tio gånger högre risk bland rökare. KI:t visar på att det sanna befolkningsvärdet för risken i 95 studier av 100 skulle ligga inom intervallet RR = 8 till 11. Alltså verkar vår skattning ligga ”bra till”. Mycket riktigt är p-värdet lågt, alltså är chansen/risken att vi råkat få RR = 10 bara pga slump väldigt låg. Budskap här: lita på resultatet!
2) RR = 10 (95% KI 0,5-25, p=0,3)
Tolkning: vår studie har visat på en tio gånger högre risk bland rökare. Men KI:t visar på att det sanna befolkningsvärdet för risken kan vara så lågt som 0,5 (alltså 50% lägre bland rökare) till 25 (alltså 25 gånger högre). Vi verkar ha dålig precision i vår skattning och är lite osäkra på vad resultatet egentligen innebär. Detta visar sig också i p-värdet, som visar att risken för att resultatet på en tio gånger högre RR uppkom bara av slump är åtminstone 0,3, alltså 30%. Ibland kan man se detta problem (storlek på RR som klart avviker från 1,0 men mycket brett KI) när man har för få studiedeltagare. Budskap här: gör en studie med större stickprov innan du litar på resultatet!
3) RR = 1 (95% KI 0,9-1,2, p=0,9)
Tolkning*: vår studie har visat på att RR = 1, dvs att risken för lungcancer bland rökare och icke- rökare är samma. KI:t visar på att det sanna befolkningsvärdet för risken i 95 stickprov av 100 skulle ligga inom intervallet RR = 0,9 - 1,2. Alltså verkar vår skattning ligga ”bra till”. (P-värdet tittar vi inte på så mycket här eftersom det mer har att göra med situationer när man ser höjda/sänkta risker. I denna situation innebär dock p=0,9 ungefär att det är väldigt sannolikt att studiens resultat stämmer överens med den s.k. nollhypotesen, att ingen skillnad finns mellan grupperna.) Budskap här*: lita på resultatet, att ingen förhöjd risk föreligger.
*OBS!! Jag kan förstås inte se att vi skulle kunna få detta tredje resultat för just rökning och lungcancer, men jag inkluderar det för helhetens skull :)
En sak till:
Vi brukar ju alltid påpeka att en relativ risk = 1,0 innebär att risken i två grupper är densamma, relativt sett. Så innefattar det 95%-iga konfidensintervallet 1,0 för en risk, så är skillnaden i risk mellan två grupper inte signifikant, eftersom kvoten är 1,0.
Men kom ihåg att man även kan beräkna konfidensintervall för differenser i värden, såsom t.ex. medellivslängd. Säg att behandlingsgruppen i en studie i snitt överlever i 5 år, och att de i placebogruppen i snitt överlever i 3 år. Skillnaden mellan grupperna är då alltså i snitt 2 år. En studie på effekten skulle kunna ge
Överlevnadsskillnad = 2 år (95% KI 0,5-3,5 år, p=0,01)
Skillnaden i överlevnad är statistiskt signifikant, även om det kan röra sig om allt från ett halvår till 3,5 år längre överlevnad. Notera att här, i studien av absoluta skillnader, är alltså poängen att vi inte vill att KI:t ska innehålla 0 (vi talar ju här om en differens, inte en kvot!).
Generella frågor att ställa sig om vetenskapliga originalartiklar
Studiedesigner (4 st)
Randomiserade kontrollerade prövningar
* Vilka aspekter är viktiga för kvaliteten enligt utdelad lathund?
Generellt
- vilken population avser studien?
- vilken “exponering” (behandling) vill man undersöka?
- vilka alternativ jämförs?
- vilka utfall vill man studera (huvudutfall, alternativa utfall)?
Studiedesign (från “bäst” till “sämst”, i princip - designhierarki)
- Randomiserade kontrollerade prövningar (är experimentella)
- Observationella kohortstudier
- Fall-kontroll-studier
- Fallserier, fallrapporter
(2 - 4 är observationella)
Vattendelare i hierarkin:
- mellan 3 och 4: 1 - 3 har alltid en jämförelsebetingelse –> möjligt se kovarians
- mellan 1 och 2: 1 tillåter slumpvis allokering av deltagare –> confounders blir slumpvis lika fördelade mellan grupperna och deras effekt tar ut varandra o elimineras –> möjligt dra slutsatser om effekter.
Kvalitetsaspekter på randomiserade kontrollerade prövningar
Bedömning av:
- Extern validitet
- Intern validitet
- Statistiskt underlag/precision
Validitet =mäter studien det som är tänkt?
Extern validitet = kan resultaten generaliseras till andra än fp? –> frågor om rekryteringen av fp, är fp representativa; är utfallet rimligt o relevant för frågeställningen?
- inklusionskriterierna och exklusionskriterierna tydliga o ok?
- rekrytering konsekutiv?
- redovisat flöde av fp?
- omfattning av icke-deltagande?
- exklusion före randomisering? (bra)
- är def av utfallsmåttet tydligt o kliniskt relevant?
Intern validitet = i vilken grad är observerade effekter verkliga eller störda av systematiska fel (biased)
Tilldelning av intervention/behandling
- är randomiseringen beskriven?
- kunde randomiseringen manipuleras?
Gruppernas jämförbarhet
- redogörs för jämförbarhet map kända faktorer som kan påverka?
- fanns det obalanser i baslinjedata?
Blindning (maskering)
- nej-enkel-dubbel-trippelblind?
- Compliance - finns det redogörelse för den?
Bortfall (# deltagare som ej följts upp enl studieprotokollet)
- Redogörs det för bortfall och orsaker till det?
- Hur stor är risken att bortfallet kan ha snedvridit utfallet?
Bedömning av biverkningar
- Vidtogs åtgärder för att samla in info om o registrera biverkningar?
Analys av resultatet
- Var det primära utfallsmåttet (variabel o mätmetod) definierat i artikeln?
- Baserades studiens slutsatser på utfallsmåttet?
- Fanns det en förhandshypotes?
- Var sekundära utfallsmått definierade i artikeln? (sekundära utfallsmått kan vara värdefulla för att utforska resultaten och formulera hypoteser för kommande studier)
- inkluderades data från alla randomiserade deltagare i analysen (i den grupp de från början allokerats till)? (ITT = intention to treat-analys - annars finns risk för selektionsbias eller confounding)
Statistiskt underlag/precision
Minsta kliniskt relevanta effekt - var den förhandsdefinierad och av rimlig storlek? (baklänges power-beräkning)
Undersökningens statistiska styrka
- Är övervägandena för val av sample size redovisade?
- Hur stor var “power” att påvisa den minsta kliniskt relevanta effekten? (70-80-90%?)
NOLLFÖRDELNINGEN
Definiera:
- nollhypotesen
- typ I-fel
- α
- kritiskt värde
- p-värde(utfall)
- Vad är vanligt värde på α?
- Vad är p-värdet(kritiska värdet)?
DEN ALTERNATIVA FÖRDELNINGEN
Vilka två hypoteser testar man mellan vid hypotesprövning?
Definiera:
- typ II-fel
- β
- Vad är centralt vid utvärdering av teststatistikor?
Definiera:
- Powerfunktionen
- Vad är en viktig poäng med powerfunktionen?
- Hur förhåller sig powerfunktionen till β?
- Hur ska man fundera vid val av teststatistika beträffande power om man fokuserar på låga typ I-fel resp typ II-fel?
- I vilka två delar delas den alternativa fördelningen upp?
- Till vilken resp fördelning hör kritiskt värde, α, power, β?
NOLLFÖRDELNINGEN
Nollhypotesen: en viss storhet antas vara (t ex) normalfördelad med (μ,σ) - när man mäter den borde mätvärdena tillhöra fördelningen.
Typ I-fel := att förkasta nollhypotesen H0 när den är sann
α := beslutad såsom acceptabel sannolikhet att ett typ I-fel ska inträffa
Kritiskt värde := det värde bortom vilket (de värden bortom vilka) arean under H0-kurvan = α (sannolikheten för en händelse med ett värde minst lika extremt som det kritiska värdet, givet H0, är α)
p-värde(utfall) := slh för detta utfall eller ännu mer extrema utfall under H0 (arean utanför utfallet under H0)
Oftast är α := 0,05, vilket i ett 2-tail test ger 2 svansar med 2,5% av kurvan vardera.
p-värdet (kritiska värdet) = α
DEN ALTERNATIVA FÖRDELNINGEN
Vid hypotesprövning vill man testa mellan två ömsesidigt uteslutande hypoteser: nollhypotesen H0 och den alternativa hypotesen H1.
Om den parameter man intresserar sig för är θ, och parameterrummet är Θ, så bildar H0 och H1 en partition av Θ:
H0 ∈ Θ0 ⊂ Θ
H1 ∈ Θ0c (komplementet till Θ0 i Θ)
Typ II-fel = att acceptera H0 när den är falsk
β := slh för typ II-fel
Vid utvärdering av egenskaper hos test är det riskerna för typ I- och typ II-fel centrala. Power-funktionen sammanfattar båda typerna av fel.
Def: Powerfunktionen för ett hypotestest med en rejektionsregion (= kritiskt område) R är en funktion av θ = P(teststatistikan Tn ∈ R⎮θ) = slh att förkasta H0 när den är falsk
- Om H0 är att θ = θ0, så blir Powerfunktionen = slh(typ I-fel)
- 1 - powerfunktionen = β = slh (typ II-fel)
- Power = 1 - β
- Om man fokuserar på lågt α (typ I-fel), välj test som ger låg powerfunktion
- Om man fokuserar på lågt β (typ II-fel), välj test där den alternativa hypotesen postulerar värden på θ som ger Power nära 1. Ett sådant test sägs äga “bra power” mot sådana alternativa värden på θ.
Notera gärna att …
- den alternativa fördelningen är uppdelad på två delar: power + β. Power + β = 1.
- Power och β hör till den alternativa fördelningen, men de beror på det kritiska värdet, vilket hör till nollfördelningen. Det kritiska värdet (som hör ihop med α) är också den punkt som delar upp den alternativa fördelningen i β och power.
*******
Något motsägelsefullt kanske från sajten
http://moon.ouhsc.edu/dthompso/CDM/power/hypoth.htm och en frågesida:
Den alternativa hypotesen H1 är något man väljer. Βeta kan beräknas om man antar att H1 ∈ N(m,s). Beta och power hos ett test beror av den valda alternativa hypotesen. Power-kurvor används för att illustrera hur power beror av parametrarna i den alternativa hypotesen (H0, alfa, sample size, H1, beta, sigma, my). The rule for the proper formulation of a hypothesis test is that the alternative or research hypothesis is the statement that, if true, is strongly supported by the evidence furnished by the data.
Vad är en powerkurva?
Hur påverkar sampelstorleken ett tests power?
Diagnostiska tester
Vad innebär:
- Gold standard
- Sensitivitet och specificitet
- Cut-off
- Positivt och negativt prediktivt värde
BAKGRUND
Principerna för diagnostiska tester är desamma i kliniken som på labbet. Diagnostiska tester kan i kliniken användas t ex när man värderar betydelsen av huvudvärk, sveda vid vattenkastning eller dålig tillväxt av ett spädbarn.
Begrepp inom diagnostiska tester som tas upp och förklaras nedan är:
- Gold standard
- Sensitivitet och specificitet
- Cut-off
- Positivt och negativt prediktivt värde
Uppdelning av resultat
Resultaten av diagnostiska tester kan delas upp i två grupper, vilket innebär att man dikotomiserar resultaten, t ex provsvar kan tolkas som “lite - mycket” eller “frånvaro - förekomst” (“negativt - positivt”). Man kan också gradera resultat på annat sätt, t ex blåsljud kan graderas från svaga till distinkt tydliga (grad 1-6).
Exempel: Det nyfödda barnets tillstånd värderas enligt den så kallade Apgarskalan, där hjärtfrekvensen graderas från “ingen hjärtaktivitet” (0 poäng) till “mindre än 100 slag/minut” (1 poäng) och “100 eller fler slag/minut” (2 poäng).
Ofta vill vi klassificera data som positiva eller negativa. Inte sällan baserar sig riktlinjerna för behandling på dessa uppdelningar, t ex väljer många att behandla blodtryck över 140/90 men inte lägre blodtryck.
Testresultat kan antingen spegla verkligheten (“sanna”) eller missa målet (“falska”). Kunskap om ett tests tillförlitlighet är avgörande för att man ska kunna dra slutsatser av det. Testresultat delas vanligen upp i:
- sant positiva
- falskt positiva
- falskt negativa
- sant negativa
Tabell 1. Förhållandet mellan testresultat och sjukdom kan åskådliggöras med en tabell.
Har sjukdomen (sjuk) - Har inte sjukdomen (frisk)
Positivt test a. Sant positiv - b. Falskt positiv
Negativt test c. Falskt negativ - d. Sant negativ
GOLD STANDARD
För att kunna värdera hur bra ett test är, måste man ha en måttstock, dvs ett säkert sätt att veta om en patient verkligen har en sjukdom eller inte. En sådan måttstock kallas ofta gold standard (inte golden standard). En annan engelskspråkig benämning är “reference standard”.
- Ibland är gold standard ett enkelt test, t ex ett HIV-test. Är det positivt och kan bekräftas med ytterligare ett test har man HIV.
- Ibland är gold standard mer komplicerat, dyrt och till och med farligt, t ex lungbiopsi för att vara helt säker på att någon har lungcancer.
- Den kliniska bilden kan utgöra gold standard, t ex för sjukdomar som obönhörligen progredierar och leder till döden. Ett historiskt exempel är pankreascancer (innan ultraljud och CT kom som diagnostiska test). Det är viktigt att man har en rimlig uppföljningstid om man använder den kliniska bilden som gold standard. I fallet pankreascancer var överlevnaden så kort som 6 månader. Symtom som föregår död i pankreascancer med tiotalet år har inte med cancern att göra och kan då heller inte tjäna som gold standard.
I klinisk praxis använder vi ofta tester som inte är gold standard men som ändå anses acceptabla.
Exempel: EKG och enzymstegring används som tester vid hjärtinfarkt även om hjärtkateterisering och visualisering etc. kanske behövs för att vi ska vara mer än 99% säkra på diagnosen.
Här uppvägs en liten risk av att felaktigt ställa diagnosen hjärtinfarkt av att riskerna och de praktiska svårigheterna med akut kateterisering/visualisering kanske är stora.
Problem med utvärdering av tester
- Patienter med positiva testresultat inom medicin utreds ofta vidare och så småningom kan en diagnos bekräftas eller förkastas. Mindre ofta drivs utredningen vidare hos den som har negativa testresultat - i alla fall för det vi testat för.
- Exempel: En patient med låg D-dimer tros inte ha lungemboli och därför går vi inte vidare med ytterligare utredning för just lungemboli – att göra det hade av många ansetts oetiskt, och icke försvarbart ur ekonomisk synvinkel.*
- Ett problem när man ska utvärdera ett test är att testet ofta har testats hos patienter som redan har sjukdomen. Dessa patienter har kanske tydligare symtom och fler positiva tester än genomsnittspatienten? Känd sjukdom kan även påverka hur vi tolkar en undersökning.
Exempel: Skriver man som remitterande läkare att “patienten har förhöjd andningsfrekvens, CRP 200, hosta, feber, och krepitationer basalt bilateralt” gör enbart anamnesen att många röntgenläkaren blir mer benägna att skriva “infiltrat” i remissvaret.
- För vissa tillstånd saknas gold standard-tester. Det gäller t ex Crohns sjukdom eller SLE. Här har man försökt att sätta upp kriterier för diagnos. Men dessa kriterier är ofta utarbetade på basen av patienter som har “typiska symtom” och i och med att kriterier ställs upp förstärks kopplingen mellan vissa symtom och en sjukdom. En typ av cirkelargumentation.
- Nya tester har ofta en nackdel gentemot etablerade tester. Om ett nytt test hittar “nya fall” finns risken för att man avfärdar dessa som falskt-positiva, och om det nya testet avfärdar patienter som tidigare befunnits positiva så antar man att det nya testet har dålig känslighet. Men i själva verket kan det ju vara gold standard-testet som brister!
- *DIAGNOSTISKA BEGREPP**
- *Sensitivitet och specificitet**
- Sensitivitet är andelen sjuka som identifieras med ett test (positivt test - a/(a+c) i tabell 1).
- Specificitet är andelen friska som friskförklaras med ett test (negativt test - d/(b+d) i tabell 1).
I vissa sammanhang är sensitiviteten viktigast medan det i andra är av större betydelse att ha en hög specificitet.
Sensitivitet
När man inte får missa en sjukdom bör man välja ett test med hög sensitivitet. Det gäller t ex för sjukdomar som är livshotande men kan botas, exempelvis tuberkulos. Priset man betalar är att ett test som ska identifiera alla sjuka ofta får med en hel del friska samtidigt. Det innebär att man sällan kan avsluta utredningen när man funnit ett positivt testresultat, ofta behövs nu fler tester för att säkerställa att patienten verkligen har sjukdomen.
Specificitet
När vi vill vara helt säkra på ett en person verkligen lider av en sjukdom (t ex innan vi startar en livshotande behandling) är specificiteten det viktigaste. Även om cancermisstanken är stark är det få inom sjukvården som sätter in cytostatika innan man gjort en biopsi. Ett test med hög specificitet friskförklara den som är frisk.
Cut-off
Vilken sensitivitet respektive specificitet ett test har beror på var man sätter “cut-off”, alltså gränsen mellan positivt och negativt.
Antag att vi vill identifiera patienter med urinvägsinfektion:
- Med en låg cut-off (t ex “10 000 vita i urinen”) kommer vi att hitta alla sjuka och med den cut-offen har testet hög sensitivitet. Men samtidigt kommer vi att få med ett antal patienter som har 10 000 vita i urinen men faktiskt inte har urinvägsinfektion (låg specificitet = friska får falskt positivt testresultat).
- Med en hög cut-off (t ex “10 000 000 vita”) hittar vi inte alla sjuka (låg sensitivitet) men däremot kan vi vara säkra på att alla friska verkligen friskförklaras (negativt testresultat). Alltså har testet med den cut-offen hög specificitet.
I klinisk praxis kanske vi anger cut-off någonstans mittemellan (100 000 - 1 000 000 vita) men är öppna för att en del med positivt testresultat inte har urinvägsinfektion medan andra med värden under cut-off (negativt testresultat) faktiskt har sjukdomen.
Exempel bröstcancer
Exempel på beräkning av sensitivitet och specificitet enligt mammografidata från Australien på kvinnor utan symtom på bröstcancer.
Tabell 2. Bröstcancer och mammografi.
***** Har bröstcancer - Har inte bröstcancer
Positiv mammografi a. Sant positiv, n = 495 - b. Falskt positiv, n = 4906
Negativ mammografi c. Falskt negativ, n = 160 - d. Sant negativ, n = 90 859
- Sensitivitet - andelen av de sjuka som identifieras: a/(a+c) = 495/(495 + 160) = 75,6%
- Specificitet - andelen av de friska som friskförklaras: d/(b+d) = 90 859/(90 859 + 4 906) = 94,6%
Tittar vi på data så ser vi omedelbart att de flesta som är positiva enligt mammografi inte har bröstcancer.
Positivt prediktivt värde
När vi vill uttala oss om hur pass bra ett test är på att förutsäga sjukdom använder vi begreppet PPV = positivt prediktivt värde. Det är andelen av de som testats positivt som verkligen har en sjukdom.
I exemplet ovan är a/(a+b) = 495/(495+4906) = 9,2%. I denna studie hade alltså var elfte kvinna med positiv (patologisk) mammografi verkligen bröstcancer.
Negativt prediktivt värde
När vi vill uttala oss om hur pass bra ett test är på att förutsäga hälsa/att patienten är frisk använder vi begreppet NPV = negativt prediktivt värde. Det är andelen av dem som testats negativt som verkligen är friska.
I fallet ovan: d/(d+c) = 90859/(90859+160) = 99,8%. I denna studie var alltså mammografi bra på att utesluta sjukdom, att friskförklara. Men patienter med en avvikande mammografi behövde utredas vidare, mindre än 10% av dem hade verkligen bröstcancer.
Om vi vill kan vi öka mammografins sensitivitet. Då kommer flera av de 160 falskt-negativa (= sjuka) att hittas men det sker till priset av att flera som nu klassificeras som friska (negativt testresultat) istället får beskedet att de har en avvikande mammografi.
För att hitta en optimal cut-off måste man ta hänsyn till både hur farlig sjukdomen är (och om en hög sensitivitet eller specificitet är mest angelägen) men också hur vanlig en sjukdom är (“prevalensen”). Ofta används så kallade ROC-kurvor för att sätta en bra cut-off. ROC står för receiver-operator-characteristics.
Exempel celiaki
På samma sätt kan vi beräkna sensitivitet, specificitet, PPV och NPV för olika celiakitester:
Tabell 3. Celiaki och celiakitester.
Celiaki enligt tunntarmsbiopsi*(villusatrofi) - Har inte celiaki
Positiva transglutaminas-ak a. Sant positiv, n = 70 - b. Falskt positiv
n = 175
Negativa transglutaminas-ak c. Falskt negativ, n = 7 - d. Sant negativ
n = 1 748
*Gold standard
- Sensitivitet - andelen av de sjuka som identifieras med transglutaminas-ak: a/(a+c) = 70/(70+7) = 90,9%
- Specificitet - andelen av de friska som friskförklaras: d/(b+d) = 1748/(1748+175) = 90,9%
- Positivt prediktivt värde (PPV) - andel av de med positivt test som har celiaki: a/(a+b) = 70/(70+175) = 28,6%
- Negativt prediktivt värde (NPV) - andel av de med negativt test som är friska: d/(c+d) = 1748/(1748+7) = 99,6%
Slutsatsen är att transglutaminas-antikroppar i den här studien är mycket bra på att utesluta celiaki men att den som har positiva transglutaminasantikroppar bör gå vidare med tunntarmsbiopsi innan han/hon ställs på livslång glutenfri kost.
Faktorer som påverkar sensitivitet och specificitet
När ett nytt test utvärderas anges ofta högre sensitivitet och specificitet än vad som senare blir fallet i klinisk praxis. Det beror på flera saker. Man kan förvänta sig att ett nytt test ofta prövas på patienter
- som har en mer typisk sjukdom än genomsnittspatienten
- vars sjukdom har progredierat mer än hos genomsnittspatienten
Båda dessa faktorer ger oftast en högre sensitivitet och specificitet än man skulle ha fått i en grupp av genomsnittliga patienter.
Slutligen kan slumpen spela roll för uppmätt sensitivitet och specificitet. Pga så kallad publication bias får oftare artiklar som redovisar hög sensitivitet och specificitet publiceras (“bra” resultat är lättare att publicera i vetenskapliga tidskrifter).
Referenser
- Docent Jonas F. Ludvigssons personliga hemsida.
- Kavanagh AM, Giles GG, Mitchell H, et al. The sensitivity, specificity, and positive predictive value of screening mammography and symptomatic status. J Med Screen 2000;7:105-10.
- Hopper AD, Cross SS, Hurlstone DP, et al. Pre-endoscopy serological testing for coeliac disease: evaluation of a clinical decision tool. Bmj 2007;334:729.