Tenta 1 Flashcards
I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19
- Vad kallas grafen?
Box plot
I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19
- Hur stor andel av patienter med svår COVID-19 har värden över 100 AU/ml?
50%
I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19
- Vilket test bör användas för att jämföra nivåerna av antikroppar samt varför använder man just detta test och vilken formel används i detta test?
- Man använder tvåstickprovs T-test
- Mha detta test man vill se om genomsnitliga nivåerna av antikroppar hos patienter med mild coronavirus skiljer sig från patienter med allvarlig coronavirus. Här vill man veta om det är H0 eller Ha som är sant
- Formeln till detta test, kolla bilden.
- X<strong>ba</strong>r = medelvärdet av antikropernas nivåskillnaden
- n = antal antikroppar, dvs mängd
- S = standardavvikelse av skillnaderna
I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19
När man utförde testet fann man en skillnad i medelvärde, men dock ingen signikant skillnad (P=0.06). Då man ändå trodde starkt på att det fanns en skillnad planerades en ny studie med fler patienter i varje grupp vilket skulle ge en sannolikhet på 93% att detektera en lika stor skillnad med signikansnivå 0.05. Vad kallas den sannolikheten och när använder man den?
-
Styrka (power) och används på två sätt:
- Typ I error: Förkasta H0 när den är sant
- Typ II error: Behålla H0 när den är fel
I en 5-års uppföljning av 50-åriga män hade 11 av 123 med familjehistoria ( en första grads släkting med hypertoni) fått hypertoni, medan endast 8 av 286 utan familjehistoria hade utvecklat hypertoni.
- Beräkna oddskvoten för hypertoni om man har familje historia järmfört med om det saknas!
I en 5-års uppföljning av 50-åriga män hade 11 av 123 med familjehistoria ( en första grads släkting med hypertoni) fått hypertoni, medan endast 8 av 286 utan familjehistoria hade utvecklat hypertoni.
- Vilket test är lämpligt för att avgöra om det finns samband mellan familjehistoria och hypertoni samt vilken formel används vid denna test?
Chi2-test - när man har två stickprov och vill järmföra proportioner, t.ex. H1 kan vara observerad värde och H0 kan vara förväntad värde
Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.
- Undersök om förekomsten av borrelia och erlichia kan anses oberoende.
- Med beteckningar B för borrelia och E för Erlichia har vi P(B) · P(E) = 0.15 · 0.106 = 0.03 = P(B∩E). Dvs P(B) · P(E) måste vara lika med P(B∩E), men i detta falla så är det inte vilket betyder att de är ej oberoende
Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.
- Hur stor andel av fästingarna bär på minst en av bakterierna?
P(BUE) = P(B) + P(E) − P(B∩E) = 0.15 + 0.10 − 0.03 = 0.22 dvs 22%
Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.
- Vad är sannolikheten att en fästing bär på erlicjia om den bär på borrelia?
Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.
- Vad är sannolikheten att en fästing bär på båda bakterierna om den bär på minst en?
På en tentamen för läkarstudenter där max poängen var 100 poäng och gränsen för godkänt 60 underkändes 10 elever. På omtentan två veckor senare klarade sig dock 8 av studenterna. Professorn skrev lite spydigt på CANVAS att det gick ju bättre när ni väl öppnade boken. Han fick dock mothugg av en av eleverna som hävdade att de minsann hade läst förut också, men inte alls haft tid att läsa till om tentan då en ny tung kurs börjat direkt. Att de klarade sig bättre berodde nog bara slumpen. Professorn som inte tålde mot hugg gjorde då ett statistiskt test som visade att studenterna i genomsnitt ökat sina resultat med 6 poäng och det var minsann statistiskt signikant (P=0.007)!
- Vilket test bör professorn ha gjort?
Parat T-test - används för att ta reda på t.ex. om det finns signifikans förbättring av studernas kunskap före omtentan och efter omtentan
På en tentamen för läkarstudenter där max poängen var 100 poäng och gränsen för godkänt 60 underkändes 10 elever. På omtentan två veckor senare klarade sig dock 8 av studenterna. Professorn skrev lite spydigt på CANVAS att det gick ju bättre när ni väl öppnade boken. Han fick dock mothugg av en av eleverna som hävdade att de minsann hade läst förut också, men inte alls haft tid att läsa till om tentan då en ny tung kurs börjat direkt. Att de klarade sig bättre berodde nog bara slumpen. Professorn som inte tålde mot hugg gjorde då ett statistiskt test som visade att studenterna i genomsnitt ökat sina resultat med 6 poäng och det var minsann statistiskt signikant (P=0.007)!
- En av studenterna hade dock en snäll pappa som där utöver var statistiker. När hans dotter berättade om den dryge professorn förklarade han att visserligen kunde professorn ha delvis rätt, men att förbättringen nog främst berodde på “regression to the mean”. Förklara kortfattat begreppet. (Minns exemplet med de längdhoppande flickorna)
Det vad han menar är att studenterna som underkändes på första tentan fick bättre resultat på omtentan av en slump. Det är naturens lag, dvs om man upprepar provet flera gånger kommer studenterna med bra resultat få sämre resultat nästa gång, dvs de närmar sig till mitten och sudenerna med sämmre resultat kommer att få bättre resultat i omtentamen, dvs närmar sig till mitten.
I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.
- Ange ett 95% konfidensintervall för medelvärdet
I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.
- Vad är standardavvikelsen för ämnet?
I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.
- Ange ett 90% referensintervall för ämnet!
I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.
- Vilket test bör vi använda om vi vill testa ifall medelvärdet skiljer sig från 312 som är medelvärdet för jämnåriga japanska kvinnor samt vilket formel använder man i detta test?
- Uför det testet med signifikansnivå 0.05 (Ledning: utnytja ngn av dina tidigare uträckningar)!
-
Ettsticksprov T-test - man vill testa om medelvärdet av en grupp för ett ämne skiljer sig från medelvärdet från en annan grupp för samma ämne
- µ = medelvärdet för japanska kvinnor
- Xbar = medelvärde för tyska kvinnor
- S = standardfellet
- n = antal kvinnor
- Man ska använda dualiteten mellan test och konfidensintervall, dvs H0: µ = µ0 **mot **H1: µ ej lika med µ0. I detta fall 312 ligger utanför 95% intervallet (316, 324), så det är signifikant på nivå 0.05
En forskargrupp undersökte nivåer av GFAp (en skademarkör) hos COVID-19 patienter. Man ville jämföra fyra grupper, de med milda, måttliga och alvarliga symptom och en frisk kontrollgrupp. Först gjorde man en analys där man testade om det överhuvudtaget var några skillnader mellan grupperna.
- Vad kallas analysen som utförs med ett F-test?
ANOVA
En forskargrupp undersökte nivåer av GFAp (en skademarkör) hos COVID-19 patienter. Man ville jämföra fyra grupper, de med milda, måttliga och alvarliga symptom och en frisk kontrollgrupp. Först gjorde man en analys där man testade om det överhuvudtaget var några skillnader mellan grupperna.
- Man jämförde grupperna parvis med ett Tukey-test. Hur många parvisa järförelser blev det?
- Med Tkey-test se bilden.
- Man kan också jämföra på följande sätt:
- X1 -X2;
- X1 -X3;
- X1 -X4;
- X2 -X3;
- X2 -X4;
- X3-X4;
En forskargrupp undersökte nivåer av GFAp (en skademarkör) hos COVID-19 patienter. Man ville jämföra fyra grupper, de med milda, måttliga och alvarliga symptom och en frisk kontrollgrupp. Först gjorde man en analys där man testade om det överhuvudtaget var några skillnader mellan grupperna.
- Grupperna kan betraktas som en kategorisk variabel. Denna kategoriska variabel är av en viss typ som gör att det kanske vore bättre att man kan överväga en annan analys än ANOVA och Tukey. Vad kallas denna speciella typ av kategorisk variabel?
Ordinal data
- Om de kategoriska variablerna är ordinaldata kan man gärna indikera det med hjälp av färgskalor och/eller position.
I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.
- Vad kallas analysen samt vilket formel använder man?
- I den här analysen tänker man sig ett underliggande linjärt samband mellan X och Y, men att Y också påverkas av andra saker, vilket förklarar avvikelserna från linjen. Vilken fördelning antar man att dessa avvikelser har?
- Linjär regression. Man använder: ŷ = ß0 + ß1 • x => ŷ = 0.584 + 0.144 • x
- Nomralfördelning
I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.
- Vad var p-värdet för test av lutningen?
- p = 0.0002 vilket är p < 0.05
- Sig. = p-värdet
I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.
- Vad är NFL koncentrationen (ologgat) när viruskoncentrationen ologgat är 10 000?
- logNFL
- = 0.584 + 0.144logViralLoad
- = 0.584 + 0.144log(10 000) = 0.584 +0.144 • 4 = 1.16
- NFL = 10logNFL = 101.16 ≈ 14.5
I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.
- Förklaringsgraden var 26.4%. Vad var korrelationen?
I figur 3 illustreras hur länge leukemi patienter klarar sig utan återfall. Patienterna är uppdelade i två grupper: Över 60 och under 60. Ett logranktest ger att de som är äldre återfaller signikant snabbare i sin leukemi.
- Vad kallas grafen?
- Kaplan-Meier graf - i grafen illustreras överlevnaden
I figur 3 illustreras hur länge leukemi patienter klarar sig utan återfall. Patienterna är uppdelade i två grupper: Över 60 och under 60. Ett logranktest ger att de som är äldre återfaller signikant snabbare i sin leukemi.
- Istället för att dela upp åldern dikotomt i två grupper kan man använda den som en numerisk variabel och gör den analys som visas i figur 4.
- Vad kallas den alternativa analysen?
- Vad blev hazardkvoten i analysen som finns i figuren?
- Cox regression - används för att undersöka kontinuerlig variabel. Modellen bygger på något som kallas för Cox proportional hazards
- 1.015 => Exp(B) = hazardkvoten
I föregående uppgift studerades sambandet mellan ålder och återfall i leukemi med överlevnadsanalys. Om man är intresserad av sannolikheten att leva 3 år utan återfall får man plocka bort de som inte ännu följts upp under tre år. Då kan man göra en analys som skattar en oddskvot (OR) för återfall inom 3 år för en patient som är ett år äldre än en annan. Resultatet av en sådan analys visas i figur 5.
- Vad kallas den analysen?
- I utdata för analysen ser vi att oddskvoten är 1.023. Beräkna oddskvoten för en patient som är 10 år äldre än en annan.
- Logistisk regression - ät en metor med vilken man kan analysera mätdata
- OR10 = OR10 = 1.02310 ≈ 1.26
I figur 6 som är hämtad från artikeln “Evaluation of miR-711 as Novel Biomarker in Prostate Cancer Progression” visas samband mellan sensitivitet och specificitet vid användning av ett visst microRNA för att prediktera patienter med benign prostata förstoring som löper risk att utveckla prostatacancer.
- Vad kallas grafen?
- Vad blir speciciteten om vi väljer ett kritiskt värde som ger 90% sensitivitet? (Ange den i jämna 10% enheter så får du lättare att räkna nedan)
- Anta att prevalensen bland de som testas är 20%. Bestäm det positiva prediktiva värdet (PPV)!
- ROC-kurva
- Sensitivitet = 90% vilket visas 30% i specificitet linjen. Detta i sin tur använder man för att räkna ut specificitet vilket är:
- 1 - specificitet => 1 - 0.3 = 0.7 =70% (eller 60%)
- Kolla bilden nedan
Med tillgång till DNA hos ett sjukt barn och dess föräldrar kan man göra ett genetiskt associationstest som benämnes TDT (Transmission Disequilibrium Test) för att testa om en SNP är associerad med sjukdom. Iden är att studera alla heterozygota föräldrar på t.ex en AG polymorfi och registrera om de transmitterat A eller G till det sjuka barnet. Om SNP:n inte är associerad med sjukdomen är sannolikheten att ett A transmiterats 50%, men annars lägre eller högre beroende på om G eller A är associerad med sjukdomsallelen. Om man t.ex. registrerar 20 sådana heterozygoter och 16 har transmitterat A, medan 4 har transmitterat G tyder det alltså på att A är associerat med sjukdom. Eftersom man känner till den statistiska fördelningen när noll hypotesen är sann kan man då räkna ut att p-värdet blir 0.012.
- Vad kallas den statistika fördelning samt vilket formel har fördelning?
- I en studie där man tittar på flera kandidatgener har man bestämt sig för signikansnivån α=0.001 för enskilda SNP:er. Skälet till detta är att man vill ha en global signikansnivå 0.05 och gör en Bonferronikorrektion för att man testar n antal SNP:er. Bestäm värdet på n.
- Binomialfördelning – man sumerar antal lyckade försök. Formeln kolla på bilden
- p = sannolikheten att lyckas
- k = antal lyckade försök
- (1 - p) = sannolikheten att misslyckas
- n = total antal fösök
- n = 0.05 / 0.001 = 50
Med tillgång till DNA hos ett sjukt barn och dess föräldrar kan man göra ett genetiskt associationstest som benämnes TDT (Transmission Disequilibrium Test) för att testa om en SNP är associerad med sjukdom. Iden är att studera alla heterozygota föräldrar på t.ex en AG polymorfi och registrera om de transmitterat A eller G till det sjuka barnet. Om SNP:n inte är associerad med sjukdomen är sannolikheten att ett A transmiterats 50%, men annars lägre eller högre beroende på om G eller A är associerad med sjukdomsallelen. Om man t.ex. registrerar 20 sådana heterozygoter och 16 har transmitterat A, medan 4 har transmitterat G tyder det alltså på att A är associerat med sjukdom. Eftersom man känner till den statistiska fördelningen när noll hypotesen är sann kan man då räkna ut att p-värdet blir 0.012.
- Vilket är det minsta antal heterozygota transmissioner man behöver observera för en SNP för att få ett p-värde som är lägre än 0.001? (Glöm inte att testet bör vara tvåsidigt eftersom vi inte vet vilken nukleotid som är associerad)
Låt T<em>A</em> vara antal transmitterade A från N hetrozygota föräldrar. Det högsta antal vi kan observera är N och det minsta vi kan observera är 0 och om nollhypotesen är sann är de lika sannolika. Eftersom vi ska göra tvåsidigt test blir p-värdet:
p = P(TA= 0) + P(TA= N) = 2P(TA) = 2∗0.5N
Vi ska alltså finna det minsta N så att p<0.001. Prövning ger att för N=10 är p = 1 / 512 > 0.001, medan för N = 11 är p = 1 / 1024 < 0.001
Den 3e mars anges antalet smittade av coronavirus till 2502 varav 79 har dött, medan i Sydkorea är 5328 smittade och 28 personer har dött. Det ser alltså vara klart högre dödlighet i Italien. Förmodligen beror det på underraportering av smittade i Italiein, men det ignorerar vi här.
- Vilket test bör man använda för att testa om dödligheten skiljer sig åt mellan länderna?
- Fyll i tabellen nedan!
- Chi2 test - när man har två stickprov och vill jämföra storleksförhållanden
- Kolla bilden
Den 3e mars anges antalet smittade av coronavirus till 2502 varav 79 har dött, medan i Sydkorea är 5328 smittade och 28 personer har dött. Det ser alltså vara klart högre dödlighet i Italien. Förmodligen beror det på underraportering av smittade i Italiein, men det ignorerar vi här.
- Beräka oddskvoten att dö i Italien kmf med i Sydkorea
En viss sjukdom har två riskfaktorer A och B. A finns hos 20% av populationen och B finns hos 30% av populationen. De förekommer helt oberoende av varandra.
- Hur stor andel av populationen har minst en av riskfaktorerna A eller B?
- Risken att bli sjuk om man saknar riskfaktorerna är 1% och om man har någon rikfaktor 2%. Hur stor av populationen är sjuk?
- P(AUB) = P(A) + P(B) − P(A∩B) = 0.2 + 0.3 − 0.2 · 0.3 = 0.44
- Låt C vara komplementet till AUB och använd lagen om total sannolikhet
- P(sjuk) = P(sjuk|AUB) · P(AUB) + P(sjuk|C) · P(C) = 0.02·0.44 + 0.01·0.56 = 0.0144
- Alltså är 1.44% av populationen sjuk
Figuren nedan visar början på ett diagram där vikten för 6 möss efter 20 veckor är markerad. I genomsnitt vägde mössen då 27.8 gram. Efter ytterligare en vecka hade medelvärdet ökat med 2 gram och standardavvikelsen för de individuella ökningarna var mycket nära 0.
- Lägg in vikterna efter en vecka i diagrammet och markera de individuella förändringarna med en så kallad spagettiplot!
- Vilket test bör du använda för att testa om mössen har ökat i vikt?
- Kolla bilden nedan
- Parat T-test
Vad kallas följande begrepp?
- P (Förkasta nollhypotesen | nollhypotesen är sann)
- P (Förkasta nollhypotesen | alternativhypotesen är sann)
- P (Så extrema data som de är observerade | nollhypotesen är sann)
- Signifikansnivå
- Styrka
- P-värde
Paritetens (likhet) betydelse för födelsevikten undersöktes hos flickor som föds i fullgången tid av icke rökande mammor. För döttrar till förstföderskor (n = 12046) gällde att medianen var 3430 gramm med undre och övre kvartil (3170, 3700), medan medianen var 3590 för döttrar som är andra barn (n = 12160) med motsvarande kvartiler (3330, 3870).
- Rita boxpolot (utan whiskers) för de två grupperna
Paritetens (likhet) betydelse för födelsevikten undersöktes hos flickor som föds i fullgången tid av icke rökande mammor. För döttrar till förstföderskor (n = 12046) gällde att medianen var 3430 gramm med undre och övre kvartil (3170, 3700), medan medianen var 3590 för döttrar som är andra barn (n = 12160) med motsvarande kvartiler (3330, 3870).
- Vilket statisktisk test är lämpligt för att jämföra födelsevikterna?
- Ett visst diagnostiskt test test har en sensitivitet på 90% och en specificitet på 99%. Bestäm det positiva prediktiva värdet om prevalensen är 1%
- Tvåstickprovs T-test
- Kolla bilden
Sambandet mellan skatt på ett packet cigaretter och procent rökare i USAs stater analyseras och visas i figuren. Skattningen bestämdes till 20.14% rökare, lutningen till 1.36% per dollar (-2.31, -0.40) 95% konfidensintervall och förklaringsgraden var 13.7%
- Vad kallas analysen samt vilken formel använder man?
- Beräkna vilken skatt som krävs enligt modellen för att få 10% rökare!
- Kan vi anse att sambandet är signifikant på nivå 0.05? Motivera svaret!
- Regressionsanalys, formeln: ŷ = ß0 + ß1 • x
- Kolla bilden nedan:
- Ja, enligt dualiteten eftersom 95% konfidensintervallet inte täcker 0.
Sambandet mellan skatt på ett packet cigaretter och procent rökare i USAs stater analyseras och visas i figuren. Skattningen bestämdes till 20.14% rökare, lutningen till 1.36% per dollar (-2.31, -0.40) 95% konfidensintervall och förklaringsgraden var 13.7%
- Vad är korrelationen?
- Är korrelationen signifikant på nivå 0.05? Motivera svaret!
- Se bilden nedan
- Ja, korrelationen och lutningen (-1.36) är ekvivalenta (lika) vid enlkel linjär regression
von Willebrand factor uppmättes i akutskedet av ichemisk stroke och man gjorde ett test för att jämföra fyra grupper (TOAST-kategorier). Resultatet av testet framgår av utdata frånSPSS
- Vad vet vi o gruppernas medelvärden efter att vi konstaterar att F testet är signifikant?
Alla grupper har inte samma medelvärden
von Willebrand factor uppmättes i akutskedet av ichemisk stroke och man gjorde ett test för att jämföra fyra grupper (TOAST-kategorier). Resultatet av testet framgår av utdata från SPSS
- Efter ANOVAn valdes ett LSD posthoc test för att undersöka de parvisa gruppskillnaderna (De borde gjort Tukey). Problemet med detta test är att det inte tar hänsyn till att många jämförelser görs. Detta kan man dock råda bot på (rätta till) genom att göra en Bonferroni-korrektion på p-värdena. Vilka jämförelser är signikanta efter det?
- Man utför Bonferroni-korrektion på två sätt:
- Det ena sättet: man dividerar det vanliga p-värdet, dvs 0.05 med antal statisktiska analyser man utfört: 0.05/6 =
- Det andra sättet: man multiplicerar varje obeserverade p-värdet med antal statistiska anlyser man utfört: 0.002 • 6 =
- LSD p-värdena ska multipliceras med 6, vilket leder till att följande skillnader är signikanta (pc < 0.05).
- Large vessel disease vs Small vessel disease
- Small vessel disease vs Cardioembolic disease
- Cardioembolic disease vs Cryptogenic stroke
Grafen nedan illustrerar överlevnad i dagar efter att möss med en hög fettsdiet infekterats med staphylococcus aureus. Mössen följdes till dag 17.
- Vad kallas grafen?
- I samma studie fick en annan grupp möss en låg fettsdiet. Skissa en ny kurva i bilden som illusterar denna grupp där det första dödsfallet sker samtidigt som i högfettsdietgruppen och det sista efter 14 dagar, men där 70% är vid liv vid studien slut.
- Eftersom grupp en på HFD är tyngre än LFD-gruppen skulle skillnaden i överlevnad kunna förklaras med vikten vid infektionstillfället. Vilken analys kan vi göra för att ta hänsyn till detta?
- Kaplan Meier graf
- Kolla bilden nedan
- Cox regression
Grafen nedan illustrerar överlevnad i dagar efter att möss med en hög fettsdiet infekterats med staphylococcus aureus. Mössen följdes till dag 17.
- När vi gör följande analysen få vi fäljande resultat. Motivera varför överlevnaden inte verkar bero av vikten?
- Vad kallas kvoten mellan de momentana riskerna att dö och hur hög var den i denna studie?
- Vikten är inte signifikant (P = 0.534), medan dieten fortfarande är det
- Det är en hazardkvot och den är 6.2
Användbarheten av en numerisk variabel som ska användas för diagnostik kan illustreras i en graf som plottar sensitiviteten mot risken för falska negativa (1 - specificiteten)
- Vad kallas en sådan graf?
- I en sådan graf beräknas arean under kurvan (AUC) som ett mått på hur bra variabeln är på att skilja sjuka från friska. Vilket AUC får en variabel som har precis samma fördelning hos sjuka och friska?
- ROC kurva
- 0.5 (Det är arean under diagonalen från (0,0) till (1,1)
Vid en av polisens nykterhetkontroller i trafiken stoppar man varje bil med sannolikheten 5% oberoende av vilka bilar som tidigare stoppats. Totalt passerar 5000 bilar (inklusive de som polisen stoppar).
- Hur många bilar förväntas stoppas av polisen under deras kontrollpass?
- Vilken statisktisk fördelning har antalet bilar som polisen kontrollerar under sitt pass?
- Det finns en kontinuerlig fördelning som kommer att vara lik fördelning i (2). Vilken är den fördelningen?
- På väg hem från norra Italien efter sportlovet åkte en chartard buss med 50 anstälda på en datakonsultfirma. Det är därför tänkbart att ett antal av dessa personer kommer att drabbas av COVID19. Varför är fördelning i (2) inte en lämplig modell för antalet av de anställda som kommer att drabbas av COVID19?
- 5000 • 0.05 = 250
- Binomialfördelning
- Normalfördelning
- De har umgåtts på resan, sitter i samma buss och nyser på varandra, så om de får COVID19 eller ej är inte oberoende händelser
Medelåldern för förstföderskor skattades till 32 år hos 400 kvinnor på Östermalam med en standardavvikelse på 5 år
- Beräkna standardfelet!
- Bestäm ett 95% konfidensintervall för kvinnans medelålder vid första barnet på Östermalm
- Vilket test bör du använda för att testa om Östermalmskvinnorna skiljer sig från riskgenomsnittet på 29 år?
- Kolla bilden nedan
- 32 ± 1.96 · SE = 32 ± 0.49 (31.5 32.5)
- Enstickprovs T-test (som skulle visa att det var signifikant skillnad pga dualiteten)
I en genetisk associationsstudie fann man ett samband mellan en SNP och risken för typ I diabetes. De tre genotyperna för SNPn kodades och analyserades som en numeisk variabel AA = 0, AG = 1, GG = 2, dvs enligt antalet G-alleler. Man fann ett signifikant samband och att oddskvoten var 1.3 per G-allel.
- Vad kallas anlysen?
- Vad är oddskvoten mellan de två homozygoterna GG och AA?
- För att undersöka om SNPn hade samma betydelse hos män som hos kvinnor lade man till kön i modellen, men också en term som fångar upp om den har olika betydelse hos män som hos kvinnor. Vad kallas en sådan term?
- Logistisk regression
- OR = 1.32 = 1.69
- Interaktionsterm
På en tentamen i anatomi där gränsen för G var 50 poäng var medelvärdet hos de underkända studenterna 45 poäng. Vid omtentan var samma studenternas medelvärde 53 poäng. Förklara varför det är osäkert om dessa elever egentligen har förbättrat sina kunskaper även om de har fått signifikant högre poäng?
Bland de som hamnade under 50 poäng fanns de som verkligen kinde kursen för dåligt, men också de som hade otur med frågorna eller var ur form och därför presterade sämre än sin egen genomsnitliga nivå. De som hade otur eller var ur form kommer troligast att prestera bättre nästa gång även om de inte studerar en minut mer. Det kan med andra ord bero på det fenomenen som kallas regression to the mean.
I sitt expertvittnesmål under rättegången mot Sally Clark, som stod anklagad för att ha mördat sina två spädbarn, påstod Sir Roy Meadow att risken för plötslig spådbarnsdöd är 1/8543 och att risken att två syskon dör i plötslig spädbarnsdöd därför är detta i kvadrat vilket ger 1 på cirka 73 miljoner. Även om den första skattningen (1/8543) är rätt, så blir ändå den andra skattningen stollig. Varför?
För att multiplicera två sannolikheter krävs oberoende. Det är orimligt att tänka sig att plötslig spädbarnsdöd hos två syskon är oberoende händelser eftersom de delar genetik och miljö.
En positiv bieffekt av fetmaoperationer är att många blir av med sin typ
2 diabetes. I en studie av 1836 operationer fann man att glukosvärdena
sjönk med i genomsnitt 0.924 mmol/L med ett standardfel på 0.039
- (a) Vad var standardavvikelsen för glukosnedgången?
- (b) Beräkna ett 95% kondensintervall för glukosnedgången.
- (a) s = SE√n = 0.039 · √1836 = 1.67mmol/L
- (b) 0.924 ± 1.96 · 0.039 (0.85 - 1.00)
Inom diagnostik finns 4 betingade sannolikheter som är intressanta.
- (a) Hur benämnes de?
- P(positiv|sjuk) ?
- P(negativ|frisk) ?
- P(sjuk|positiv) ?
- P(frisk|negativ) ?
- (b) Vad är PPV om specificiteten är 1?
- (a)
- P(positiv|sjuk) = Sensitivitet
- P(negativ|frisk) = Specicitet
- P(sjuk|positiv) = Positivt prediktivt värde (PPV)
- P(frisk|negativ) = Negativt prediktivt värde (NPV)
- (b)
- PPV=1 (100%)
(Sätt in i formeln och notera att täljare och nämnare blir lika, alter-
nativt tänk att om alla friska blir korrekt klassade som friska måste
de som klassas positiva vara sjuka)
- PPV=1 (100%)
Många forskningsresultat som kommer från laboratorier kan vara väldigt skakiga. Ofta görs analyserna plattvis där en platta har plats för 96 prover i små rör. Den laborativa processen körs med en platta i taget och det kan variera mycket på den allmänna nivån av proverna. Här illustreras en körning som körts på ett kommersiellt laboratorium i Malmö och där det fanns tydliga platteekter. Varje platta har alltså plats för 96 rör, men några används som negativa kontroller mm, så i det aktuella fallet var det 88 individer per platta
- (a) Hur många individer på platta 1 har över 950 enheter BDNF (Brain-
derived neurotrophic factor) - (b) Hur många individer på platta 2 har över 950 enheter BDNF?
- (a) Övre kvartilen är 950 så 0.25 · 88=22
- (b) Medianen är 950 så 0.5 · 88=44
I figur 1 visas utdata från en modell där flickors födelsevikt (gram) har
studerats i förhållande till mammans viktökning (kilogram).
Figur 1: Barnets födelsevikt vs mammans viktuppgång
- (a) Vad kallas den statistiska analysen?
- (b) Vad väger en nyfödd flicka om mamman gått upp 15 kilogram.
- (c) Så lägger vi till gestationslängden och får följande resultat. Hur myc-
ket har förklaringsgraden ökat?
- (a) Regressionsanalys
- (b) 3107.161 + 22.153 · 15 = 3439
- (c) ∆R2 = 0.383 − 0.065 = 0.318