Tenta 1 Flashcards

1
Q

I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19

  • Vad kallas grafen?
A

Box plot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19

  • Hur stor andel av patienter med svår COVID-19 har värden över 100 AU/ml?
A

50%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19

  • Vilket test bör användas för att jämföra nivåerna av antikroppar samt varför använder man just detta test och vilken formel används i detta test?
A
  • Man använder tvåstickprovs T-test
  • Mha detta test man vill se om genomsnitliga nivåerna av antikroppar hos patienter med mild coronavirus skiljer sig från patienter med allvarlig coronavirus. Här vill man veta om det är H0 eller Ha som är sant
  • Formeln till detta test, kolla bilden.
    • X<strong>ba</strong>r = medelvärdet av antikropernas nivåskillnaden
    • n = antal antikroppar, dvs mängd
    • S = standardavvikelse av skillnaderna
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

I figur 1 visas koncentrationen av IgG antikroppar (AU/ml) hos patienter som haft mild respektive allvarlig COVID-19

När man utförde testet fann man en skillnad i medelvärde, men dock ingen signikant skillnad (P=0.06). Då man ändå trodde starkt på att det fanns en skillnad planerades en ny studie med fler patienter i varje grupp vilket skulle ge en sannolikhet på 93% att detektera en lika stor skillnad med signikansnivå 0.05. Vad kallas den sannolikheten och när använder man den?

A
  • Styrka (power) och används på två sätt:
    • Typ I error: Förkasta H0 när den är sant
    • Typ II error: Behålla H0 när den är fel
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

I en 5-års uppföljning av 50-åriga män hade 11 av 123 med familjehistoria ( en första grads släkting med hypertoni) fått hypertoni, medan endast 8 av 286 utan familjehistoria hade utvecklat hypertoni.

  • Beräkna oddskvoten för hypertoni om man har familje historia järmfört med om det saknas!
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

I en 5-års uppföljning av 50-åriga män hade 11 av 123 med familjehistoria ( en första grads släkting med hypertoni) fått hypertoni, medan endast 8 av 286 utan familjehistoria hade utvecklat hypertoni.

  • Vilket test är lämpligt för att avgöra om det finns samband mellan familjehistoria och hypertoni samt vilken formel används vid denna test?
A

Chi2-test - när man har två stickprov och vill järmföra proportioner, t.ex. H1 kan vara observerad värde och H0 kan vara förväntad värde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.

  • Undersök om förekomsten av borrelia och erlichia kan anses oberoende.
A
  • Med beteckningar B för borrelia och E för Erlichia har vi P(B) · P(E) = 0.15 · 0.106 = 0.03 = P(B∩E). Dvs P(B) · P(E) måste vara lika med P(B∩E), men i detta falla så är det inte vilket betyder att de är ej oberoende
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.

  • Hur stor andel av fästingarna bär på minst en av bakterierna?
A

P(BUE) = P(B) + P(E) − P(B∩E) = 0.15 + 0.10 − 0.03 = 0.22 dvs 22%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.

  • Vad är sannolikheten att en fästing bär på erlicjia om den bär på borrelia?
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Ixodes scapularis är en fästing art som kan bära borrelia eller erlichia. I ett område i USA bar 15% av fästingarna borrelia medan 10% bar erlichia. Det var 3% som bar på båda bakterierna.

  • Vad är sannolikheten att en fästing bär på båda bakterierna om den bär på minst en?
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

På en tentamen för läkarstudenter där max poängen var 100 poäng och gränsen för godkänt 60 underkändes 10 elever. På omtentan två veckor senare klarade sig dock 8 av studenterna. Professorn skrev lite spydigt på CANVAS att det gick ju bättre när ni väl öppnade boken. Han fick dock mothugg av en av eleverna som hävdade att de minsann hade läst förut också, men inte alls haft tid att läsa till om tentan då en ny tung kurs börjat direkt. Att de klarade sig bättre berodde nog bara slumpen. Professorn som inte tålde mot hugg gjorde då ett statistiskt test som visade att studenterna i genomsnitt ökat sina resultat med 6 poäng och det var minsann statistiskt signikant (P=0.007)!

  • Vilket test bör professorn ha gjort?
A

Parat T-test - används för att ta reda på t.ex. om det finns signifikans förbättring av studernas kunskap före omtentan och efter omtentan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

På en tentamen för läkarstudenter där max poängen var 100 poäng och gränsen för godkänt 60 underkändes 10 elever. På omtentan två veckor senare klarade sig dock 8 av studenterna. Professorn skrev lite spydigt på CANVAS att det gick ju bättre när ni väl öppnade boken. Han fick dock mothugg av en av eleverna som hävdade att de minsann hade läst förut också, men inte alls haft tid att läsa till om tentan då en ny tung kurs börjat direkt. Att de klarade sig bättre berodde nog bara slumpen. Professorn som inte tålde mot hugg gjorde då ett statistiskt test som visade att studenterna i genomsnitt ökat sina resultat med 6 poäng och det var minsann statistiskt signikant (P=0.007)!

  • En av studenterna hade dock en snäll pappa som där utöver var statistiker. När hans dotter berättade om den dryge professorn förklarade han att visserligen kunde professorn ha delvis rätt, men att förbättringen nog främst berodde på “regression to the mean”. Förklara kortfattat begreppet. (Minns exemplet med de längdhoppande flickorna)
A

Det vad han menar är att studenterna som underkändes på första tentan fick bättre resultat på omtentan av en slump. Det är naturens lag, dvs om man upprepar provet flera gånger kommer studenterna med bra resultat få sämre resultat nästa gång, dvs de närmar sig till mitten och sudenerna med sämmre resultat kommer att få bättre resultat i omtentamen, dvs närmar sig till mitten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.

  • Ange ett 95% konfidensintervall för medelvärdet
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.

  • Vad är standardavvikelsen för ämnet?
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.

  • Ange ett 90% referensintervall för ämnet!
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

I en stor studie av 900 50-åriga tyska kvinnor bestämdes medelvärdet för ett ämne till 320 ± 2 mg/l där 2 syftade på standardfelet.

  • Vilket test bör vi använda om vi vill testa ifall medelvärdet skiljer sig från 312 som är medelvärdet för jämnåriga japanska kvinnor samt vilket formel använder man i detta test?
  • Uför det testet med signifikansnivå 0.05 (Ledning: utnytja ngn av dina tidigare uträckningar)!
A
  • Ettsticksprov T-test - man vill testa om medelvärdet av en grupp för ett ämne skiljer sig från medelvärdet från en annan grupp för samma ämne
    • µ = medelvärdet för japanska kvinnor
    • Xbar = medelvärde för tyska kvinnor
    • S = standardfellet
    • n = antal kvinnor
  • Man ska använda dualiteten mellan test och konfidensintervall, dvs H0: µ = µ0 **mot **H1: µ ej lika med µ0. I detta fall 312 ligger utanför 95% intervallet (316, 324), så det är signifikant på nivå 0.05
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

En forskargrupp undersökte nivåer av GFAp (en skademarkör) hos COVID-19 patienter. Man ville jämföra fyra grupper, de med milda, måttliga och alvarliga symptom och en frisk kontrollgrupp. Först gjorde man en analys där man testade om det överhuvudtaget var några skillnader mellan grupperna.

  • Vad kallas analysen som utförs med ett F-test?
A

ANOVA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

En forskargrupp undersökte nivåer av GFAp (en skademarkör) hos COVID-19 patienter. Man ville jämföra fyra grupper, de med milda, måttliga och alvarliga symptom och en frisk kontrollgrupp. Först gjorde man en analys där man testade om det överhuvudtaget var några skillnader mellan grupperna.

  • Man jämförde grupperna parvis med ett Tukey-test. Hur många parvisa järförelser blev det?
A
  • Med Tkey-test se bilden.
  • Man kan också jämföra på följande sätt:
    1. X1 -X2;
    2. X1 -X3​;
    3. X1 -X4;
    4. X2 -X3​;
    5. X2 -X4​;
    6. X3-X4​;
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

En forskargrupp undersökte nivåer av GFAp (en skademarkör) hos COVID-19 patienter. Man ville jämföra fyra grupper, de med milda, måttliga och alvarliga symptom och en frisk kontrollgrupp. Först gjorde man en analys där man testade om det överhuvudtaget var några skillnader mellan grupperna.

  • Grupperna kan betraktas som en kategorisk variabel. Denna kategoriska variabel är av en viss typ som gör att det kanske vore bättre att man kan överväga en annan analys än ANOVA och Tukey. Vad kallas denna speciella typ av kategorisk variabel?
A

Ordinal data

  • Om de kategoriska variablerna är ordinaldata kan man gärna indikera det med hjälp av färgskalor och/eller position.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.

  • Vad kallas analysen samt vilket formel använder man?
  • I den här analysen tänker man sig ett underliggande linjärt samband mellan X och Y, men att Y också påverkas av andra saker, vilket förklarar avvikelserna från linjen. Vilken fördelning antar man att dessa avvikelser har?
A
  • Linjär regression. Man använder: ŷ = ß0 + ß1 • x => ŷ = 0.584 + 0.144 • x
  • Nomralfördelning
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.

  • Vad var p-värdet för test av lutningen?
A
  • p = 0.0002 vilket är p < 0.05
  • Sig. = p-värdet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.

  • Vad är NFL koncentrationen (ologgat) när viruskoncentrationen ologgat är 10 000?
A
  • logNFL
    • = 0.584 + 0.144logViralLoad
    • = 0.584 + 0.144log(10 000) = 0.584 +0.144 • 4 = 1.16
    • NFL = 10logNFL = 101.16 ≈ 14.5
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

I en COVID-19 studie studerades sambandet mellan virusmängd och NFL. Logaritmerade värden (bas10) användes för båda koncentrationerna. Delar av utdata från SPSS-analysen visas i figur 2.

  • Förklaringsgraden var 26.4%. Vad var korrelationen?
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

I figur 3 illustreras hur länge leukemi patienter klarar sig utan återfall. Patienterna är uppdelade i två grupper: Över 60 och under 60. Ett logranktest ger att de som är äldre återfaller signikant snabbare i sin leukemi.

  • Vad kallas grafen?
A
  • Kaplan-Meier graf - i grafen illustreras överlevnaden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

I figur 3 illustreras hur länge leukemi patienter klarar sig utan återfall. Patienterna är uppdelade i två grupper: Över 60 och under 60. Ett logranktest ger att de som är äldre återfaller signikant snabbare i sin leukemi.

  • Istället för att dela upp åldern dikotomt i två grupper kan man använda den som en numerisk variabel och gör den analys som visas i figur 4.
    • Vad kallas den alternativa analysen?
    • Vad blev hazardkvoten i analysen som finns i figuren?
A
  • Cox regression - används för att undersöka kontinuerlig variabel. Modellen bygger på något som kallas för Cox proportional hazards
  • 1.015 => Exp(B) = hazardkvoten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

I föregående uppgift studerades sambandet mellan ålder och återfall i leukemi med överlevnadsanalys. Om man är intresserad av sannolikheten att leva 3 år utan återfall får man plocka bort de som inte ännu följts upp under tre år. Då kan man göra en analys som skattar en oddskvot (OR) för återfall inom 3 år för en patient som är ett år äldre än en annan. Resultatet av en sådan analys visas i figur 5.

  • Vad kallas den analysen?
  • I utdata för analysen ser vi att oddskvoten är 1.023. Beräkna oddskvoten för en patient som är 10 år äldre än en annan.
A
  • Logistisk regression - ät en metor med vilken man kan analysera mätdata
  • OR10 = OR10 = 1.02310 ≈ 1.26
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

I figur 6 som är hämtad från artikeln “Evaluation of miR-711 as Novel Biomarker in Prostate Cancer Progression” visas samband mellan sensitivitet och specificitet vid användning av ett visst microRNA för att prediktera patienter med benign prostata förstoring som löper risk att utveckla prostatacancer.

  • Vad kallas grafen?
  • Vad blir speciciteten om vi väljer ett kritiskt värde som ger 90% sensitivitet? (Ange den i jämna 10% enheter så får du lättare att räkna nedan)
  • Anta att prevalensen bland de som testas är 20%. Bestäm det positiva prediktiva värdet (PPV)!
A
  • ROC-kurva
  • Sensitivitet = 90% vilket visas 30% i specificitet linjen. Detta i sin tur använder man för att räkna ut specificitet vilket är:
    • 1 - specificitet => 1 - 0.3 = 0.7 =70% (eller 60%)
  • Kolla bilden nedan
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Med tillgång till DNA hos ett sjukt barn och dess föräldrar kan man göra ett genetiskt associationstest som benämnes TDT (Transmission Disequilibrium Test) för att testa om en SNP är associerad med sjukdom. Iden är att studera alla heterozygota föräldrar på t.ex en AG polymorfi och registrera om de transmitterat A eller G till det sjuka barnet. Om SNP:n inte är associerad med sjukdomen är sannolikheten att ett A transmiterats 50%, men annars lägre eller högre beroende på om G eller A är associerad med sjukdomsallelen. Om man t.ex. registrerar 20 sådana heterozygoter och 16 har transmitterat A, medan 4 har transmitterat G tyder det alltså på att A är associerat med sjukdom. Eftersom man känner till den statistiska fördelningen när noll hypotesen är sann kan man då räkna ut att p-värdet blir 0.012.

  • Vad kallas den statistika fördelning samt vilket formel har fördelning?
  • I en studie där man tittar på flera kandidatgener har man bestämt sig för signikansnivån α=0.001 för enskilda SNP:er. Skälet till detta är att man vill ha en global signikansnivå 0.05 och gör en Bonferronikorrektion för att man testar n antal SNP:er. Bestäm värdet på n.
A
  • Binomialfördelning – man sumerar antal lyckade försök. Formeln kolla på bilden
    • p = sannolikheten att lyckas
    • k = antal lyckade försök
    • (1 - p) = sannolikheten att misslyckas
    • n = total antal fösök
  • n = 0.05 / 0.001 = 50
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Med tillgång till DNA hos ett sjukt barn och dess föräldrar kan man göra ett genetiskt associationstest som benämnes TDT (Transmission Disequilibrium Test) för att testa om en SNP är associerad med sjukdom. Iden är att studera alla heterozygota föräldrar på t.ex en AG polymorfi och registrera om de transmitterat A eller G till det sjuka barnet. Om SNP:n inte är associerad med sjukdomen är sannolikheten att ett A transmiterats 50%, men annars lägre eller högre beroende på om G eller A är associerad med sjukdomsallelen. Om man t.ex. registrerar 20 sådana heterozygoter och 16 har transmitterat A, medan 4 har transmitterat G tyder det alltså på att A är associerat med sjukdom. Eftersom man känner till den statistiska fördelningen när noll hypotesen är sann kan man då räkna ut att p-värdet blir 0.012.

  • Vilket är det minsta antal heterozygota transmissioner man behöver observera för en SNP för att få ett p-värde som är lägre än 0.001? (Glöm inte att testet bör vara tvåsidigt eftersom vi inte vet vilken nukleotid som är associerad)
A

Låt T<em>A</em> vara antal transmitterade A från N hetrozygota föräldrar. Det högsta antal vi kan observera är N och det minsta vi kan observera är 0 och om nollhypotesen är sann är de lika sannolika. Eftersom vi ska göra tvåsidigt test blir p-värdet:

p = P(TA= 0) + P(TA= N) = 2P(TA) = 2∗0.5N

Vi ska alltså finna det minsta N så att p<0.001. Prövning ger att för N=10 är p = 1 / 512 > 0.001, medan för N = 11 är p = 1 / 1024 < 0.001

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Den 3e mars anges antalet smittade av coronavirus till 2502 varav 79 har dött, medan i Sydkorea är 5328 smittade och 28 personer har dött. Det ser alltså vara klart högre dödlighet i Italien. Förmodligen beror det på underraportering av smittade i Italiein, men det ignorerar vi här.

  • Vilket test bör man använda för att testa om dödligheten skiljer sig åt mellan länderna?
  • Fyll i tabellen nedan!
A
  • Chi2 test - när man har två stickprov och vill jämföra storleksförhållanden
  • Kolla bilden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Den 3e mars anges antalet smittade av coronavirus till 2502 varav 79 har dött, medan i Sydkorea är 5328 smittade och 28 personer har dött. Det ser alltså vara klart högre dödlighet i Italien. Förmodligen beror det på underraportering av smittade i Italiein, men det ignorerar vi här.

  • Beräka oddskvoten att dö i Italien kmf med i Sydkorea
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

En viss sjukdom har två riskfaktorer A och B. A finns hos 20% av populationen och B finns hos 30% av populationen. De förekommer helt oberoende av varandra.

  • Hur stor andel av populationen har minst en av riskfaktorerna A eller B?
  • Risken att bli sjuk om man saknar riskfaktorerna är 1% och om man har någon rikfaktor 2%. Hur stor av populationen är sjuk?
A
  • P(AUB) = P(A) + P(B) − P(A∩B) = 0.2 + 0.3 − 0.2 · 0.3 = 0.44
  • Låt C vara komplementet till AUB och använd lagen om total sannolikhet
    • P(sjuk) = P(sjuk|AUB) · P(AUB) + P(sjuk|C) · P(C) = 0.02·0.44 + 0.01·0.56 = 0.0144
    • Alltså är 1.44% av populationen sjuk
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Figuren nedan visar början på ett diagram där vikten för 6 möss efter 20 veckor är markerad. I genomsnitt vägde mössen då 27.8 gram. Efter ytterligare en vecka hade medelvärdet ökat med 2 gram och standardavvikelsen för de individuella ökningarna var mycket nära 0.

  1. Lägg in vikterna efter en vecka i diagrammet och markera de individuella förändringarna med en så kallad spagettiplot!
  2. Vilket test bör du använda för att testa om mössen har ökat i vikt?
A
  1. Kolla bilden nedan
  2. Parat T-test
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Vad kallas följande begrepp?

  1. P (Förkasta nollhypotesen | nollhypotesen är sann)
  2. P (Förkasta nollhypotesen | alternativhypotesen är sann)
  3. P (Så extrema data som de är observerade | nollhypotesen är sann)
A
  1. Signifikansnivå
  2. Styrka
  3. P-värde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Paritetens (likhet) betydelse för födelsevikten undersöktes hos flickor som föds i fullgången tid av icke rökande mammor. För döttrar till förstföderskor (n = 12046) gällde att medianen var 3430 gramm med undre och övre kvartil (3170, 3700), medan medianen var 3590 för döttrar som är andra barn (n = 12160) med motsvarande kvartiler (3330, 3870).

  • Rita boxpolot (utan whiskers) för de två grupperna
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Paritetens (likhet) betydelse för födelsevikten undersöktes hos flickor som föds i fullgången tid av icke rökande mammor. För döttrar till förstföderskor (n = 12046) gällde att medianen var 3430 gramm med undre och övre kvartil (3170, 3700), medan medianen var 3590 för döttrar som är andra barn (n = 12160) med motsvarande kvartiler (3330, 3870).

  1. Vilket statisktisk test är lämpligt för att jämföra födelsevikterna?
  2. Ett visst diagnostiskt test test har en sensitivitet på 90% och en specificitet på 99%. Bestäm det positiva prediktiva värdet om prevalensen är 1%
A
  1. Tvåstickprovs T-test
  2. Kolla bilden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Sambandet mellan skatt på ett packet cigaretter och procent rökare i USAs stater analyseras och visas i figuren. Skattningen bestämdes till 20.14% rökare, lutningen till 1.36% per dollar (-2.31, -0.40) 95% konfidensintervall och förklaringsgraden var 13.7%

  1. Vad kallas analysen samt vilken formel använder man?
  2. Beräkna vilken skatt som krävs enligt modellen för att få 10% rökare!
  3. Kan vi anse att sambandet är signifikant på nivå 0.05? Motivera svaret!
A
  1. Regressionsanalys, formeln: ŷ = ß0 + ß1 • x
  2. Kolla bilden nedan:
  3. Ja, enligt dualiteten eftersom 95% konfidensintervallet inte täcker 0.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Sambandet mellan skatt på ett packet cigaretter och procent rökare i USAs stater analyseras och visas i figuren. Skattningen bestämdes till 20.14% rökare, lutningen till 1.36% per dollar (-2.31, -0.40) 95% konfidensintervall och förklaringsgraden var 13.7%

  1. ​Vad är korrelationen?
  2. Är korrelationen signifikant på nivå 0.05? Motivera svaret!
A
  1. Se bilden nedan
  2. Ja, korrelationen och lutningen (-1.36) är ekvivalenta (lika) vid enlkel linjär regression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

von Willebrand factor uppmättes i akutskedet av ichemisk stroke och man gjorde ett test för att jämföra fyra grupper (TOAST-kategorier). Resultatet av testet framgår av utdata frånSPSS

  • ​Vad vet vi o gruppernas medelvärden efter att vi konstaterar att F testet är signifikant?
A

Alla grupper har inte samma medelvärden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

von Willebrand factor uppmättes i akutskedet av ichemisk stroke och man gjorde ett test för att jämföra fyra grupper (TOAST-kategorier). Resultatet av testet framgår av utdata från SPSS

  • Efter ANOVAn valdes ett LSD posthoc test för att undersöka de parvisa gruppskillnaderna (De borde gjort Tukey). Problemet med detta test är att det inte tar hänsyn till att många jämförelser görs. Detta kan man dock råda bot på (rätta till) genom att göra en Bonferroni-korrektion på p-värdena. Vilka jämförelser är signikanta efter det?
A
  • Man utför Bonferroni-korrektion på två sätt:
    • Det ena sättet: man dividerar det vanliga p-värdet, dvs 0.05 med antal statisktiska analyser man utfört: 0.05/6 =
    • Det andra sättet: man multiplicerar varje obeserverade p-värdet med antal statistiska anlyser man utfört: 0.002 • 6 =
  • LSD p-värdena ska multipliceras med 6, vilket leder till att följande skillnader är signikanta (pc < 0.05).
    • Large vessel disease vs Small vessel disease
    • Small vessel disease vs Cardioembolic disease
    • Cardioembolic disease vs Cryptogenic stroke
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Grafen nedan illustrerar överlevnad i dagar efter att möss med en hög fettsdiet infekterats med staphylococcus aureus. Mössen följdes till dag 17.

  1. Vad kallas grafen?
  2. I samma studie fick en annan grupp möss en låg fettsdiet. Skissa en ny kurva i bilden som illusterar denna grupp där det första dödsfallet sker samtidigt som i högfettsdietgruppen och det sista efter 14 dagar, men där 70% är vid liv vid studien slut.
  3. Eftersom grupp en på HFD är tyngre än LFD-gruppen skulle skillnaden i överlevnad kunna förklaras med vikten vid infektionstillfället. Vilken analys kan vi göra för att ta hänsyn till detta?
A
  1. Kaplan Meier graf
  2. Kolla bilden nedan
  3. Cox regression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Grafen nedan illustrerar överlevnad i dagar efter att möss med en hög fettsdiet infekterats med staphylococcus aureus. Mössen följdes till dag 17.

  1. När vi gör följande analysen få vi fäljande resultat. Motivera varför överlevnaden inte verkar bero av vikten?
  2. Vad kallas kvoten mellan de momentana riskerna att dö och hur hög var den i denna studie?
A
  1. Vikten är inte signifikant (P = 0.534), medan dieten fortfarande är det
  2. Det är en hazardkvot och den är 6.2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Användbarheten av en numerisk variabel som ska användas för diagnostik kan illustreras i en graf som plottar sensitiviteten mot risken för falska negativa (1 - specificiteten)

  1. Vad kallas en sådan graf?
  2. I en sådan graf beräknas arean under kurvan (AUC) som ett mått på hur bra variabeln är på att skilja sjuka från friska. Vilket AUC får en variabel som har precis samma fördelning hos sjuka och friska?
A
  1. ROC kurva
  2. 0.5 (Det är arean under diagonalen från (0,0) till (1,1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Vid en av polisens nykterhetkontroller i trafiken stoppar man varje bil med sannolikheten 5% oberoende av vilka bilar som tidigare stoppats. Totalt passerar 5000 bilar (inklusive de som polisen stoppar).

  1. Hur många bilar förväntas stoppas av polisen under deras kontrollpass?
  2. Vilken statisktisk fördelning har antalet bilar som polisen kontrollerar under sitt pass?
  3. Det finns en kontinuerlig fördelning som kommer att vara lik fördelning i (2). Vilken är den fördelningen?
  4. På väg hem från norra Italien efter sportlovet åkte en chartard buss med 50 anstälda på en datakonsultfirma. Det är därför tänkbart att ett antal av dessa personer kommer att drabbas av COVID19. Varför är fördelning i (2) inte en lämplig modell för antalet av de anställda som kommer att drabbas av COVID19?
A
  1. 5000 • 0.05 = 250
  2. Binomialfördelning
  3. Normalfördelning
  4. De har umgåtts på resan, sitter i samma buss och nyser på varandra, så om de får COVID19 eller ej är inte oberoende händelser
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Medelåldern för förstföderskor skattades till 32 år hos 400 kvinnor på Östermalam med en standardavvikelse på 5 år

  1. Beräkna standardfelet!
  2. Bestäm ett 95% konfidensintervall för kvinnans medelålder vid första barnet på Östermalm
  3. Vilket test bör du använda för att testa om Östermalmskvinnorna skiljer sig från riskgenomsnittet på 29 år?
A
  1. Kolla bilden nedan
  2. 32 ± 1.96 · SE = 32 ± 0.49 (31.5 32.5)
  3. Enstickprovs T-test (som skulle visa att det var signifikant skillnad pga dualiteten)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

I en genetisk associationsstudie fann man ett samband mellan en SNP och risken för typ I diabetes. De tre genotyperna för SNPn kodades och analyserades som en numeisk variabel AA = 0, AG = 1, GG = 2, dvs enligt antalet G-alleler. Man fann ett signifikant samband och att oddskvoten var 1.3 per G-allel.

  1. Vad kallas anlysen?
  2. Vad är oddskvoten mellan de två homozygoterna GG och AA?
  3. För att undersöka om SNPn hade samma betydelse hos män som hos kvinnor lade man till kön i modellen, men också en term som fångar upp om den har olika betydelse hos män som hos kvinnor. Vad kallas en sådan term?
A
  1. Logistisk regression
  2. OR = 1.32 = 1.69
  3. Interaktionsterm
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

På en tentamen i anatomi där gränsen för G var 50 poäng var medelvärdet hos de underkända studenterna 45 poäng. Vid omtentan var samma studenternas medelvärde 53 poäng. Förklara varför det är osäkert om dessa elever egentligen har förbättrat sina kunskaper även om de har fått signifikant högre poäng?

A

Bland de som hamnade under 50 poäng fanns de som verkligen kinde kursen för dåligt, men också de som hade otur med frågorna eller var ur form och därför presterade sämre än sin egen genomsnitliga nivå. De som hade otur eller var ur form kommer troligast att prestera bättre nästa gång även om de inte studerar en minut mer. Det kan med andra ord bero på det fenomenen som kallas regression to the mean.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

I sitt expertvittnesmål under rättegången mot Sally Clark, som stod anklagad för att ha mördat sina två spädbarn, påstod Sir Roy Meadow att risken för plötslig spådbarnsdöd är 1/8543 och att risken att två syskon dör i plötslig spädbarnsdöd därför är detta i kvadrat vilket ger 1 på cirka 73 miljoner. Även om den första skattningen (1/8543) är rätt, så blir ändå den andra skattningen stollig. Varför?

A

För att multiplicera två sannolikheter krävs oberoende. Det är orimligt att tänka sig att plötslig spädbarnsdöd hos två syskon är oberoende händelser eftersom de delar genetik och miljö.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

En positiv bieffekt av fetmaoperationer är att många blir av med sin typ
2 diabetes. I en studie av 1836 operationer fann man att glukosvärdena
sjönk med i genomsnitt 0.924 mmol/L med ett standardfel på 0.039

  • (a) Vad var standardavvikelsen för glukosnedgången?
  • (b) Beräkna ett 95% kondensintervall för glukosnedgången.
A
  • (a) s = SE√n = 0.039 · √1836 = 1.67mmol/L
  • (b) 0.924 ± 1.96 · 0.039 (0.85 - 1.00)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

Inom diagnostik finns 4 betingade sannolikheter som är intressanta.

  • (a) Hur benämnes de?
    • P(positiv|sjuk) ?
    • P(negativ|frisk) ?
    • P(sjuk|positiv) ?
    • P(frisk|negativ) ?
  • (b) Vad är PPV om specificiteten är 1?
A
  • (a)
    • P(positiv|sjuk) = Sensitivitet
    • P(negativ|frisk) = Specicitet
    • P(sjuk|positiv) = Positivt prediktivt värde (PPV)
    • P(frisk|negativ) = Negativt prediktivt värde (NPV)
  • (b)
    • PPV=1 (100%)
      (Sätt in i formeln och notera att täljare och nämnare blir lika, alter-
      nativt tänk att om alla friska blir korrekt klassade som friska måste
      de som klassas positiva vara sjuka)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Många forskningsresultat som kommer från laboratorier kan vara väldigt skakiga. Ofta görs analyserna plattvis där en platta har plats för 96 prover i små rör. Den laborativa processen körs med en platta i taget och det kan variera mycket på den allmänna nivån av proverna. Här illustreras en körning som körts på ett kommersiellt laboratorium i Malmö och där det fanns tydliga platteekter. Varje platta har alltså plats för 96 rör, men några används som negativa kontroller mm, så i det aktuella fallet var det 88 individer per platta

  • (a) Hur många individer på platta 1 har över 950 enheter BDNF (Brain-
    derived neurotrophic factor)
  • (b) Hur många individer på platta 2 har över 950 enheter BDNF?
A
  • (a) Övre kvartilen är 950 så 0.25 · 88=22
  • (b) Medianen är 950 så 0.5 · 88=44
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

I figur 1 visas utdata från en modell där flickors födelsevikt (gram) har
studerats i förhållande till mammans viktökning (kilogram).

Figur 1: Barnets födelsevikt vs mammans viktuppgång

  • (a) Vad kallas den statistiska analysen?
  • (b) Vad väger en nyfödd flicka om mamman gått upp 15 kilogram.
  • (c) Så lägger vi till gestationslängden och får följande resultat. Hur myc-
    ket har förklaringsgraden ökat?
A
  • (a) Regressionsanalys
  • (b) 3107.161 + 22.153 · 15 = 3439
  • (c) ∆R2 = 0.383 − 0.065 = 0.318
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

I denna figur har studerats barnets födelsevikt vs mammans viktuppgång och gestationslängd(fostertillväxt och fosterstorlek)

  • (a) Hur ska man tolka parametern för mammans viktökning nu?
  • (b) Förklara hur den kunde ändras så mycket från föregående analys?
A
  • (a) Den genomsnittliga skillnaden mellan födelsevikten hos barn som har samma gestationslängd men där den ena mamman ökat med ett kg mer.
  • (b) Mammans viktökning är confounded med gestationslängden, så när gestationslängden läggs till modellen minskar betydelsen av mammans viktökning.
54
Q

I en viss tid och population var chansen för män att bli äldre än 70 år 80%
och chansen att bli äldre än 80 år 50%.

  • (a) Hur stor är risken att dö mellan 70 och 80?
  • (b) Hur stor är risken att dö mellan 70 och 80 om man har överlevt
    70 årsdagen?
A
  • (a) 100-80=20% dör före 70 och 50% dör efter 80, så resten 100-20-
    50=30% dör mellan 70 och 80.
  • (b) kolla bilden nedan
55
Q

Anta att du gör logistisk regression för en sjukdom med två prediktorer, rökare (ja/nej) och exponerad för asbest (ja/nej). Det innebär att du ansätter en sådan här modell. ln (odds) = β0 + β1 rökare + β2 asbest

  • (a) Analysen ger dig ORrökare = 4 och ORasbest = 3. Vad blir OR för de som både röker och har exponerats för asbest om modellen är riktig (jämfört med de som varken röker eller exponerats)?
  • (b) Du misstänker att det finns en synergistisk effekt av rökning och asbest (dvs risken blir värre än man kunde förvänta sig av de enskilda riskerna var för sig om man har båda riskfaktorerna). Hur bör du förändra modellen?
A
  • (a) OR ska multipliceras så OR=4 · 3 = 12.
  • (b) Lägga till en interaktionsterm
56
Q

I en studie (Manoch et al 1986) registrerades vad 11 kvinnor åt under 60
dagar och en dietist beräknade energiintaget.

  • (a) Vilket test bör du använda för att testa om det genomsnittliga dags-
    intaget i hela perioden är skilt från det rekommenderade 7725kJ?
  • (b) Ett 95% kondensintervall för kaloriintaget hos de 11 kvinnorna angavs
    till (5986,7521) kJ. Har det skett en signikant förändring av energi-
    intaget? Motivera!
  • (c) Man beräknade också för varje kvinna det genomsnittliga energiin-
    taget veckan före menstruation och veckan efter menstruation.
    Vilket test bör användas för att undersöka om det genomsnittliga
    energiintaget skiljer sig mellan veckorna?
  • (d) Både testet i (a) och testet i (c) antar normalfördelning. Vad är det som behöver vara normalfördelat i (c)?
A
  • (a) Enstickprovs ttest
  • (b) Ja, det har det (om 0.05 är signikansnivå) ty 7725 ligger utanför
    95% kondensintervallet.
  • (c) Ett parat ttest
  • (d) Skillnaden mellan efter och före.
57
Q

För att påvisa att en viss biverkan förekommer i signikant mindre än 10% av behandlingar räcker det inte att den skattade relativa frekvensen blir mindre än 10%. Om man räknar lite grann kommer man fram till att med 29 patienter kan man säga att det är signikant mindre än 10% biverkningar om man inte hittar en enda biverkan. Om θ är sannolikheten för biverkan ska man alltså testa H0 : θ = 0.10 mot H1 : θ < 0.10 och förkasta nollhypotesen om inga av de 29 patienterna får någon biverkan.

  • (a) Om S är antalet biverkningar, vilken fördelning har då S?
  • (b) Beräkna styrkan av testet om risken för biverkningar i själv verket är så låg som 1%.
A
  • (a) Binomialfördelad
  • (b) Antalet med biverkan, S, har då fördelningen bin(29, 0.01). Styrkan är P(Förkasta H0 | H1 sann). I det här fallet innebär det

P(S = 0|θ = 0.01) = (1 − 0.01)29 = 0.75

58
Q

Du har en normalfördelad variabel och 4 grupper som du vill jämföra. Du antar att variabeln har samma standardavvikelse σ i alla grupperna, men populationsmedelvärdena µ1, µ2, µ3 och µ4 kan vara olika. Du tänker göra en ANOVA. Beskriv nollhypotes och alternativhypotes för F-testet.

A

H0 : µ1 = µ2 = µ3 = µ4

mot

H1 : alla µi är inte lika

59
Q

I en fall-kontroll studie bland folk som besökte en simbassäng ville man undersöka om mycket tid i simbassängen kunde orsaka frätskador på tandemaljen. Simmarna delades in i de som uppgav att de simmade mindre än 6 timmar och de som simmade minst 6 timmar per vecka.

  • (a) Beräkna oddskvoten
  • (b) Vad tänker du använda för test för att undersöka om det finns ett signikant samband mellan tid i bassäng och frätskador på emaljen?
  • (c) Om vi antar att simmarna i själva verket har angett hur många timmar/vecka de simmar och att dikotomiseringen bara är ett sätt att dela materialet i två likstora grupper så kunde vi jämfört medelvärdet av bassängtider mellan gruppen med frätskador och gruppen utan. Vad kallas ett sådant test?
  • (d) Ett ytterligare möjligt test är att analysera vad varje timmes bassängtid har för inverkan på risken att få frätskador. Vad kallas en sådan analys?
A
  • (a) Kolla bilden nedan
  • (b) Chi2-test
  • (c) Tvåstickprovs ttest (Independent sample ttest i SPSS-terminologi)
  • (d) Logistisk regression
60
Q

Figuren nedan beskriver överlevnaden i månader från insjuknande i neuroblastom. Den nedre kurvan gäller de som är n-Myc amplierade.

  • (a) Vad kallas grafen?
  • (b) Vid vilken tid dog den som dog sist av de barn som ingick i studien?
  • (c) För att statistiskt bedöma om de två kurvorna skiljer sig åt signikant använde forskarna ett logranktest och fann en signikant skillnad mellan grupperna. Det nns en annan analys man kan göra för att testa om grupperna skiljer sig åt med avseende på överlevnad. Vad heter den?
  • (d) När den analysen kördes presenterades en hazardkvot mellan gruppen med MNA och gruppen utan MNA (HR=2.465). Förklara begreppet hazardkvot.
A
  • (a) Kaplan-Meier graf
  • (b) ca 60 månader
  • (c) Cox regression
  • (d) Kvoten mellan två hazarder (En hazard är en momentan risk, dvs risken att dö i ett litet tidsintervall)
61
Q
  • (a) När använder man ett Tukey test?
  • (b) Varför gör man i den situationen inte vanliga t-test?
A
  • (a) När man vill jämföra all parvisa skillnader i 3 eller flera grupper.
  • (b) Vi behöver korrigera för att vi gör många jämförelser, det hanteras av Tukey.
62
Q

I figuren illustreras NFL som prediktor för kvarvarande skada efter 7 år. Dels NFL i akutskedet och dels NFL efter 3 månader.

  • (a) AUC för akutvärden av NFL var 0.677, medan det för 3-månaders värden var 0.758. Vilka värden hör då den grå kurvan till?
  • (b) Vad blir sensitiviteten för var och en av de två variablerna om vi vill ha 80% specicitet?
A
  • (a) 3-månaders värdena för den har högst AUC (=area under curve)
  • (b) För akutvärdena (svart kurva) blir det 0.4 och för 3-månadersvärdena blir det 0.6.
63
Q

På en av laborationerna såg vi att genen RAGE var associerad med psychoticism (P=0.004). När individerna sedan delades upp i män och kvinnor var eekten hos kvinnor signikant (P=0.01), medan den inte var det hos män (P=0.171)

  • Förklara varför man inte kan dra slutsatsen att det bara gäller kvinnor och hur man bör göra för att kontrollera om eekten skiljer sig mellan män och kvinnor.
A

När stickproven minskas kan man tappa signifikansen i någon subgrupp. Att p-värdena hamnar på olika sida om 0.05 är inget argument för att anse att genens effekt skiljer sig åt. Man bör göra en regressions analys med kön, gen och interaktionen mellan dem som prediktorer och kontrollera om interaktionstermen blir signikant.

64
Q

I en recessiv sjukdom med 3 olika mutationer M1, M2, M3 har man hos 400 patienter inte observerat en enda som är homozygot för mutationen M3, trots att det borde vara 1%. Man misstänker därför att det kan vara så att genotypen M3M3 är letal ( inte är förenlig med liv).

  • (a) Antalet M3M3 är en stokastisk variabel vars fördelning beskrivs med parametrarna 400 och 0.01. Vad kallas den fördelningen?
  • (b) Beräkna sannolikheten att inte få en enda M3M3 av 400 patienter om sannolikheten att patienten är M3M3 verkligen är 1%.
  • (c) Avgör om det nns statistiskt stöd för antagandet att förekomsten av M3M3 är lägre än förväntat?
A
  • (a) Binomialfördelning
  • (b) Låt X vara antalet M3M3.

P(X = 0) = (1 − 0.01)400 ≈ 0.018

  • (c) Ja, det är statistiskt signikantt ty 0.018 är p-värdet vid ett binomialtest och 0.018<0.05
65
Q

När man ska köpa skor är det inte ovanligt att den ena skon i paret känns för trång. Det kan förstås bero på fel i tillverkningen, men också på att fötterna faktiskt är olika stora. Man kan då fråga sig om det nns en systematisk skillnad mellan fötternas längd. Antag att du har tillgång till fotlängder på 20 studenter (både höger och vänster). Vilket test bör du använda för att undersöka om det nns en systematisk skillnad mellan höger och vänster fotlängd?

A

Parat t-test

66
Q

I figuren visas simulerade data för två olika studier. Den ena jämför koncentration av ett ämne mellan grupp A och B, medan den andra jämför grupp C och D. Medelvärdet i grupp A och C är 10, medan medelvärdet i grupp B och D är 12.

  • (a) Vilket test är rimligt att göra i båda studierna?
  • (b) Vilken jämförelse bör ge lägst p-värde, A mot B eller C mot D? Motivera svaret.
A
  • (a) Tvåstickprovs t-test
  • (b) A mot B, för där är spridningen minst.
67
Q

Korrelation betecknas r.

  • Skissa en scatterplot som innebär r=1. Rita även in motsvarande regressionslinje.
A
68
Q

Korrelation betecknas r.

  • Skissa en scatterplot som innebär r=0. Rita även in motsvarande regressionslinje.
A
69
Q

I en viss tid och population var chansen för män att bli äldre än 70 år 80% och chansen att bli äldre än 80 år 50%. Beräkna chansen bli äldre än 80 om man har överlevt 70årsdagen?

A
70
Q

För prostatacancer angavs i Wolf et al 2010 att med en gräns på PSA=3 µg/l har PSA testning en sensitivitet på 32% och en specicitet på 85%. Beräkna NPV om den screenade populationen har en prevalens på 10%.

A
71
Q

Målet med hepatit C (HCV) behandling är SVR (Sustained Virologic Response). I en behandlingsstudie av 188 patienter av både genotyp 1 och genotyp 2 jämfördes andelen SVR.

  • (a) Beräkna oddskvoten (OR) för SVR mellan genotyp 2 och genotyp 1.
  • (b) Vad tänker du använda för test för att undersöka om andelen SVR-skiljer sig mellan genotyp 1 och genotyp 2?
A
  • (a) Kolla bilden nedan
  • (b) chi2-test
72
Q
A

Medelvärdet av 2305 värden kommer att vara mycket nära normalfördelat pga centrala gränsvärdessatsen.

73
Q

Vilket eller vilka av följande påståenden är sanna?

  • (a) Om p-värdet är mindre än signikansnivån kan vi förkasta nollhypotesen
  • (b) Om 95% kondensintervallet för skillnaden i medelvärde av en variabel mellan två grupper inte innehåller värdet 0 ska vi acceptera nollhypotesen vid ett tvåstickprovs t-test.
  • (c) Ett p-värde på 0.01 innebär att det är 1% chans att H0 är sann.
  • (d) Ett p-värde på 0.01 innebär att det är 1% chans att få lika extrema värden som vi observerat om H0 är sann.
A

a och d är sanna

74
Q

I figuren visas utdata från en modell där koncentrationen av trombospondin uppmätts i fostervatten hos gravida kvinnor vid olika tidpunkter i graviditeten

  • (a) Vad kallas den statistiska analysen?
  • (b) Vad är p-värdet för lutningen?
  • (c) Hur hög är förklaringsgraden?
  • (d) Vilken koncentration av trombospondin har kvinnor i genomsnitt vid graviditetsdag 90?
A
  • (a) linjär regression
  • (b) p = 1.5 · 10−17
  • (c) R2 = 0.066
  • (d) Trombospondin (90) = −1121.414 + 13.794 · 90 ≈ 120
75
Q

Diagrammet i figuren visas förloppet till återinsjuknande i leukemi för två olika behandlingar. Tidsskalan är dagar.

  • (a) Vad kallas digrammet i figuren?
  • (b) Vad är mediantiden till återinsjuknande i leukemi för de två olika behandlingsgrupperna?
A
  • Kaplan-Meier diagram
  • A: ca 600 dagar, B: ca 300 dagar
76
Q

Koncentrationen av ett visst ämne är en riskfaktor för förtisdsbörd. Standardavvikelsen för ämnet är 4.25 ng/ml. En logistisk regressionsanalys gav resulatet OR = 1.01 per ng/ml. Eftersom det är svårt att greppa vad det innebär valde man att presentera OR mellan de som ligger 2 standard avvikelser över medelvärdet jämfört med de som ligger 2 standardavvikleser under medelvärdet. Vad blev OR då?

A

Det är 4 · 4.25 = 17 ng/ml mellan de värden vi ska jämföra. Då blir

OR = 1.0117 = 1.18

77
Q

För en variabel som mätts på 100 individer gav angavs stickprovets medelvärdet till 216 och standardavvikelsen till 40.

  • (a) Beräkna standardfelet av medelvärdesskattningen
  • (b) Konstruera ett 95% kondensintervall för populationsmedelvärdet.
A
  • (a) SEM = s/√ n = 40/ √ 100 = 4
  • (b) 216 ± 1.96 · 4 ≈ 216 ± 8 eller (208, 224)
78
Q

I en studie med massspektrometri identifierades 1112 proteiner. Logaritmerade nivåer av dessa jämfördes mellan kvinnor med fullgången graviditet och de med förtidsbörd med tvåstickprovs t-test. Samtliga p-värden korrigerades med Bonferronikorrektion. Du har tidigare gjort en studie på andra kvinnor, men med liknande frågeställning där du enbart mätte nivåer av ett protein. Du fann en signikant skillnad och när du läser artikeln med masspekrometridatat vill du se om de kunde replikera ditt fynd. För samma protein anger de ett korrigerat p-värde på pc = 0.25. Kan du anse att denna massspektrometristudien har replikerat ditt fynd? Motivera ditt svar.

A

Du är inte intresserad av det korrigerade p-värdet, för du har bara en hypotes som du vill testa och för den är p = pc/n = 0.25/1112 ≈ 0.0002 << 0.05 Du kan alltså med råge anse att sitt fynd har replikerats.

79
Q

I figuren visas ett histogram över 1000 observationer av en variabel.

  • Ett 90% referensintervall baserat på percentiler skattades till (27, 82), medan motsvarande intervall baserat på medelvärde och standardavvikelse skattades till (21, 77). Vilket intervall är att föredra i det här fallet? Varför?
A

Fördelningen är skev (dvs inte nromalfördelad) och vi föredrar därför skattningarna baserade på percentiler.

80
Q

I figuren visas utdata från SPSS för en jämförelse av logaritmerade brinogenvärden mellan 4 subgrupper av ichemisk stroke

  • (a) Vilka grupper skiljer sig åt signifikant?
  • (b) Det nns ett test som ger ett enda p-värde för att testa om det överhuvudtaget finns skillnader mellan grupperna. Vad kallas det testet?
A
  • (a)
    • Large vessel disease mot samll vessel disease (p=0.011)
    • Small vessel disease mot cardioembolic stroke (p=0.001)
    • Cardioembolic stroke mot cryptogenic stroke (p=0.025)
  • (b) ANOVA
81
Q

En forskargrupp har visat att en behandling har effekt på 3.2 enheter (P=0.001). En annan forskargrupp som försöker replikera resultatet får ett 95% konfidensintervall för effekten (-0.1, 7.1).

  • (a) Om du bara beaktar replikationsstudien, kan du förkasta med signifikansnivå 0.05 nollhypotesen att effekten är 0? Motivera svaret.
  • (b) Om du beaktar båda studierna, har replikationsstudien ökat din tro på att behandlingen har effekt? Motivera ditt svar.
A
  • (a) Nej, 95% konfidensintervallet innehåller 0, så enligt dualiteten mellan konfidensintervall och test kan vi inte förkasta nollhypotesen.
  • (b) Ja, den första studien skattade en effekt på 3.3 enheter (P = 0.001). Den andra studien har en skattad effekt på (7.1 + (-0.1)) / 2 = 3.5 så den har t.o.m. en större skattad effekt.
82
Q
  1. Vad kallas sannolikheten att förkasta nollhypotesen när alternativhypotesen är sann?
A

Styrka (Power)

83
Q

Nedan visas en ROC-kurva.

  • Hur hög andel av de sjuka blir korrekt klassificerade om vi bara accepterar att 10% av de friska blir felklassificerade?
A

Ca 35%

Att 10% av de friska blir felkvalificierade innebär att man tar bor 10 från specificitet delen vilket leder till att vi har 90 kvar i specificiteten. Dett leder till 1-09 => 01 samma som 10 i specificitet och om man drar linje från 10 i specificitet så hamnar man i 35 i sensitivitet.

84
Q

Miljöpartiet ligger pyrt till (illa till) i opinionsmätningarna. I en mätning har de bara 4.1% av väljarsympatierna. Vad kan de använda för test för att testa om de ligger signikant över 4%?

A

Ett binomialtest

85
Q

Grafen nedan visar en tänkt studie som studerar hur koncentrationen av ett ämne ökar efter 5 dagars behandling.

  • (a) Vilket test bör man använda?
  • (b) Statistikern utförde testet och angav att den genomsnittliga skillnaden Day 5-Baseline var 2.8 enheter (P=0.01) Doktoranden ville kontrollera resultatet, gjorde exakt samma test, fick också fram 2.8 enheter, men P=0.48. Eftersom statistikern inte hade någon förklaring till detta jämförde man sina ler och det visade sig att doktoranden hade strulat till sin excell så att alla patienter fått en slumpmässig patients 5-dagars värde. Förklara varför det blir så mycket sämre p-värden, trots att medelvärdesskillnaden är densamma i båda fallen.
A
  • (a) Ett parat t-test
  • (b) Spridningen (standardavvikelsen) av differenserna bör ha blivit mycket större när värden före och efter kombineras slumpmässigt.
86
Q

Data är från en studie av Guillan-Barre syndrom.

  • (a) Vilket test anser du vara lämpligt för att jämföra medelvärden av peak O2 produktion hos patienter som hamnat på intensivvård (ICU) med dem som inte hamnat där.
  • (b) Vilka antaganden behöver man göra när man gör testet?
A
  • (a) Ett tvåstickprovs t-test
  • (b) Båda grupperna ska normalfördelade med lika varians och alla observationer vara oberoende.
87
Q

Korrelation betcknas r.

  • (a) Vilka värden kan en korrelation ha?
  • (b) Skissa en scatterplot som innebär r=-0.9
A
  • (a) −1 ≤ r ≤ 1
  • (b) negativ lutning och nära linjen. Kolla bilden nedan
88
Q

I en viss hobbyodling av äpplen var 30% angripna av mask och 40% av skorv. Riktigt illa var det för 24% som var angripna av både mask och skorv.

  • (a) Hur stor andel av äpplena var felfria? Visa beräkningen.
  • (b) Kan vi anse att angrepp av mask är oberoende av angrepp av skorv? Motivera.
A
  • (a) Beteckna med M händelsen maskätna och med S händelsen skorvangripen. Då vet vi
  • P(M U S) = P(M) + P(S) − P(M ∩ S) = 0.3 + 0.4 − 0.24 = 0.46*

vilket alltså motsvarar de som har något fel, så felfria är 1-0.46=0.54, dvs 54%

  • Nej, ty
  • P(M)P(S) = 0.3 · 0.4 = 0.12 6= 0.24 = P(M ∩ S)*
89
Q

För prostatacancer angavs i Wolf et al 2010 att med en gräns på PSA=3 µg/l har PSA testning en sensitivitet på 32% och en specicitet på 85%. Beräkna PPV om den screenade populationen har en prevalens på 10%.

A
90
Q

På en stor tandvårdsklinik insamlades data från vuxna patienter med svår inammation av tandköttet (periodontitis). Som jämförelsegrupp valde man för varje periodontitis två personer med normalt tandkött

  • (a) Beräkna oddskvoten
  • (b) Beräkna riskkvoten om du anser att det lämpligt
  • (c) Vad tänker du använda för test för att undersöka om det finns ett signikant samband mellan tandtrådsanvändning och periodontitis?
A
  • (a) Se bilden nedan
  • (b) Det är inte lämpligt, eftersom det tydligen är en fall-kontroll(en grupp människor som har sjukdom och en grupp människor som är friska) design
  • (c) Ett chi2-test
91
Q

Ange två anledningar till varför centrala gränsvärdessatsen är viktig inom statistik?

A
  1. Många variabler i naturen är ungefär normalfördelade eftersom de byggs upp av många små slumpmässiga komponenter. Därför fungerar det som modell för dessa variabler
  2. Medelvärden blir snabbt normalfördelade och därför kan man använda statistik som baseras på normalfördelningen.
92
Q

Vilket eller vilka av följande påståenden är sanna?

  • (a) p-värde och signikansnivå är samma sak
  • (b) Om 95% kondensintervallet för skillnaden i medelvärde av en variabel mellan två grupper inte innehåller värdet 0 så är p-värdet mindre än 0.05.
  • (c) Ett p-värde på 0.01 innebär att det är 99% chans att H1 är sann
  • (d) Ett p-värde på 0.01 innebär att det är 1% chans att H0 är sann
A

Endast b är sann

93
Q

Nedan visas utdata från en modell av glukos samband med vikt (kg) och längd (meter)

  • (a) Vad var p-värdet för längd (height)?
  • (b) Vad var förklaringsgraden?
  • (c) Vilket glukosvärde förväntas man ha om man väger 80 kg och är 180 cm lång?
A
  • (a) P = 1.1 · 10−7
  • (b) R2=7.3%
  • (c) glukos = 158.318 + 0.714 · 80 − 61.512 · 1.80 ≈ 105
94
Q
  • (a) Förklara vad det innebär att HR (hazard ratio) för män jmf med kvinnor är 2?
  • (b) Rita en Kaplan-Meier graf som går från 0 till 10 år och där 40% har dött efter 5 år, men därefter dör ingen.
A
  • (a) Det innebär att mäns momentana risk är dubbelt så stor som kvinnors. Med momentan risk menas risken att dö inom ett kort tidsintervall.
  • (b) T.ex så här:
95
Q

En logistisk regressionsanalys gav resulatet OR=1.01 per år. Vad är OR per 20 år?

A

OR20 år = OR20 = 1.22

96
Q

Ett stickprov på 100 individer gav x = 216 ± 4 där 4 var standardfelet.

  • (a) Bilda ett kondensintervall för väntevärdet
  • (b) Vad skattades standardavvikelsen till?
A
  • (a) Ett 95% kondensintervall är

x¯ ± 1.96SE = 216 ± 1.96 · 4 = 216 ± 7.84

dvs ca (208,224)

  • (b) 4 = SE = s/√ 100 = s/10

så s = 40

97
Q

En genome wide association studie (GWAS) av MS tittar på 1 miljon SNP:er över hela genomet.

  • (a) Hur många signikanta fynd kan de räkna med att få om de använder signikansnivå 0.05?
  • (b) Den bäst associerade SNP:n ger ett p-värde på 4·10−8. Kan det anses vara signikant om vi tar hänsyn till antalet test? Motivera varför
A
  • (a) 0.05 · 1000000 = 50000
  • (b) Ja,

pc = 106 · 4 · 10−8 = 4 · 10−2 = 0.04 < 0.05

98
Q

Beskriv två olika sätt att konstruera referensintervall(den rekomenderade intervallet, dvs om siffran hammnar inom detta intervall så innebär det att det är normal) när data antas vara normalfördelade. (Den ena metoden utnyttjar inte att data är normalfördelat)

A
  1. Skatta percentiler direkt ur datamaterialet
  2. Skatta medel och standardavvikelse och sen bilda intervallet med hjälp av formler för normalfördelade variabler
99
Q

Anta att du har tre grupper med väntevärden µ1, µ2 och µ3 och du bedömer att de har samma varians och är normalfördelade. Du väljer förstås att göra en ANOVA.

  • (a) Formulera nollhypotes och alternativhypotes.
  • (b) F-testet i ANOVAn blir signikant, så nu vill du undersöka vari eventuella skillnader består. Vad fortsätter du med för test?
A
  • (a) H0 : µ1 = µ2 = µ3 mot H1 : alla är inte lika
  • Tukey
100
Q

En forskargrupp har visat att en behandling har effekt (P=0.001) och kon- densintervallet går från 1.6 till 4.8. En annan forskargrupp som försöker replikera resultatet skattar effekten till 3.9 (P=0.25). Hur bör man nu resonera? Har det blivit mindre troligt att vi har en effekt eller har det blivit mer troligt? Motivera ditt svar.

A

Det har blivit mer troligt. Den förra gruppen hade ett skattat medelvärde (1.6+4.8)/2=3.2. Om vi får ett medelvärde på 3.9>3.2, så stöder det tidigare fynd att behandlingen har effekt.

101
Q

Förklara begreppet styrka (power) och nämn 3 saker som spelar roll för styrkan

A

Styrka = P(Förkasta H0|H1 är sann)

Beror av stickprovsstorlek, effektstorlek och signikansnivå

102
Q

Nedan visas en ROC-kurva.

  • Hur hög andel falska negativa får vi räkna med om vi väljer en gräns som ger 20% falskt positiva?
A

40% (gå in på 0.2 på x-axeln och läs av sensitivitet 0.6). Andel falska negativa är 1-sensitiviteten=0.4)

103
Q

I en studie av 64752 konsekutiva förlossningar studerades bland annat sambandet mellan mammans rökning och förtidsbörd (barnet född före 37 fullgångna veckor). Resultatet visas i tabell 1

  • (a) Vilket test bör vi använda för att analysera om rökare har annorlunda risk än icke rökare?
  • (b) Beräkna oddskvoten för förtidsbörd om man är rökare jämfört med icke rökare.
  • (c) Eftersom det här kan anses vara ett stickprov från populationen är det också meningsfullt att beräkna riskkvoten. Gör det!
  • (d) Om du har räknat rätt blir OR väldigt lika RR. Förklara varför det blir så.
A
  • (a) Chi2-test
  • (b) OR = 253 · 56654 / 5891 · 1954 ≈ 1.245
  • (c) Se bilden nedan
  • (d) Båda riskerna är små. Då blir båda oddsen ungefär samma som motsvarande risker och därför blir också oddskvoten ungefär som riskvoten.
104
Q

En positiv bieffekt av fetmaoperationer är att många blir av med sin typ 2 diabetes. I en studie av 1836 operationer fann man att glukosvärdena sjönk med i genomsnitt 0.924 mmol/L med ett standardfel på 0.039

  • (a) Vilket test bör man ha använt för att analysera förändringen i glukosvärden?
  • (b) Vad var standardavvikelsen för glukossänkningen?
  • (c) Ge ett 95% konffidensintervall för glukossänkningen.
  • (d) Var den genomsnittliga sänkningen signiffikant skild från 0 om vi använder signiffikansnivå 0.05? Motivera!
A
  • (a) Parat t-test
  • (b) s = SE · √ n = 0.039 · √ 1836 ≈ 1.67
  • (c) x ± 1.96 · SE = 0.924 ± 1.96 · 0.039 (0.85, 1.00)
  • (d) Ja, eftersom sänkningen är 0 om H0 är sann och 0 finns inte i konfidensintervallet. Dualiteten ger att vi kan förkasta H0 med signi- kansnivå 0.05.
105
Q

Pensionärsföreningen Vilan har många medlemmar och flera olika delföreningar, bland andra boule och körsång. Boule är vanligast, 60% av Vilans medlemmar spelar boule, medan det är 20% som sjunger i kören. Bland körsångarna är det 40% som spelar boule.

  • (a) Är bouleintresset och körsångsintresset oberoende? Motivera!
  • (b) Hur stor andel av Vilans medlemmar spelar både boule och sjunger i kör?
  • (c) Hur stor andel av boulespelarna sjunger också i kör?
  • (d) Hur stor andel spelar varken boule eller sjunger i kör?
A
  • (a) Nej, låt oss kalla händelserna B och K för deltagande i boule respektive körsång. Det följer direkt av informationen i texten att

P(B) = 0.6 ej lika med 0.4 = P(B|K)

  • (b) P(B ∩ K) = P(B|K)P(K) = 0.4 · 0.2 = 0.08
  • (c) Se bilden nedan
  • (d) Komplementet till detta är att tillhöra minst en delförening dvs

P(B U K) = P(B) + P(K) − P(B ∩ K) = 0.6 + 0.2 − 0.08 = 0.72

och därmed är andelen som varken spelar boule eller sjunger i kör 1-0.72=0.28 (28%).

106
Q

Figur 1 visar dagligt folatintag för 65630 gravida kvinnor. Låga halter av folat i blodet före och under de första veckorna ökar risken för ryggmärgsbråck hos fostret.

  • (a) Vad kallas den typ av graf som visas i figur 1?
  • (b) Medelvärdet av folatintaget är 472 µg/dag med ett 95% kondensintervall på (469,473), som är baserat på normalfördelning (dvs x¯ ± 1.96 ·standardfel). Varför kan man göra så trots att fördelningen inte alls ser normalfördelad ut?
  • (c) Det rekommenderade dagliga intaget för gravida kvinnor är 500 µg/dag. Anta att vill testa om medelvärdet i gruppen är 500. Vilket test bör du då använda?
  • (d) Det skattade medelvärdet (och hela kondensintervallet) är tydligt
    lägre än 500, men även om det varit 500 borde vi inte varit nöjda.
    Förklara varför!
A
  • (a) Histogram
  • (b) Vi har ett väldigt stort antal (65630). Medelvärdet kommer att vara normalfördelat på grund av centrala gränsvärdessatsen
  • (c) Enstickprovs t-test.
  • (d) Om medelvärdet är 500 så måste det finnas de som är under. Vissa kan dessutom vara mycket under och ha förhållandevis höga risker.
107
Q

I en dietstudie med möss fick musmammorna olika dieter under graviditeten och amningen. En grupp fick fisk och en annan kött. Efter amningens slut vägdes musungarna och båda grupperna vägde då lika i genomsnitt. När musungarna var 16 veckor vägdes de igen och deras medelvikt samt standardavvikelse illustreras i diagrammet i figur 2

  • (a) Vad kallas diagramtypen?
  • (b) Vilket test vill du använda för att avgöra om det är skillnad i vikt vecka 16?
  • (c) Det testet antar att vikten är normalfördelad i båda grupperna och det antar dessutom något om populationsstandardavvikelsen i de båda grupperna. Vad är det antagandet och verkar det vara uppfyllt?
  • (d) I princip skulle vi kunna mäta oss fram till medelvärden och standardavvikelser med hjälp av diagrammet. Vad behöver vi rimligen också veta för att kunna göra ett signikanstest om det är någon skillnad?
A
  • (a) Stapeldiagram eller bar plot på engelska.
  • (b) Ett tvåstickprovs t-test.
  • (c) Standardavvikelsen σ ska vara lika i båda grupperna och att döma av grafen så verkar de båda skattningarna sfisk och skött vara hyfsat lika.
  • (d) Vi behöver också antalet möss i respektive grupp
108
Q

Vid behandling av hepatit C eftersträvas SVR (Sustained Viral Response) som denfinieras av att virus inte kan detekteras 24 veckor efter avslutad behandling. I en studie av ITPA-genens betydelse för SVR genotypades en snp, rs7270101, som är en A->C polymor. Den kodades efter antalet C-alleler, dvs genotyperna kodas enligt AA=0, AC=1 och CC=2 och används sen som en numerisk prediktor. Resultatet av lämplig analys med den binära responsvariabeln SVR presenteras i figur 3

  • (a) Vad kallas analysen?
  • (b) Vad kallas eektmåttet 2.074 som står under rubriken Exp(B)?
  • (c) Anta att vi presenterar effektmåttet 2.0742 ≈ 4.3. Vilka två genotyper har vi då jämfört?
A
  • (a) Logistisk regression
  • (b) Odds kvot (OR)
  • (c) Homozygoterna, dvs CC vs AA eftersom de är kodade 2 vs 0.
109
Q

I tabell 2 visas sensitivitet och specicitet för en hypotetisk biomarkör.

  • (a) Skriv in namn på axlarna i diagrammet och rita in en ROC-kurva som svarar mot den tänkta biomarkören och en annan ROC-kurva som svarar mot en helt värdelös biomarkör, dvs en som har samma fördelning hos både sjuka och friska.
  • (b) Beräkna positiva prediktiva värdet (PPV) för gränsen som ger 80% sensitivitet om prevalensen är 10%.
A
110
Q

I figur 4 visas samband mellan WHR (waist-to-hip-ratio) och HDL (det goda kolestorolet) mätt som mg/dL. Analysen är gjord på 70-åriga kvinnor med hjärtsjukom. Förklaringsgraden angavs till 5.3%.

  • (a) Vad kallas analysen som visas i figuren?
  • (b) Vad är värdet på korrelationen?
  • (c) Är korrelationen signikant skild från 0? Motivera svaret.
  • (d) Vilket genomsnittligt HDL har kvinnor med WHR=0.9 enligt modellen?
A
  • (a) Linjär regression
  • (b) r = − √ R2 = − √ 0.053 ≈ −0.23

Minustecknet eftersom lutningen i regression är negativ.

  • (c) Ja, p-värdet för korrelation är samma som p-värdet för lutningen (p = 0.021 < 0.05, uppgiften sa inget om nivån, så vi får anta 0.05)
  • (d) HDL = 84.404 − 39.740 · 0.9 ≈ 48.6
111
Q

I en studie av återfall efter en viss typ av hjärnblödning (Lobar Intracerebral Hemorrhage) undersöktes betydelsen av APOE-genen. Man jämförde de som var homozygota för den vanligaste allelen epselon3 med övriga

  • (a) Vad kallas grafen?
  • (b) Vad är mediantiden till återfall för övriga genotyper?
A
  • (a) Kaplan-Meier graf
  • (b) Genom att läsa av grafen där y=0.5, får man ca 37 månader.
112
Q

I en studie av återfall efter en viss typ av hjärnblödning (Lobar Intracerebral Hemorrhage) undersöktes betydelsen av APOE-genen. Man jämförde de som var homozygota för den vanligaste allelen epselon3 med övriga

  • (c) De två kurvorna i grafen kan jämföras med ett test som kallas logranktest. En alternativ analys presenteras nedan. Vad kallas analysen?
  • (d) Vad kallas eektmåttet 3.797 som står under rubriken Exp(B)?
A
  • (c) COX regression
  • (d) Hazardkvot (HR)
113
Q

När vi ska skatta en proportion, t ex andelen med antikroppar mot COVID19, tar vi ett stickprov av någon storlek n och räknar ut hur många, S, som har antikroppar varefter vi rapporterar att 100 S/n% har antikroppar.

  • (a) Uppenbarligen kan S variera och om vi antar att alla i stickprovet är oberoende av varandra vet vi vilken sannolikhetsfördelning S har. Vad kallas den?
  • (b) Om den skattade andelen är pˆ = S/n kan man bilda ett approximativt 95% kondensintervall genom att skatta standardfelet

SE =√pˆ(1 − pˆ)/n

varpå kondensintervallet blir pˆ± 1.96 · SE och eftersom allt ändå är approximativt kan vi använda konstanten 2 istf 1.96. Utnyttja detta för att beräkna ett kondensintervall om n = 100 och S = 10.

  • (c) Ett enkelt genomförbart förfarande om vi vill veta hur vanligt det är bland ungdomar vore att testa 3 gymnasieklasser (det borde bli ca 100). Det nns dock ett problem med detta vad gäller fördelningen av S. Vilket är problemet?
A
  • (a) Binomialfördelning
  • (b)

pˆ = 10/100 = 0.1

SE = √ 0.1 · 0.9/n = 0.03

x¯ ± 2 · SE = 0.1 ± 2 · 0.03 = 0.1 ± 0.06 (0.04, 0.16)

  • (c) Det är en smittsam sjukdom och vi kan därför inte anta att förekomsten av smitta hos ungdomar i samma klass är oberoende.
114
Q

Anta att du har tre olika behandlingar och du randomiserar patienterna till tre grupper. Eekten är en sänkning av en koncentration och vi antar att sänkningen är normalfördelad.

  • (a) Vilket test bör användas för att se om det överhuvudtaget är någon skillnad mellan behandlingarna?
  • (b) Nu antar vi istället att det är samma behandling, bara tre olika doser med koncentrationerna 0 (dvs placebo) ,20 och 40. Du bedömer att sänkningen är proportionell mot dosen. Vilket test kan vara lämpligt i detta fall?
  • (c) Det test du bör ha föreslagit i (b) har helt enkelt större sannolikhet att detektera skillnader än testet i (a). Vad kallas sannolikheten att kunna förkasta nollhypotesen om alternativhypotesen är sann?
A
  • (a) ANOVA
  • (b) Linjär regression (med dosen som prediktor)
  • (c) Styrka
115
Q

I en studie av 64752 konsekutiva förlossningar studerades bland annat sambandet mellan mammans rökning och förtidsbörd (barnet född före 37 fullgångna veckor). Resultatet visas i tabell 1

  • a) Vilket test bör vi använda för att analysera om rökare har annorlunda risk än icke rökare?
  • b) Beräkna oddskvoten för förtidsbörd om man är rökare jämfört med
    icke rökare.
  • c) Eftersom det här kan anses vara ett stickprov från populationen är det också meningsfullt att beräkna riskkvoten. Gör det!
  • d) Om du har räknat rätt blir OR väldigt lika RR. Förklara varför det blir så.
A
116
Q

En positiv bieffekt av fetmaoperationer är att många blir av med sin typ 2 diabetes. I en studie av 1836 operationer fann man att glukosvärdena sjönk med i genomsnitt 0.924 mmol/L med ett standardfel på 0.039

  • a) Vilket test bör man ha använt för att analysera förändringen i glukosvärden?
  • b) Vad var standardavvikelsen för glukossänkningen?
  • c) Ge ett 95% konfidensintervall för glukossänkningen.
  • d) Var den genomsnittliga sänkningen signifikant skild från 0 om vi använder signifikansnivå 0.05? Motivera!
A
117
Q

Pensionärsföreningen Vilan har många medlemmar och fera olika delföreningar, bland andra boule och körsång. Boule är vanligast, 60% av Vilans medlemmar spelar boule, medan det är 20% som sjunger i kören. Bland körsångarna är det 40% som spelar boule.

  • a) Är bouleintresset och körsångsintresset oberoende? Motivera!
  • b) Hur stor andel av Vilans medlemmar spelar både boule och sjunger
    i kör?
  • c) Hur stor andel av boulespelarna sjunger också i kör?
  • d) Hur stor andel spelar varken boule eller sjunger i kör?
A
118
Q

<em>Figur 1 visar dagligt folatintag för 65630 gravida kvinnor. Låga halter av folat i blodet före och under de första veckorna ökar risken för ryggmärgsbråck hos fostret.</em>

  • a) Vad kallas den typ av graf som visas i fgur 1?
  • b) Medelvärdet av folatintaget är 472 μg/dag med ett 95% konfdensintervall på (469,473), som är baserat på normalfördelning (dvs x ̄ ± 1.96 · standardfel). Varför kan man göra så trots att fördelningen inte alls ser normalfördelad ut?
  • c) Det rekommenderade dagliga intaget för gravida kvinnor är 500 μg/dag. Anta att vill testa om medelvärdet i gruppen är 500. Vilket test bör du då använda?
  • d) Det skattade medelvärdet (och hela konfdensintervallet) är tydligt lägre än 500, men även om det varit 500 borde vi inte varit nöjda. Förklara varför!
A
  • a) Histogram
  • b) Vi har ett väldigt stort antal (65630). Medelvärdet kommer att vara normalfördelat på grund av centrala gränsvärdessatsen.
  • c) Enstickprovs t-test
  • d) Om medelvärdet är 500 så måste det fnnas de som är under. Vissa kan dessutom vara mycket under och ha förhållandevis höga risker.
119
Q

<em>I en dietstudie med möss fick musmammorna olika dieter under graviditeten och amningen. En grupp fick fisk och en annan kött. Efter amningens slut vägdes musungarna och båda grupperna vägde då lika i genomsnitt. När musungarna var 16 veckor vägdes de igen och deras medelvikt samt standardavvikelse illustreras i diagrammet i figur 2</em>

  • a) Vad kallas diagramtypen?
  • b) Vilket test vill du använda för att avgöra om det är skillnad i vikt vecka 16?
  • c) Det testet antar att vikten är normalfördelad i båda grupperna och det antar dessutom något om populationsstandardavvikelsen i de båda grupperna. Vad är det antagandet och verkar det vara uppfyllt?
  • d) I princip skulle vi kunna mäta oss fram till medelvärden och standardavvikelser med hjälp av diagrammet. Vad behöver vi rimligen också veta för att kunna göra ett signifikanstest om det är någon skillnad?
A
  • a) Stapeldiagram eller bar plot på engelska.
  • b) Ett tvåstickprovs t-test.
  • c) Standardavvikelsen σ ska vara lika i båda grupperna och att döma av grafen så verkar de båda skattningarna sfisk och skött vara hyfsat lika.
  • d) Vi behöver också antalet möss i respektive grupp.
120
Q

Vid behandling av hepatit C eftersträvas SVR (Sustained Viral Response) som de􏰁nieras av att virus inte kan detekteras 24 veckor efter avslutad behandling. I en studie av ITPA-genens betydelse för SVR genotypades en snp, rs7270101, som är en A->C polymorfi**. Den kodades efter antalet C- alleler, dvs genotyperna kodas enligt AA=0,AC=1 och CC=2 och används sen som en numerisk prediktor. Resultatet av lämplig analys med den binära responsvariabeln SVR presenteras i figur 3

  • a) Vad kallas analysen?
  • b) Vad kallas effektmåttet 2.074 som står under rubriken Exp(B)?
  • c) Anta att vi presenterar effektmåttet 2.0742 ≈ 4.3. Vilka två genotyper har vi då jämfört?
A
  • a) Logistisk regression
  • b) Odds kvot (OR)
  • c) Homozygoterna, dvs CC vs AA eftersom de är kodade 2 vs 0.
121
Q

I tabell 2 visas sensitivitet och speci􏰁citet för en hypotetisk biomarkör.

  • a) Skriv in namn på axlarna i diagrammet och rita in en ROC-kurva som svarar mot den tänkta biomarkören och en annan ROC-kurva som svarar mot en helt värdelös biomarkör, dvs en som har samma fördelning hos både sjuka och friska.
  • b) Beräkna positiva prediktiva värdet (PPV) för gränsen som ger 80% sensitivitet om prevalensen är 10%.
A
122
Q

<em>I figur 4 visas samband mellan WHR (waist-to-hip-ratio) och HDL (det goda kolestorolet) mätt som mg/dL. Analysen är gjord på 70-åriga kvinnor med hjärtsjukom. Förklaringsgraden angavs till 5.3%.</em>

  • a) Vad kallas analysen som visas i figuren?
  • b) Vad är värdet på korrelationen?
  • c) Är korrelationen signifkant skild från 0? Motivera svaret.
  • d) Vilket genomsnittligt HDL har kvinnor med WHR=0.9 enligt modellen?
A
123
Q

<em>I en studie av återfall efter en viss typ av hjärnblödning (Lobar Intracere- bral Hemorrhage) undersöktes betydelsen av APOE-genen. Man jämförde de som var homozygota för den vanligaste allelen ε3 med övriga</em>

  • a) Vad kallas grafen?
  • b) Vad är mediantiden till återfall för övriga genotyper?
  • c) De två kurvorna i grafen kan jämföras med ett test som kallas logranktest. En alternativ analys presenteras i bilden.
  • d) Vad kallas effektmåttet 3.797 som står under rubriken Exp(B)?
A
  • a) Kaplan-Meier graf
  • b) Genom att läsa av grafen där y = 0.5, får man ca 37 månader.
  • c) COX regression
  • d) Hazardkvot (HR)
124
Q

<em>När vi ska skatta en proportion, tex andelen med antikroppar mot COVID- 19, tar vi ett stickprov av någon storlek n och rä</em><em>knar ut hur många, S, som har antikroppar varefter vi rapporterar att 100 S/n % har antikroppar.</em>

A

*

125
Q

<em>Anta att du har tre olika behandlingar och du randomiserar patienterna till tre grupper. Effekten är en sänkning av en koncentration och vi antar att sänkningen är normalfördelad.</em>

  • a) Vilket test bör användas för att se om det överhuvudtaget är någon skillnad mellan behandlingarna?
  • b) Nu antar vi istället att det är samma behandling, bara tre olika doser med koncentrationerna 0 (dvs placebo) ,20 och 40. Du bedömer att sänkningen är proportionell mot dosen. Vilket test kan vara lämpligt i detta fall?
  • c) Det test du bör ha föreslagit i (b) har helt enkelt större sannolikhet att detektera skillnader än testet i (a). Vad kallas sannolikheten att kunna förkasta nollhypotesen om alternativhypotesen är sann?
A
  • a) ANOVA
  • b) Linjär regression (med dosen som prediktor)
  • c) Styrka
126
Q

<em>En sjukdom har en mängd olika symptom. De två vanligaste symptomen är A och B. A förekommer hos 80% av patienterna, B förekommer hos 60% av patienterna. Hos 16% av patienterna förekommer varken A eller B.</em>

  • a) Hur stor andel har minst en av de två vanligaste symptomen?
  • b) Hur stor andel har båda de vanligaste symptomen?
  • c) Undersök om symptomen är oberoende?
  • d) Vad är sannolikheten att en patient som har symptom A även har symptom B?
A
127
Q

<em>Följande figur visar en ROC-kurva för en diagnostisk variabel. Beräkna det positiva prediktiva värdet om vi antar att prevalensen är 5% och vi använder en cutoff där sensitiviteten är 80%.</em>

A
128
Q

<em>När man har en teststatistika som är en diskret stokastisk variabel går det i allmänhet inte att åstadkomma ett test som har exakt signifikansnivå 0.05. I praktiken tvingas man då använda en beslutsregel med en signifikansnivån som är lägre än 0.05. I en pilotstudie med 12 patienter vill man visa att en ny behandling är bättre än den gamla behandlingen som bara botade 50%. Man hoppas att den nya behandlingen ska bota så många som 90%. I figuren nedan är sannolikheter för antal botade (k) beräknade för dels botfrekvens θ = 0.5 och dels botfrekvensen θ=0.9. Vi avser alltså att testa H0: θ=0.5 mot H1: θ>0.5.</em>

  • a) Vilken fördelning har antalet botade om nollhypotesen är sann. Ange både namnet på fördelningen och dess parametrar.
  • Bestäm hur många som måste botas för att vi ska kunna förkasta nollhypotesen med en signifikansnivå som är högst 0.05 och ange vad signifikansnivån blir då.
  • Beräkna vad styrkan för testet är om θ = 0.9.
  • När studien så småningom genomförs visar det sig att 9 patienter botas. Vad är då p-värdet?
A
  • a) Antalet botade, S, är binomialfördelad: bin(12,0.5)
  • b) Det krävs 10 och då blir signifikansnivån α = P (S ≥ 10)|θ = 0.5) = 0.0161+ 0.0029 + 0.0002 = 0.0192 < 0.05.
  • c) Styrkan är 1−β = P((S ≥ 10|θ = 0.9) = 0.2301+0.3766+0.2824 = 0.8891
  • d) p = P(S ≥ 9|θ = 0.9) = 0.0537 + 0.2301 + 0.3766 + 0.2824 = 0.0729
129
Q

Hos 400 patienter som bar på ett virus uppmättes nivåerna (kopior/μl) till medel 174 med en standardavvikelse på 240. Man angav ockå följande skattningar på percentiler:

  • a) Illustrera detta med dels en boxplot och dels ett stapeldiagram med standardfelet som felstapel.
  • b) Argumentera utifrån dessa data varför det inte är rimligt att anta att virusnivåerna är normalfördelade.
  • Vad kan vi göra om vi vill använda virusnivåerna i statistiska modeller som förutsätter normalfördelning?
A
130
Q

<em>Öppna filen pojkar.sav. Den består av en speciell grupp pojkar från en tysk studie. Det finns uppgifter om deras längd och vikt vid födseln, 5 år och 10 år. Dessa mått är angivna i SDS (standard deviation score) vilket är samma som det som i kompendiet kallas Zscore. Därutöver finns uppgifter om ett hormon vid 5 och 10 år, föräldrarnas längd i cm samt uppgift om mamman hade en viss problematik vid graviditeten.</em>

A
  • a) Både längd (∆SDS = 1.1,p = 0.0000004) och vikt (p = ∆SDS = 0.6,p = 0.005) har ökat klart signifikant.
  • b) Vid födseln är barnens vikt signifikant lägre än normen.
131
Q

Fortsätt med filen pojkar.sav

A
  • a) Det finns en signifikant skillnad ty p=0.001<0.05
  • b) Normalfördelning i båda grupperna, lika varians i båda grupperna, alla observationer oberoende.