Övningsfrågor Flashcards
Vi har två händelser A och B med P(A)=0.3 och P(B)=0.5. Sannolikheten att varken A eller B händer är 0.4
- Undersök om A och B är oberoende?
Vi har två händelser A och B med P(A)=0.3 och P(B)=0.5. Sannolikheten att varken A eller B händer är 0.4
- Bestäm P(A|B) och P(B|A)
I ett projektarbete på läkarprogrammet studerades gifta kvinnor i åldern 16 till 49 i distriktet Amppipal i Nepal. Man fann att var sjätte kvinna var steriliserad, var tredje steriliserad kvinna var analfabet och var femte analfabet var steriliserad. Med hjälp av den här informationen ska vi bestämma hur stor andel av kvinnorna som var analfabeter. Vi betecknar händelserna A=Analfabet och S=Steriliserad och söker alltså P(A). Ange följande sannolikheter mha informationen i texten
- P(S)=?
- P(A|S)=?
- P(S|A)=?
- Bestäm med hjälp av några av talen ovan P(A∩S), dvs sannolikheten att en kvinna är både analfabet och steriliserad.
- Bestäm nu till sist P(A)
- var sjätte kvinna var steriliserad: P(S)=1/6
- var tredje steriliserad kvinna var analfabet: P(A|S)=1/3
- var femte analfabet var steriliserad: P(S|A)=1/5
- P(A ∩ S) = P(A|S) • P(S) = 1/3 • 1/6 = 1/18
- Skriv om snittet som
P(A ∩ S) = P(S|A) • P(A)
- det ger då:
1/18 = 1/5 • P(A)
- så P(A) = 5/18
Ett populärt tävlingsprogram avslutas med att den tävlande ställs inför 3 stängda luckor. Bakom en av luckorna döljer sig en ny Tesla och bakom de andra två nns det elsparkcyklar. Den tävlande får peka på en lucka och tävlingsledaren som vet var Teslan finns öppnar då en av de andra luckorna och visar att det fanns en elsparkcykel där. Sedan får den tävlande välja om hen vill byta till den återstående stängda luckan eller stanna kvar på den först valda. Ska den tävlande byta, stanna kvar eller spelar det ingen roll?
I en amerikansk studie från 70−talet undersökte man utfallet av villkorlig frigivning hos 80 dömda mördare. Mördarna var klassicerade utifrån om mordet var överlagt eller impulsivt. Beräkna oddskvoten för misslyckat utfall för de impulsiva jämfört med de överlagda morden.
I en studie som syftade till att jämföra två kirurgiska metoder att behandla njursten var ena metoden är öppen kirurgi, medan den andra metoden kallas PCNL (Percutaneous nephrolithotomy) och är en mindre invasiv metod. För att jämföra dessa metoder samlades utfallet av 700 operationer, 350 av varje sort.
- En första analys gav följande resultat. (se bilden nedan)
- Beräkna sannolikheter för lyckad operation för de två metoderna. Vilken verkar bäst?
- P(lyckad|PCNL) = 289/350 = 0.82
- P(lyckad|öppen kirurgi) = 273/350 = 0.78
Då verkar PCNL bäst
I en studie som syftade till att jämföra två kirurgiska metoder att behandla njursten var ena metoden är öppen kirurgi, medan den andra metoden kallas PCNL (Percutaneous nephrolithotomy) och är en mindre invasiv metod. För att jämföra dessa metoder samlades utfallet av 700 operationer, 350 av varje sort.
- När man sedan delar upp analysen i små stenar och stora stenar ser det ut så här
- Beräkna på nytt sannolikheterna för lyckad operation för de två metoderna. Vilken verkar bäst på små stenar och vilken verkar bäst på stora stenar?
- För små stenar
- P(lyckad|PCNL) = 234/270 = 0.87
- P(lyckad|öppen kirurgi) = 81/87 = 0.93
Då verkar öppen kirurgi bäst.
- För stora stenar
- P(lyckad|PCNL) = 55/80 = 0.69
- P(lyckad|öppen kirurgi) = 192/263 = 0.73
Då verkar öppen kirurgi bäst.
I en studie som syftade till att jämföra två kirurgiska metoder att behandla njursten var ena metoden är öppen kirurgi, medan den andra metoden kallas PCNL (Percutaneous nephrolithotomy) och är en mindre invasiv metod. För att jämföra dessa metoder samlades utfallet av 700 operationer, 350 av varje sort.
- Det här verkar ju paradoxalt, men har en naturlig förklaring. Vilken är förklaringen och vilken metod tycker du är bäst?
Öppen kirurgi är bäst. Paradoxen uppstår pga att det här inte är en randomiserad studie utan läkarna har tenderat att välja öppen kirurgi när stenarna varit stora och PCNL när stenarna varit små. Eftersom det rimligen är lättare att nå bra resultat med små stenar än med stora stenar så får vi tokigt resultat när vi inte tar hänsyn till stenens storlek i (a). Fenomenet kallas Simpsons paradox. Den felaktiga tolkningen i dessa situationer är delvis förklaringen till att den holländska sjuksköterskan Lucia de Berk dömdes till livstids fängelse. Hon friades först efter sju år.
Nedan är ett histogram över graviditetslängden hos några kvinnor som födde sitt 5:e barn. Det var 576 kvinnor och graviditetslängden var i medeltal 278 dagar med en standardavvikelse på 12.
- Beräkna standardfelet
- Hur många fler kvinnor skulle vi behöva för att kunna halvera standardfelet?
- För normalfördelning gäller att ca 95% av alla värden finns inom ±2 standardavvikelser från medelvärdet. Då är det ca 2.5% som är över 2 standardavvikelser från medelvärdet och 2.5% som är under medelvärdet. Hur väl stämmer det här? (man får läsa av diagrammet så gott det går)
- Någon föreslår att man borde logaritmera graviditetslängden för att den ska bli mer lik normalfördelningen. Vad tycker du om det förslaget?
- SE = s/√ n = 12/ √ 576 = 12/24 = 0.5
- För att halvera standardfelet behöver nämnaren √ n bli dubbelt så stor och då måste n bli 4 ggr större dvs 4 · 576 = 2304
- Vi ska alltså räkna hur många som går över 278 + 2 · 12 = 302 dagar och hur många som går under 278−2·12 = 254 dagar. Jag skattar det till 0 över 302 och 20 under, vilket betyder 0% över och 20/576 = 3.5% under. Det stämmer alltså dåligt med normalfördelningen vilket vi förstås ser tydligt på histogrammet.
- Nja, det är visserliegn en vanlig rekommendation vid skeva fördelningar, men det handlar då om fördelningar som är skeva åt höger, den här är skev åt vänster.
Binomialfördelningen kan approximeras med en normalfördelning. En binomialfördelad variabel har
µ = np
och
σ = √np(1 − p)
Den kan approximeras(ungefärligen beräkna) med en normalfördelning med dessa µ och σ. Med tillgång till Excel kan man jämföra den exakta sannolikheten att få högst 40 krona vid 100 kast, med motsvarande sannolikhet, med en normalfördelning. De funktioner som ska användas heter BINOM.FÖRD och NORM.FÖRD.
Om vi anger = BINOM.FÖRD (40; 100; 0.5; SANT) i en cell får vi
P(X ≤ 40) = 0.028
Motsvarande normalfördelning ska alltså ha
µ = np = 100 · 0.5 = 50
och
σ = √np(1 − p) = √ 100 · 0.5 · 0.5 = √ 25 = 5
Om vi anger = NORM.FÖRD(40; 50; 5; SANT) i en cell får vi
P(X ≤ 40) = 0.023
Hyfsat likt.
Vi tänker oss, för att ha något som går att räkna för hand med, att en biomarkör är likformigt fördelad hos de sjuka mellan 40 och 60, medan de friska är likformigt fördelade mellan 10 och 50. Vi tänker oss också att det nns 10% sjuka. Värden över en viss handlingsgräns ska vi kalla positiva.
- Vilken handlinggränsen bör vi sätta om vi vill ha PPV=100%?
- Vilken handlinggränsen bör vi sätta om vi vill ha NPV=100%?
- Vad blir sensitivitet, specicitet. PPV och NPV om vi sätter en handlingsgräns vid 45
- Om vi sätter gränsen vid 50 kommer ingen av de positiva att vara frisk, dvs PPV=100%
- Om vi sätter gränsen vid 40 kommer ingen av de negativa att vara sjuk, dvs NPV=100%
- Se bilden nedan
Lite att grubbla på.
När man ska studera förändring är det nog vanligast att man studerar skillnad i värden efter och före. Statistiska test kommer sen att handla om ifall medelvärdet av skillnaderna skiljer sig tillräckligt mycket från 0 för att anses statistiskt säkerställda.
I en studie gjorde en statistiker detta och meddelade forskargruppen att hon inte fann några signikanta skillnader. Professorn blev sur, men kom på iden att man kunde titta på kvoten istället och visa att den skiljer sig från 1.
Sagt och gjort, han bad sina två doktorander att göra det var för sig och snart kom de strålande tillbaka med beskedet att nu var det statistiskt säkerställt. När de rapporterade det mer i detalj sa Jack att hans genomsnittliga kvot var 1.3, medan Jill hävdade att den var 1.2. Strunt samma sa Jack de har åtminstone höjt sina värden eftersom Efter/Före > 1. Nej, sa Jill de har sänkt sina värden, min kvot var Före/Efter. Det här förbryllade dem förstås. Nu hade euforin lagt sig och man kallade in statistikern igen och berättade om dilemmat. Hon förklarade då att det är inget fel i att titta på kvoten, men…. Ja vad sa hon sen?
Väntevärdet måste vara större än 1 om nollhypotesen är sann, så man kan inte jämför skillnaden till 1.
Anta att före och efter har samma fördelning. Då ska värdet 2 vara lika vanligt som 1/2, 3 som 1/3 osv. Medelvärdet av 2 och 1/2 är 1.25 > 1 osv. För att ta ett konkret exempel. Anta att variabeln bara kan anta värdena 1 och 2, med vardera sannolikheten 0.5. Då kan kvoten före/efter bli 1 (P = 0.5), 2 (P = 0.25) och 1/2 (P = 0.25). Väntevärdet av kvoten blir då 1.125 > 1 och det blir precis samma sak om vi bildar kvoten efter/före eftersom det inte är någon skillnad på de två fördelningarna.
Så om fördelningen före och efter är lika kommer kvoten visserligen alltid ha en median som är 1, men väntevärdet är alltid > 1.
Även om historien som berättas här är ktiv har jag stött på fenomenet att forskare jämför kvoter med 1 flera gånger.
Samma forskare som ovan intresserade sig också för mental träning inom idrott. I en studie ck 40 skolickor hoppa ett första längdhopp för att få fram ett baselinevärde (ett värde före träning). Sen hade man inte resurser till att ge alla mental träning, så man valde ut de 20 som hoppat kortast. De ck sin träning och sen ck de göra sitt andra hopp. Nu presterade de bättre och skillnaden i längd blev statsitiskt säkerställd. Visa av erfarenheten kallade de åter in statistikern och tyvärr sågade hon deras försök med kommentarerna
- Ni borde haft en kontrollgrupp som inte ck träning att jämföra med. Det är ju fullt möjligt att det ligger till så att man ofta tenderar att hoppa bättre andra gången även utan träning.
- Men det stolligaste med upplägget är ändå… Ja vad sa hon sen?
De 20 som hoppat kortast kan tillhöra den gruppen pga att de inte är lika bra på att hoppa, men delvis också för att deras första hopp var lite sämre än deras normala prestation. Alla som presterade under sin normala prestation bör kunna prestera lite bättre i andra hoppet. Om vi går till ett extremfall tänker vi oss att alla ickorna är lika bra, dvs har samma väntevärde och standardavvikelse. Låt oss säga att väntevärdet är 3. När de då hoppar första gången kanske de 20 sämsta hoppar i genomsnitt 2.5 meter. När de hoppar en gång till bör de nästa gång hoppa i genomsnitt 3 meter. Skillnaden på 0.5 meter kommer felaktigt att tillskrivas mental träning, när det i själva verket bara var en variant på det fenomen som kallas “regression to the mean”
Med ett parat t-test visar en forskargrupp att en behandling höjer koncentrationen av ett ämne i möss med 13 µg/mL (P=0.003). En annan forskargrupp försöker replikera det fyndet, men anger att de inte fann någon signikant förändring och de angav också ett kondensintervall (-5 till 35). De kommenterade då att det första fyndet troligen var ett typ I fel.
- Vad menas med ett typ I fel?
- Den andra gruppen angav alltså att förändringen inte var signikant. Finns det något utöver deras påstående som styrker det?
- Håller du med om kommentaren? Motivera ditt svar.
- P (Förkasta H0 | H0 sann)
- Ja, 95% kondensintervallet täcker 0
- Nej inte alls. Den andra gruppen skattning måste ligga mitt i kondensintervallet och är alltså 15 µg/mL. Det betyder att den gruppen tydligen har fått en större effekt och stärker tron på att det finns en effekt av behandlingen. Att den andra gruppen inte får en signifikant effekt beror rimligen på att de har behandlat för få möss (n för litet).
När man ska konstruera referensfördelningar (och referensintervall) kan man basera dem helt och hållet på skattade percentiler eller genom att anta att data är t ex normalfördelat. För att belysa metoderna har jag simulerat 99 observationer från en normalfördelning med väntevärde 100 och standardavvikelse 10. Skattat medelvärde blev 99.08 och standardavvikelse 10.22.
Använd båda metoderna (med normalfördelningen ska man använda x¯ ± 1.645s för att få 5% percentilen och 95% percentilen och x¯ ± 2.326s för att få 1% percentilen och 99% percentilen) För att få fram percentilerna ur datamängden tar du 5:e värdet nedifrån och uppifrån eftersom vi har 99 observationer som delar upp data i 100 delar för att få 5% och 95% percentilerna, samt lägsta och högsta värde för att få 1% och 99% percentilerna. Beräkna också median ur data. Jämför med de sanna värdena 100 ± 1.645 · 10, 100 ± 2.326 · 10 och 100 och konstatera att det blir hyfsat lika, men att det oftast blir bättre skattningar med antagandet om normalfördelning än om vi skattar med hjälp av de empiriska percentilerna. Så gäller det generellt om vi har begränsade datamängder och data är hyfsat normalfördelade. Om den sanna fördelningen avviker från normalfördelningen och vi har stora datamängder är det däremot att föredra att skatta referensfördelningen och dess percentiler direkt från data, snarare än att gå via normalfördelningsanatgandet.