Övningsfrågor Flashcards

1
Q

Vi har två händelser A och B med P(A)=0.3 och P(B)=0.5. Sannolikheten att varken A eller B händer är 0.4

  • Undersök om A och B är oberoende?​
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vi har två händelser A och B med P(A)=0.3 och P(B)=0.5. Sannolikheten att varken A eller B händer är 0.4​

  • Bestäm P(A|B) och P(B|A)
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

I ett projektarbete på läkarprogrammet studerades gifta kvinnor i åldern 16 till 49 i distriktet Amppipal i Nepal. Man fann att var sjätte kvinna var steriliserad, var tredje steriliserad kvinna var analfabet och var femte analfabet var steriliserad. Med hjälp av den här informationen ska vi bestämma hur stor andel av kvinnorna som var analfabeter. Vi betecknar händelserna A=Analfabet och S=Steriliserad och söker alltså P(A). Ange följande sannolikheter mha informationen i texten​

  1. P(S)=?
  2. P(A|S)=?
  3. P(S|A)=?
  4. Bestäm med hjälp av några av talen ovan P(A∩S), dvs sannolikheten att en kvinna är både analfabet och steriliserad.
  5. Bestäm nu till sist P(A)
A
  1. var sjätte kvinna var steriliserad: P(S)=1/6
  2. var tredje steriliserad kvinna var analfabet: P(A|S)=1/3
  3. var femte analfabet var steriliserad: P(S|A)=1/5
  4. P(A ∩ S) = P(A|S) • P(S) = 1/3 • 1/6 = 1/18
  5. Skriv om snittet som

P(A ∩ S) = P(S|A) • P(A)

  • det ger då:

1/18 = 1/5 • P(A)

  • så P(A) = 5/18
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Ett populärt tävlingsprogram avslutas med att den tävlande ställs inför 3 stängda luckor. Bakom en av luckorna döljer sig en ny Tesla och bakom de andra två nns det elsparkcyklar. Den tävlande får peka på en lucka och tävlingsledaren som vet var Teslan finns öppnar då en av de andra luckorna och visar att det fanns en elsparkcykel där. Sedan får den tävlande välja om hen vill byta till den återstående stängda luckan eller stanna kvar på den först valda. Ska den tävlande byta, stanna kvar eller spelar det ingen roll?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

I en amerikansk studie från 70−talet undersökte man utfallet av villkorlig frigivning hos 80 dömda mördare. Mördarna var klassicerade utifrån om mordet var överlagt eller impulsivt. Beräkna oddskvoten för misslyckat utfall för de impulsiva jämfört med de överlagda morden.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

I en studie som syftade till att jämföra två kirurgiska metoder att behandla njursten var ena metoden är öppen kirurgi, medan den andra metoden kallas PCNL (Percutaneous nephrolithotomy) och är en mindre invasiv metod. För att jämföra dessa metoder samlades utfallet av 700 operationer, 350 av varje sort.

  • En första analys gav följande resultat. (se bilden nedan)
    • Beräkna sannolikheter för lyckad operation för de två metoderna. Vilken verkar bäst?
A
  • P(lyckad|PCNL) = 289/350 = 0.82
  • P(lyckad|öppen kirurgi) = 273/350 = 0.78

Då verkar PCNL bäst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

I en studie som syftade till att jämföra två kirurgiska metoder att behandla njursten var ena metoden är öppen kirurgi, medan den andra metoden kallas PCNL (Percutaneous nephrolithotomy) och är en mindre invasiv metod. För att jämföra dessa metoder samlades utfallet av 700 operationer, 350 av varje sort.

  • När man sedan delar upp analysen i små stenar och stora stenar ser det ut så här
    • Beräkna på nytt sannolikheterna för lyckad operation för de två metoderna. Vilken verkar bäst på små stenar och vilken verkar bäst på stora stenar?
A
  • För små stenar
    • P(lyckad|PCNL) = 234/270 = 0.87
    • P(lyckad|öppen kirurgi) = 81/87 = 0.93

Då verkar öppen kirurgi bäst.

  • För stora stenar
    • P(lyckad|PCNL) = 55/80 = 0.69
    • P(lyckad|öppen kirurgi) = 192/263 = 0.73

Då verkar öppen kirurgi bäst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

I en studie som syftade till att jämföra två kirurgiska metoder att behandla njursten var ena metoden är öppen kirurgi, medan den andra metoden kallas PCNL (Percutaneous nephrolithotomy) och är en mindre invasiv metod. För att jämföra dessa metoder samlades utfallet av 700 operationer, 350 av varje sort.

  • Det här verkar ju paradoxalt, men har en naturlig förklaring. Vilken är förklaringen och vilken metod tycker du är bäst?
A

Öppen kirurgi är bäst. Paradoxen uppstår pga att det här inte är en randomiserad studie utan läkarna har tenderat att välja öppen kirurgi när stenarna varit stora och PCNL när stenarna varit små. Eftersom det rimligen är lättare att nå bra resultat med små stenar än med stora stenar så får vi tokigt resultat när vi inte tar hänsyn till stenens storlek i (a). Fenomenet kallas Simpsons paradox. Den felaktiga tolkningen i dessa situationer är delvis förklaringen till att den holländska sjuksköterskan Lucia de Berk dömdes till livstids fängelse. Hon friades först efter sju år.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Nedan är ett histogram över graviditetslängden hos några kvinnor som födde sitt 5:e barn. Det var 576 kvinnor och graviditetslängden var i medeltal 278 dagar med en standardavvikelse på 12.

  1. Beräkna standardfelet
  2. Hur många fler kvinnor skulle vi behöva för att kunna halvera standardfelet?
  3. För normalfördelning gäller att ca 95% av alla värden finns inom ±2 standardavvikelser från medelvärdet. Då är det ca 2.5% som är över 2 standardavvikelser från medelvärdet och 2.5% som är under medelvärdet. Hur väl stämmer det här? (man får läsa av diagrammet så gott det går)
  4. Någon föreslår att man borde logaritmera graviditetslängden för att den ska bli mer lik normalfördelningen. Vad tycker du om det förslaget?
A
  1. SE = s/√ n = 12/ √ 576 = 12/24 = 0.5
  2. För att halvera standardfelet behöver nämnaren √ n bli dubbelt så stor och då måste n bli 4 ggr större dvs 4 · 576 = 2304
  3. Vi ska alltså räkna hur många som går över 278 + 2 · 12 = 302 dagar och hur många som går under 278−2·12 = 254 dagar. Jag skattar det till 0 över 302 och 20 under, vilket betyder 0% över och 20/576 = 3.5% under. Det stämmer alltså dåligt med normalfördelningen vilket vi förstås ser tydligt på histogrammet.
  4. Nja, det är visserliegn en vanlig rekommendation vid skeva fördelningar, men det handlar då om fördelningar som är skeva åt höger, den här är skev åt vänster.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Binomialfördelningen kan approximeras med en normalfördelning. En binomialfördelad variabel har

µ = np

och

σ = √np(1 − p)

Den kan approximeras(ungefärligen beräkna) med en normalfördelning med dessa µ och σ. Med tillgång till Excel kan man jämföra den exakta sannolikheten att få högst 40 krona vid 100 kast, med motsvarande sannolikhet, med en normalfördelning. De funktioner som ska användas heter BINOM.FÖRD och NORM.FÖRD.

A

Om vi anger = BINOM.FÖRD (40; 100; 0.5; SANT) i en cell får vi

P(X ≤ 40) = 0.028

Motsvarande normalfördelning ska alltså ha

µ = np = 100 · 0.5 = 50

och

σ = √np(1 − p) = √ 100 · 0.5 · 0.5 = √ 25 = 5

Om vi anger = NORM.FÖRD(40; 50; 5; SANT) i en cell får vi

P(X ≤ 40) = 0.023

Hyfsat likt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vi tänker oss, för att ha något som går att räkna för hand med, att en biomarkör är likformigt fördelad hos de sjuka mellan 40 och 60, medan de friska är likformigt fördelade mellan 10 och 50. Vi tänker oss också att det nns 10% sjuka. Värden över en viss handlingsgräns ska vi kalla positiva.

  1. Vilken handlinggränsen bör vi sätta om vi vill ha PPV=100%?
  2. Vilken handlinggränsen bör vi sätta om vi vill ha NPV=100%?
  3. Vad blir sensitivitet, specicitet. PPV och NPV om vi sätter en handlingsgräns vid 45
A
  1. Om vi sätter gränsen vid 50 kommer ingen av de positiva att vara frisk, dvs PPV=100%
  2. Om vi sätter gränsen vid 40 kommer ingen av de negativa att vara sjuk, dvs NPV=100%
  3. Se bilden nedan
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Lite att grubbla på.

När man ska studera förändring är det nog vanligast att man studerar skillnad i värden efter och före. Statistiska test kommer sen att handla om ifall medelvärdet av skillnaderna skiljer sig tillräckligt mycket från 0 för att anses statistiskt säkerställda.

I en studie gjorde en statistiker detta och meddelade forskargruppen att hon inte fann några signikanta skillnader. Professorn blev sur, men kom på iden att man kunde titta på kvoten istället och visa att den skiljer sig från 1.

Sagt och gjort, han bad sina två doktorander att göra det var för sig och snart kom de strålande tillbaka med beskedet att nu var det statistiskt säkerställt. När de rapporterade det mer i detalj sa Jack att hans genomsnittliga kvot var 1.3, medan Jill hävdade att den var 1.2. Strunt samma sa Jack de har åtminstone höjt sina värden eftersom Efter/Före > 1. Nej, sa Jill de har sänkt sina värden, min kvot var Före/Efter. Det här förbryllade dem förstås. Nu hade euforin lagt sig och man kallade in statistikern igen och berättade om dilemmat. Hon förklarade då att det är inget fel i att titta på kvoten, men…. Ja vad sa hon sen?

A

Väntevärdet måste vara större än 1 om nollhypotesen är sann, så man kan inte jämför skillnaden till 1.

Anta att före och efter har samma fördelning. Då ska värdet 2 vara lika vanligt som 1/2, 3 som 1/3 osv. Medelvärdet av 2 och 1/2 är 1.25 > 1 osv. För att ta ett konkret exempel. Anta att variabeln bara kan anta värdena 1 och 2, med vardera sannolikheten 0.5. Då kan kvoten före/efter bli 1 (P = 0.5), 2 (P = 0.25) och 1/2 (P = 0.25). Väntevärdet av kvoten blir då 1.125 > 1 och det blir precis samma sak om vi bildar kvoten efter/före eftersom det inte är någon skillnad på de två fördelningarna.

Så om fördelningen före och efter är lika kommer kvoten visserligen alltid ha en median som är 1, men väntevärdet är alltid > 1.

Även om historien som berättas här är ktiv har jag stött på fenomenet att forskare jämför kvoter med 1 flera gånger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Samma forskare som ovan intresserade sig också för mental träning inom idrott. I en studie ck 40 skolickor hoppa ett första längdhopp för att få fram ett baselinevärde (ett värde före träning). Sen hade man inte resurser till att ge alla mental träning, så man valde ut de 20 som hoppat kortast. De ck sin träning och sen ck de göra sitt andra hopp. Nu presterade de bättre och skillnaden i längd blev statsitiskt säkerställd. Visa av erfarenheten kallade de åter in statistikern och tyvärr sågade hon deras försök med kommentarerna

  • Ni borde haft en kontrollgrupp som inte ck träning att jämföra med. Det är ju fullt möjligt att det ligger till så att man ofta tenderar att hoppa bättre andra gången även utan träning.
  • Men det stolligaste med upplägget är ändå… Ja vad sa hon sen?
A

De 20 som hoppat kortast kan tillhöra den gruppen pga att de inte är lika bra på att hoppa, men delvis också för att deras första hopp var lite sämre än deras normala prestation. Alla som presterade under sin normala prestation bör kunna prestera lite bättre i andra hoppet. Om vi går till ett extremfall tänker vi oss att alla ickorna är lika bra, dvs har samma väntevärde och standardavvikelse. Låt oss säga att väntevärdet är 3. När de då hoppar första gången kanske de 20 sämsta hoppar i genomsnitt 2.5 meter. När de hoppar en gång till bör de nästa gång hoppa i genomsnitt 3 meter. Skillnaden på 0.5 meter kommer felaktigt att tillskrivas mental träning, när det i själva verket bara var en variant på det fenomen som kallas “regression to the mean”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Med ett parat t-test visar en forskargrupp att en behandling höjer koncentrationen av ett ämne i möss med 13 µg/mL (P=0.003). En annan forskargrupp försöker replikera det fyndet, men anger att de inte fann någon signikant förändring och de angav också ett kondensintervall (-5 till 35). De kommenterade då att det första fyndet troligen var ett typ I fel.

  1. Vad menas med ett typ I fel?
  2. Den andra gruppen angav alltså att förändringen inte var signikant. Finns det något utöver deras påstående som styrker det?
  3. Håller du med om kommentaren? Motivera ditt svar.
A
  1. P (Förkasta H0 | H0 sann)
  2. Ja, 95% kondensintervallet täcker 0
  3. Nej inte alls. Den andra gruppen skattning måste ligga mitt i kondensintervallet och är alltså 15 µg/mL. Det betyder att den gruppen tydligen har fått en större effekt och stärker tron på att det finns en effekt av behandlingen. Att den andra gruppen inte får en signifikant effekt beror rimligen på att de har behandlat för få möss (n för litet).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

När man ska konstruera referensfördelningar (och referensintervall) kan man basera dem helt och hållet på skattade percentiler eller genom att anta att data är t ex normalfördelat. För att belysa metoderna har jag simulerat 99 observationer från en normalfördelning med väntevärde 100 och standardavvikelse 10. Skattat medelvärde blev 99.08 och standardavvikelse 10.22.

Använd båda metoderna (med normalfördelningen ska man använda x¯ ± 1.645s för att få 5% percentilen och 95% percentilen och x¯ ± 2.326s för att få 1% percentilen och 99% percentilen) För att få fram percentilerna ur datamängden tar du 5:e värdet nedifrån och uppifrån eftersom vi har 99 observationer som delar upp data i 100 delar för att få 5% och 95% percentilerna, samt lägsta och högsta värde för att få 1% och 99% percentilerna. Beräkna också median ur data. Jämför med de sanna värdena 100 ± 1.645 · 10, 100 ± 2.326 · 10 och 100 och konstatera att det blir hyfsat lika, men att det oftast blir bättre skattningar med antagandet om normalfördelning än om vi skattar med hjälp av de empiriska percentilerna. Så gäller det generellt om vi har begränsade datamängder och data är hyfsat normalfördelade. Om den sanna fördelningen avviker från normalfördelningen och vi har stora datamängder är det däremot att föredra att skatta referensfördelningen och dess percentiler direkt från data, snarare än att gå via normalfördelningsanatgandet.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
A

De utfall som ger 12 eller lägre rangsummor:

  • AAAABBBB R=1+2+3+4=10
  • AAABABBB R=1+2+3+5=11
  • AAABBABB R=1+2+3+6=12
  • AABAABBB R=1+2+4+5=12

Alltså bli p-värdet 4/70 = 0.057

17
Q

Två studenter som nyligen lärt sig statistik lekte med data från en engelsk studie med 2763 patienter. De studerade glukos som respons och ville undersöka faktorer som påverkade glukos. Den första studenten ville veta om längd hade samband med glukos.

  • (a) Hur tolkar du den enkla linjära regressionen? Är längd något som påverkar glukos? Är vikt något som påverkar glukos?
  • (b) Nu erinrade de sig att det fanns något som hette multipel linjär regression, så de stoppade in både vikt och längd som prediktorer och ck resultatet i gur 3. Hur kan det komma sig att längd plötsligt är väldigt signifikant?
A
  • (a) Nej, data tyder inte på längd (P = 0.471), men väl på vikt (P = 10−41)
  • (b) Parametern som hör samman med längd beskriver hur glukos ändras när längden ändras medan vikten är densamma. Om två personer har samma vikt och den ene är längre så innebär det att den kortare är tjockare. Det är därför längdparametern är negativ (medför lägre glukos) och signifikant.
18
Q

Två studenter som nyligen lärt sig statistik lekte med data från en engelsk studie med 2763 patienter. De studerade glukos som respons och ville undersöka faktorer som påverkade glukos. Den första studenten ville veta om längd hade samband med glukos.​

  • (c) Nu kom en tredje student och analyserade om det fanns ett samband med BMI. Resultatet blev enligt figur 4. Studenten som hade analyserat glukos mot vikt ck se sitt nna p-värde 10−41 bli försmädligt besegrat av ett ännu finfinare 10−48. Förklara varför det är rimligt att det blev så.
A
  • (c) BMI är ett vedertaget mått för att korrigera vikter för längd. Det är alltså rimligt att det ska vara lite bättre än bara vikten.
19
Q

Två studenter som nyligen lärt sig statistik lekte med data från en engelsk studie med 2763 patienter. De studerade glukos som respons och ville undersöka faktorer som påverkade glukos. Den första studenten ville veta om längd hade samband med glukos.​

  • (d) De två första studenterna var lite slokörade, men krävde var och en att få lägga till sin variabel till BMI. Resultaten framgår av gurerna 5 och 6
    • Hur tolkar du dessa resultat?
A
  • (d) BMI ligger närmare glukos än de övriga och därför är det rimligt att de inte har någon betydelse i närvaro av BMI.
20
Q

Två studenter som nyligen lärt sig statistik lekte med data från en engelsk studie med 2763 patienter. De studerade glukos som respons och ville undersöka faktorer som påverkade glukos. Den första studenten ville veta om längd hade samband med glukos.​​

  • (e) Nedslagna av motgångarna krävde till sist de två första studenterna att få lägga till både längd och vikt till BMI. Visserligen blev varken längd eller vikt signifikanta, men de gladde sig åt att inte heller BMI blev det. Förklara hur det kan bli så här konstigt och vad innebär p-värdet som står under ANOVA-tabellen?
A
  • (e) Testet av en enskild parameter handlar om ifall den parametern kan tänkas vara 0. För vikt och längd är det naturligt att de inte blir signifikanta eftersom BMI är med i modellen. Anledningen till att BMI inte blir signifikant är att när både vikt och längd är med i modellen så kan man åstadkomma en ungefär lika bra modell med enbart dem, så därför blir värdet 0 på BMI-parametern ett fullt möjligt värde. F-testet testar om alla tre parametrarna kan vara 0 och det kan de förstås inte alls
21
Q

Hos två råttstammar FRL (Flinders resistent line) och FSL (Flin ders sensitive line) behandlades hälften med SSRI preparatet Escitalopram, medan hälften var kontroller. Efter försöket mättes genexpressionen av IL6 i hippocampus. Enheten mättes i deltaCt (spelar ingen roll vad det står för just nu, men det kan antas vara normalfördelat)

Man körde en analys (tvåvägsanova) där skillnaden mellan FSL och FRL var 0.97 hos obehandlade och eekten av Escatilopram hos FRL råttorna var 1.53 och där interaktionstermen var -1.51.

  1. Hur mycket skiljer sig de behandlade FSL rättorna från obehandlade FRL?
  2. Verkar det som att Escitalopram har någon eekt på FSL råttor?
A
  1. Kolla bilden nedan
  2. Nej, det verkar den väl inte ha. Skillnaden är 0.99 – 0.97 = 0.02. Med tanke på att skillnaden i FRL råttorna är 1.53, får 0.02 anses var så gott som 0.