Biostatistik 2 Flashcards
Använder statistik för att minska risken för att bara tycka, man ska ha fakta i ryggen
ja
Vad tar vi med oss?
* Testa t.ex. om två behandlingsmetoder skiljer sig åt (dvs om skillnaden vi ser mellan två eller fler grupper inte troligen beror på slumpen)
exempel: om det är rasskillnad mellan prevalens diabetes hos katter
- Alltså: jämföra, testa
* Redskap att få ny kunskap
* Dataformat=variabeltyp: kontinuerliga, kategoriska eller binära data.
Kontinuerliga data kan omvandlas till kategoriska eller binära.
ja
Fråga: hänger x ihop med y (grundfrutsättning) -> studie, väljer design (efter vad man vill undersöka, pengar/ ekonomi) -> samlar in data, format + struktur -> beskriver information -> -> beskriver studie (en bra början, ex en ny sjukdom. ett första infoflöde II gör statistiska test (få underlag) -> analytiska studier -> bevakar x och y
ja
Så fort vi anar ett samband, varje ny data punkt ska betyda (oberoende) …….. (inte tvilling)
_________________________________________
så fort man anar ett samband mellan datapunkter så är det kanske inte oberoende av varandra, titta noggrannare på dem - tvilling
___
Vad är bäst för att få fram urvalsgrupp?
randomisering som urvalsgrupp är bäst
Från epidemiologin:
_______
När man valt studietyp- vilka ska man studera?
-Vi kan inte studera alla individer i regel (inte tid/ pengar)
* Vad vill vi säga med vår studie
-Målet är att kunna dra slutsatser om en verklig eller tänkt, imaginär population
Verklig population - hundar i sverige
studiepopulation- ohundar i uppland
_____
Man vill ha tillräckligt många med för att få statistisk signifikant men inte för många för det blir mycket data och dyrt.
För att kunna dra slutsatser om populationen brukar man oftast undersöka ett urval
* För dyrt/opraktiskt etc att undersöka alla utan man väljer ut några i sitt urval (sample)
* Detta gör att man aldrig får exakt samma resultat när man tar ett sample – man hamnar lite fel varje gång.
* Detta kallas_______
- Detta kallas urvalsfel
Anledning till att studera studiepopulationen är för att man senare ska kunna dra en slutsats om hela målpopulationer
Punktestimat = punktskattning
Är en estimering – skattning – av något, den bästa skattningen av populationsvärdet
Exempel på punktestimat: det värde man presenterar då man:
* B
* A
- Beskriver: beräknar medelvärde av observationer beräknar medianvärde av observationer
- Analytisk studie: Beräknar associationsmått dvs odds ratio, risk ratio (=relativ risk)
_____________________
Urvalet brukar specificeras i studier för att man ska kunna hitta ev urvalsfel
-så länge man inte undersöker hela målpopulationen så kommer man aldrig få samma resultat varje gång, dvs man får ett urvals fel.
Slumpmässiga urval är bäst om man ska representera så mycket av målpopulationen som möjligt
_____________________________________________________
Hur stor andel av studenterna är förkylda nu?
Tittar på 100 studenter och 15 är förkylda -> proportion = 15% (15 % är förkylda- punktestimat
___________________________________________________
Medelvärde= 3.5 kg (punktestimat)
Punktestimat – ett närmevärde för ett okänt värde
Exempel från en av artiklarna ni läste till litteraturseminarium 1: Risk för fraktur hos hästar under galopplopp. Varje häst har fått en score för risken som den hästen har att drabbas av fraktur under lopp.
____________________________________________
Furthermore, logistic regression models …were used to predict the
probability of a Thoroughbred sustaining a fracture for 2014. The 5% of starts that had the highest score in our predictive models for 2014 were found to have 2.4 times (95% CI: 1.9–2.9) higher fracture prevalence than the mean fracture prevalence of 2014.
Skattningen 2.4 kallas punktestimat eller punktskattning.
Punktestimat – ett närmevärde för ett okänt värde
Punktestimatet är den siffra som man får fram när man räknar ut medelvärde/median (sara)
Urval (ska beskriva hela sverige) - punktestimat? skatta det okända värdet (sverige) (vet jag inte vad jag skrev)
Datavariation
Standardavikelse
- Standardavvikelse: Med standardavvikelsen menar vi ett mått på den genomsnittliga avvikelsen från medelvärdet i en serie observationsvärden.
Dvs hur mycket data varierar, för de mätpunkter vi har.
–> Standardavvikelsen gäller för de mätvärden vi har, när vi ska beskriva dem
Konfidensintervall (confidence interval) - statistisk felmarginal när vi uttalar oss om okända målpopulationen
* Vi tittar på ett urval men vill dra slutsatser på en målpopulation
* När man studerar ett urval får man en statistisk osäkerhet i uppskattningen
-vi har ju bara undersökt en liten del av populationen men vill dra slutsatser på målpopulationen
* Även om man tror att t ex 15% är en bra punktskattning för proportionen studenter som är förkylda i exemplet (punktskattning), så förstår man att man inte skattat “mitt i prick”. Skattningen 15% är förenad med viss osäkerhet
* Konfidensintervallet visar det område där med viss sannolikhet det sanna populationsvärdet ligger
–det är ett kvantitativt mått på skattningsosäkerheten
* Kan variera från undersökning till undersökning
Man vill göra en uppskattning av var det sanna värdet med största sannorlikt ligger
_____________________________________
Internet:
* Konfidensintervallet anger felets storlek
* Konfidensintervallet talar alltså om hur mycket medelvärdet avviker från det sanna medelvärdet (eller egentligen hur sannolikt det är att finna det den bakomliggande populationens verkliga medelvärdet inom ett visst intervall från medelvärdet i vårt stickprov)
Vad ger det 95% konfidensintervallet
(intervallet där det sanna värdet ligger för populationen
- Det intervall som om man gör många stickprov kommer 95% innehålla den sanna populationsvärdet (ibland uttrycks detta som att vi har 95% säkerhet att intervallet innehåller det sanna medelvärdet för populationen).
____________________________________
Konfidensintervall
För att beräkna osäkerheten, den statistiska felmarginalen
Vad är det vi vill egentligen?
Vi försöker skatta den bakomliggande populationens sanna estimat
Så vi räknar ut ett punktestimat och sedan ett intervall runt detta som visar det troliga intervallet där det sanna värdet bör ligga
Vanligen använder man det 95% konfidensintervallet =
många urval kommer ge intervallet där 95% av det sanna populationsvärdet ligger
_____________
* Snävt ki: _____ ____________
* Brett ki: ___ __________ _ ___ _______ ________
Snävt ki: god precision
Brett ki: stor osäkerhet i det uppskattade estimatet
% på konfidensintervallet påverkar bredden
* SE= standard error= medelfelet varierar med urvalsstorleken.
dvs n: ju mindre n desto ______ SE och ______ konfidensintervall. Figuren nedan visar hur olika ki ser ut för samma punktskattning men olika nivå på ki.
________
dvs n: ju mindre n desto STÖRRE SE och VIDARE konfidensintervall. Figuren nedan visar hur olika ki ser ut för samma punktskattning men olika nivå på ki.
__
ju högre intervall- ju säkrare.
% påverker KI
50% - missar hälften
Konfidensintervall runt proportion – går det?
Ja. Det gäller alltså en binär variabel (1/0) som ger en proportion när man tittar på gruppnivå
Exempel: Man vill veta hur stor andel av befolkningen som hade influensa den gångna vintern. Man frågar 80 slumpmässigt valda människor i april om detta: 30 hade varit sjuka: proportionen i urvalet var 38%. (30/80)
Räknar ut avvikelsen för 95% konfidensnivå och får 95% ki 27-48%
Tolkning: bästa uppskattningen på proportionen är 38% men det breda konfidensintervallet tyder på osäkerhet i skattningen. Om metoderna var korrekta kan man säga att troligen hade minst ca en fjärdedel av populationen influensa den gångna vintern, men det kan vara så hög andel som hälften.
mm