Biostatistik 2 Flashcards
Vad är slumpmässighet?
- Där ett utfall inte kan förutsägas utan följer en sannorlikhetsförordning
- Bygger på oberoende händelser eller mätningar och följer en fördelning
Vad är ett utfall?
- Refererar till det specifika resultatet av en slumpmässig händelse eller experiment
- Varje gång en slumpmässig process eller studie genomförs, observeras ett specifikt resultat (utfall), och detta kan vara ett av många
Olika typer av utfall?
- Kvantitativa utfall (kontinuerliga eller diskreta)
- Kvalitativa utfall /kategoriska
Vad är kvantitativa utfall?
- Kontinuerliga:
->Dessa utfall kan anta ett oändligt antal värden inom ett visst intervall - Diskreta:
-> Dessa utfall begränsas till ett bestämt antal möjliga värden
Vad är kvalitativa/ kategoriska utfall?
- Har ej ett numeriskt värde
- Inom olika skalnivåer
-> Rangårdnade
-> Ej rangordnade - Binära (dikotoma):
-> Två möjliga utfall (ex. ja/nej)
Vad är statistisk felmarginal?
- Osäkerhet i sitt datamaterial
- Den variation och osäkerhet som finns i resultaten från en statistisk analys och hur mycket vi kan lita på att de slutsatser vi drar från data faktiskt speglar verkligheten
- Det finns alltid en viss grad osäkerhet om hur väl resultaten speglar den verkliga populationen eftersom vi samlar data från ett urval
Vad är ett konfidensintervall?
- Ett statistiskt verktyg som ger oss ett spann av möjliga värden för en parameter, där vi med en viss konfidensnivå (95%) kan vara säkra på att det sanna värdet för populationen ligger inom detta intervall
- Representerar sannolikheten att intervallet kommer att innehålla det sanna värdet om vi upprepar mätningen många gånger
Varför är konfidensintervall så viktigt?
Osäkerhet i uppskattning:
- Konfidensintervall ger oss bättre förståelse för osäkerheten i våra resultat
- Istället för att bara ange ett punktestimat (ex. medelvärde), får vi också en uppfattning av variationen och den möjliga osäkerheten i våra resultat
Tydliga resultat:
- Genom ett intervall istället för ett ensklit värde kan vi kommunicera resultat på ett mer nyanserat sätt
- Om ett konfidensintervall för ett medelvärde inte inkluderar noll, kan vi dra slutsatsen att effekten är statistiskt signifikant
Vad är standardfel (SD)?
- Spridningen av stickprovets medelvärde kring det sanna populationens medelvärde
- Används för att beräkna konfidensintervall och p-värden och är en central komponent i många statistiska tester
Skillnad mellan standardavvikelse (SD) och standardfel (SE)?
SD:
- Variation i data
- Spridningsmått för att visa på den variation som finns i datamaterialet
- Skattning av variationen som också finns i den större målpopulationen
SE:
- Osäkerhet i ett uppskattat värde (ex. medelvärde)
- Beskriver precisionen av skattningen av populationsmedelvärdet
- ytterligare beskrivning av SD
Vad är ett referensintervall?
- Intervallet där majoriteten av friska individer förväntas hamna inom när vi gör en analys av en hälsomarkör (normalt, avvikelse=sjukdom/risk)
- Används ofta för bedömning av provsvar och diagnostik
- Vid en normalfördelning hamnar ca. 5% av populationen utanför referensintervallet
7 steg för arbetsgång för statistiska analyser?
1) Förutsättning: Signifikansnivå är P=0,05
2) Formulera nollhypotes: H0
3) Anta att H0 är sann i det här stadiet
4) Samla in data för att se om data stödjer H0
5) Statistiska beräkningar (medelvärde, KI)
6) Sedan görs ett statistiskt test som ger ett P-värde
7) Baserat på P-värdet behåller eller förkastar vi H0
Skillnaden mellan SD och KI?
SD:
- Mäter variationen i en datamängd
- Beskriver hur data varierar kring medelvärdet
- Beräknad direkt från data
KI:
- Ger ett intervall för en parameter i en population baserat på ett stickprov
- Beskriver osäkerheten i en uppskattning av en parameter
- Beräknas från ett stickprov och tar hänsyn till både variation i data och stickprovsstorlek
Vad är ett p-värde?
P-värde:
- Värde som avgör om ett observerat resultat är statistiskt relevant eller inte
- Ett mått på osäkerheten i hypotesprövningen
- Ett lågt P-värde (under 0,05) indikerar att det är osannolikt att resultatet beror på slumpen
- Ett högt P-värde tyder på större osäkerhet om resultatets statistiska signifikans
Vad är signifikansnivå (alfa)?
Signifikansnivå (alfa):
- Anger den maximala risken att felaktigt förkasta nollhypotesen när den faktiskt är sann (typ 1-fel)
Hur redovisar man P-värden?
- Enstjärnig signifikans (*)
-> P-värdet är mindre eller lika med 0,05 - Tvåstjärning signifikans (**)
-> P-värdet är mindre eller lika med 0,01 - Trestjärnig signifikans (***)
-> P-värdet är mindre eller lika med 0,001
Vad är hypotesprövning?
- En statistisk metod som används för att testa om en hypotes om en population är sann eller inte, baserat på ett urval av data
- Man använder data för att bedöma om det finns tillräckligt bevis för att stödja eller förkasta en specifik hypotes
Vad är en nollhypotes?
H0:
- Det antagandet vi testar mot
- Ofta att det inte finns någon effekt eller skillnad på ex. en behandling
Vad är en alternativhypotes?
H1:
- Det antagande vi vill visa
- Ofta att det finns effekt eller skillnad på ex. en behandling
Faktorer att ta hänsyn till valet av statistiskt test?
Typ av utfallsvariabel:
- Kvalitativ
- Kategorisk
Antal grupper:
- 1, 2 eller >2
Parametriska vs. icke parametriska test
Oberoende eller beroende observationer
När använder man ett parametriskt test?
- Om data är kontinuerlig
- Normalfördelning kan antas
- Homogenitet av varians kan antas
Exempel på parametriska test?
- t-test
- ANOVA
När använder man ett icke - parametriskt test?
- När data är ordinala eller inte normalfördelad
- När data innehåller outliers eller avvikelser från normalfördelningen
Exempel på icke-parametriska test?
- Mann-Whitney U-test
- Kruskal-Wallis test
Skillnad mellan beroende och oberoende observationer?
Beroende:
- Om observationerna är relaterade
-> Ex. samma individer före och efter behandling
Oberoende:
- Om observationerna i gruppen inte påverkar varandra
-> Ex. jämförelse mellan behandlingsgrupp och kontrollgrupp
Vilka statistiska test baseras på medelvärde/ medelrankningar?
- Oberoende t-test
- Parat t-test
- ANOVA
- Kruskal-Wallis test
- Mann-Whitney U-test
Oberoende t-test:
Grupper, antaganden och användning
Grupper: 2 oberoende
Antaganden:
- normalfördelad data
- oberoende grupper
- homogen varians (lika spridning i båda grupper)
Användning:
- Jämföra medelvärden
Parat t-test:
Grupper, antaganden och användning
Grupper: 1 grupp, 2 beroende provtagningar - parade mätningar
Antagande:
- normalfördelad data
- beroende grupper
Användning:
- Jämföra medelvärde innan och efter intervention
ANOVA:
Grupper, antaganden och användning
Grupper: 3+ oberoende
Antagande:
- normalfördelad data
- oberoende grupper
- homogen varians (lika spridning i båda grupper)
Användning:
- Jämföra medelvärden
Kruskal - Wallis test:
Grupper, antaganden och användning
Grupper: 3+ oberoende
Antagande:
- ingen specifik fördelning av data
- Oberoende grupper
Användning:
- Jämföra medelrankningar
Mann-Whitney U-test:
Grupper, antaganden och användning
Grupper: 2 oberoende
Antagande:
- Data behöver inte vara normalfördelad
- Oberoende grupper
Användning:
- Jämföra medelrankningar
Fördelar med statistiska analyser baserade på medelvärde/ medelrankningar?
- Effektivt vid normalfördelad data
-> Utnyttjar hela datamängden och gör full användning av informationen - Effektivt vid statistiska test
-> Användbart vid parametriska test som bygger på antagandet om normalfördelning
Nackdelar med statistiska analyser baserade på medelvärde/ medelrankningar?
- Känslighet för extremvärden (outliers)
-> Medelvärder kan bli snevridet och ge missvisande bild av det centrala värdet
Vilka test används för att jämföra proportioner?
- Fishers exact test
- Chi-squared test
När görs medianjämförelser istället för medelvärdesjämförelser?
- Genomförs då förutsättningar för t-test inte är uppfyllda
-> Inte normalfördelad
-> Inga stora grupper
Vilka tester finns det som gör medianjämförelser?
- Teckentest
- Wilcoxons signed-rank test
- Mann - Whitney U-test (Wilcoxons rank-sum test)
- Kruskal-Wallis test
Wilcoxon Signed-rank test:
Grupper, antaganden och användning
Grupper: Beroende - Parade mätningar
Antaganden:
- Beroende grupper
- Data behöver inte vara normalfördelad
Användning:
- Jämföra medianer
Mann-Whitney U-test (Wilcoxon rank-sum test):
Grupper, antaganden och användning
Grupper: 2 oberoende
Antagande:
- Oberoende grupper
- Data behöver inte vara normalfördelade
Användning:
- Jämföra medianer
Kruskal - Wallis test:
Grupper, antaganden och användning
Grupper: 3+ oberoende
Antagande:
- Oberoende grupper
- Data behöver inte vara normalfördelad
Användning:
- Jämföra medianer
Fördelar med statistiska analyser baserade på median?
- Inte känsliga för outliers
-> Påverkas endast av placeringen av värdena i mitten av datasetet
-> Särskilt användbar vis asymetrisk fördelning - Användbar vid snedfördelad data
-> Ger en mer representativ bild av det centrala värdet än medelvärdet
Nackdelar med statistiska analyser baserade på median?
- Mindre användbar vid normalfördelning
-> Vid normalfördelning är median lika eller mycket nära varandra
-> Onödigt att använda median då - Begränsad information
-> Medianen är inte lika effektiv som medelvärdet när det gäller att få ut full information från data, särsklit vid symmetrisk fördelning
När ska man använda medelvärde vs. median?
Medelvärde:
- Normalfördelad data
-> t-test, ANOVA
Median:
- Snedfördelad data
- Vid extremvärden
- Om datan är ordinal
-> Mann-Whitney U-test, Kruskal-Wallis test
Vad betyder det om data är normalfördelad?
- De flesta observationer ligger kring medelvärdet
- Möjliggör beräkning av hur stor andeö av alla observationer som finns inom ett visst antal standardavvikelser från medelvärdet
Hur kan data vara fördelad?
- Symmetrisk fördelning -> Normalfördelad
- Positiv snedfördelning
- Negativ snedfördelning
Vad är statistisk styrka?
- Sannolikheten att korrekt förkasta nollhypotesen när den är falsk
-> Upptäcke en verklig effekt om den finns - Ett mått på hur känsligt ett statistiskt test är
Faktorer som påverkar den statistiska styrkan?
- Effektstorlek
- Provstorlek
- Signifikansnivå (alfa)
- Variabilitet i data
- Testets design
Hur påverkar effektstorlek den statistiska styrkan?
- Ju större den verkliga effekten är, desto lättare är det att upptäcka den
Hur påverkar provstorlek (n) den statistiska styrkan?
- Ju större provstorlek, desto större chans att upptäcka en verklig effekt
- Ett större urval ger mer pålitliga resultat och minskar risken får att missa effekt
Hur påverkar signifikansnivån (alfa) den statistiska styrkan?
- Om vi höjer tröskelvärdet för att förkasta H0 (ex. 0,1) ökar den statistiska styrkan eftersom vi har ett större intervall där H0 får stämma
- Ökas tröskeln är dock risken att begå ett typ 1 fel (falskt positivt) större
-> Innebär att man förkastar en sann H0
—-> - Vid alfa 0,05 där 6 personer “bekräftar” H0 är signifikansen för hög och H0 förkastas ej
- Vid alfa 0,1 där 6 personer “bekräftar” H0 är signifikansen låg nog att förkasta H0
—-> Detta kan på det viset leda till en felaktig förkastning av H0
Hur påverkar variabilitet i data den statistiska styrkan?
- Om det finns mycket variabilitet i data, blir det svårare att upptäcka en effekt, vilket minskar styrkan
Hur påverkar testets design den statistiska styrkan?
- Olika typer av statistiska tester har olika nivåer av styrka beroende på hur de är utformade och vilken typ av data de använder
Vad innebär det om ett test har en hög statistisk styrka?
- Testet har en hög sannolikhet att korrekt identifiera en verklig effekt om den finns
Vad innebär det om ett test har en låg statistisk styrka?
- Testet har en högre risk att missa verkliga effekter och därmed dra felaktiga slutsatser
-> Typ 2 fel (falskt negativa)
Typer av fel i hypotesprövningar?
Typ 1 fel:
- Falskt positivt resultat
- Förkastar H0 när den egentligen är sann
- Detta sker om P-värdet är mindre än alfa men det verkliga resultatet inte visar en direkt skillnad
Typ 2 fel:
Falskt negativt resultat
- Accepterar H0 när den egentligen är falsk
-> Detta sker om P-värdet är större än alfa, men det verkliga resultatet visar en skillnad