Grundläggande biostatistiska begrepp Flashcards
Statistik
Insamling, utvärdering, analys och presentation av data/information
Biostatistik
Tillämpning av statistik inom det biologiska området
Huvudgrupper av datavariabler
Kvantitativ data - numeriska värden.
Kvalitativ data - subgrupper eller indelningar av data som inte är numerisk i grunden
Varför behövs statistik?
- Kunna dra slutsatser från mindre population för att applicera för hela populationen med en viss procent säkerhet
- Undvika åsikter/tryckande som grund för beslut
- Hjälper till att beräkna hur mycket data du behöver samla in, samla aldrig in mer data än som behövs (etik)
- Hjälper till att förstå och tolka insamlad data
- Besvara forskningsfrågan, hypotesen
- Får belägg och grund för uttalande
Individ/Fall
Undersökningsobjekt
Population
Alla individer/fall som formar grupper som vill studeras
Urval
Strickprov, en spegling av populationen
Variabel
Faktor som studeras inom kvantitativ forskning
Totalundersökning
Alla i populationen undersöks
Interferensstatistik
Bygger på sannolikhet.
Drar slutsatser för en hel population utifrån studie gjord på ett urval av populationen.
Betyder att vi inte vet helt säkert och därför behöver beskriva grad av osäkerhet (p-värde)
Variabelnivåer
Nominalskala - klassificering
Ordinalskala - rangordning
Intervallskala - finns given ordning och differens, men ingen given nollpunkt
Kvotskala - finns given ordning, differens och absolut nollpunkt
Hypotesprövning
- Rimligheten i ett antagande (H0, finns ingen skillnad) prövas mot en alternativ hypotes/mothypotes (HI, finns skillnad)
- Vid den statistiska analysen testas normalt om nollhypotesen (H0) kan förkastas
- P-värdet ger “risken” att dra felaktiga slutsatser när H0 förkastas
Olika systematiska fel vid hypotesprövning
- Typ I-fel - Förkastar H0 fast den är sann, hittar en skillnad som inte finns. Regleras genom att höja signifikansnivån.
- Typ II-fel - H0 accepteras fastän den är falsk, missar en skillnad som faktiskt finns. Detta kan bero på stickprovsstorlek, effektstorlek och signifikansnivå
P-värde
Ett tal mellan 0-1 som anger hur sannolikt resultatet vi fått är, om nollhypotesen är sann. Vi behöver låga p-värden för att ha hög sannolikhet att kunna lita på resultatet
Felrisk
Felrisken som finns om det finns en skillnad mellan grupperna som beräknas genom p-värde. Är en typ av “säkerhetsnivå” dvs, hur säker kan jag vara på att det finns systematiska skillnader i mitt resultat?
Vad är felrisken om P = 0,08 och är resultatet signifikant om signifikansnivån är satt till p<0,05.
Felrisken blir 8% (vi kommer ha fel i 8 av 100 fall om H0 förkastas) och resultatet är inte signifikant.
Ange centralmåtten som finns och när de används
- Medelvärde - används vid intervall och kvotskala och vid normalfördelad data
- Median - används vid icke-normalfördelad data för ordinal, intervall och kvotskala
- Typvärde (mest förekommande värdet) - kan användas vid alla variabelnivåer
Ange spridningsmåtten, vad de innebär och när de används
- Standardavvikelse - anger mätvärdenas genomsnittliga avvikelse från medelvärdet, används med medelvärde
- Variationsvidd - avstånd mellan min- och maxvärde, används ffa med median
- Kvartilavstånd - nedre till övre kvartilen, ringar in det mittersta värdet, används med median och ibland medelvärde
Konfidensintervall
Mått på osäkerheten slumpen bidrar med när den bakomliggande populationens medelvärde skattas.
Beskriver graden av avvikelse i urvalet från det sanna medelvärdet i populationen.
Beskrivs vanligtvis som 95% CI vilket betyder att medelvärdet ska ligga inom dessa 95%.
När förekommer konfidensintervall?
Används vid prevalensberäkning, medelvärden, relativa risker och oddskvoter
Normalfördelningskurva
En kurva som beskriver fördelningen av värden/variabler.
Test för normalfördelning
Shapiro-Wilk
När är data icke-normalfördelad?
Då kurvan drar mer åt ena håller för att datan är ojämn fördelad inom materialet
Shapiro-Wilk
Testar om variabeln är normalfördelad vid observationer under 50. Beräknar ett p-värde. P-värdet ska vara >0,05 för att vara normalfördelat.
Parametrisk statistik
Används vid kvantitativa datavariabler och normalfördelad data.
Beräknar parametrar, ex. medelvärde och standardavvikelse
Icke-parametrisk statistik
Används vid kvalitativa datavariabler och vid icke-normalfördelad data.
Utgår från rangordning och median när data bearbetas.
Sensitivitet
Andel av de verkligt sjuka som metoden upptäcker (sant positiva)
Beräknas genom alla sant positiva/alla som har sjukdomen
Specificitet
Andelen friska som metoden anger som friska (sant negativa)
Beräknas genom sant negativa/alla negativa