Biostatistik Flashcards

1
Q

Varför behövs biostatistik?

A

siffrorna hjälper oss att förstå information och undvika att vi drar slutsatser som är osannolikt att de är korrekta.
- det är ett redskap för att få ny kunskap.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är en variabel?

A

en egenskap vi studerar/mäter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad kallas en egenskap vi studerar/mäter?

A

variabel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vilken typ av information ger kvalitativ data?

A

Kvalitativa data samlar in information som beskriver ett ämne snarare än mäter det.
- ex. klassificering av tex. pälsfärg och upplevt hälsotillstånd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vilken typ av information ger kvantitativ data?

A

Kvantitativ data samlar in information som kan mätas.
- ex. längd, vikt, blodsockernivå.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vilka 4 olika dataformat finns det?

A
  • Diskret variabel
  • Kontinuerliga
  • Dikotoma = binära
  • kategorisk
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad är speciellt med diskret variabel?

A

Den är kvantitativ men antar bara vissa (ofta heltals) värden.
- Tex antal personer i en familj, antal mjölktänder

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vad är speciellt med kontinueliga dataformat?

A

Kontinuerliga variabler kan anta vilket värde som helst, exempelvis blodtryck eller blodsockernivån.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vad är speciellt med dikotoma/binära dataformat?

A

har två möjliga utfall
- finns ex enbart ja eller nej som svar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad är speciellt med kategorisk data?

A

Kategorisk data, som kan anta ett fåtal olika värden, som t. ex. hög/medium/låg eller röd/grön/blå
- finns alltså olika grupper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

kan kontinuerliga variabler byta dataformat?

A
  • ja, det kan vara fördelaktigt. T.ex. om blodtryck brukade vara binärt (högt eller lågt) kan det istället göras om till kategoriskt (lågt-normalt-högt).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hur kan data beskrivas/visas?

A
  • tabeller
  • diagram
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad definierar tabeller?

A
  • data sorteras i tabeller
  • två eller flera variabler samverkar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vilka typer av diagram finns det?

A
  • stolpdiagram
  • histogram
  • cirkeldiagram
  • stapeldiagram
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vilken typ av data är lämplig att presentera i ett stolpdiagram?

A

diskret variabel med begränsat antal värden: visar frekvens (bar chart)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vilken typ av data är lämplig att presentera i ett histogram?

A

Kontinuerliga variabler eller diskreta med många värden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Vilken typ av data är lämplig att presentera i ett cirkeldiagram?

A

Kvalitativa variabler: ytan proportionell mot andelen (pie chart)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vilken typ av data är lämplig att presentera i ett stapeldiagram (med grupperade staplar)?

A

kvalitativa variabler: samma princip som cirkeldiagrammet (bar chart)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Varför vill vi presentera data?

A
  • vi får enskilda variabelvärden i vårt urval av tex patienter
  • vi behöver summera dessa värden
  • genomsnittsvärden; medelvärde, median
  • Symmetrisk fördelning: medelvärde och median lika
  • Icke- symmetrisk fördelning: medelvärde och median inte lika.
  • Förutom genomsnittsvärdet rapporterar man spridningsmått dvs hur mycket data varierar dvs sprider sig.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Vad är standardavvikelse (standard deviation = SD)?

A
  • för de flesta material ligger de flesta värdena inom intervallet medelvärdet +/- 2 standardavvikelser.
  • Detta innebär att det gör att den nedre gränsen blir medelvärdet - (2 x SD), och den övre gränsen = medelvärdet + (2 x SD). De i undersökningen var alltså mellan övre och undre standardavvikelsen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vad är kvartilavstånd (på engelska interquartile range)?

A
  • för median används oftast 25e och 75e percentilen av data som spridningsmått runt medelvärdet.
  • skillnaden mellan de övre och den nedre kvartilen kallas för kvartilavståndet. Detta motsvarar variationsbredden för de 50 % av värdena som befinner sig i mitten av serien av observationsvärden. Därigenom är kvartilavståndet ett mått på hur stor spridningen är i närheten av medianen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vad är viktigt att tänka på när man ska beskriva data?

A

tänk på att medelvärden ska vara meningsfullt!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Varför är medelvärdet meningsfullt med medelvärdet när data beskrivs?

A
  • Om det är 2 grupper som gör att medelvärdet blir ett tal mellan grupperna som egentligen inte existerar så kan det vara bättre att dela upp grupperna och ge dem ett varsitt medelvärde.
  • Ex. i diagrammet blev sammantaget av gruppen 2 vilken ingen katt visade → missvisande medelvärde. Här kan vi se att det är lämpligare att dela in dessa i 2 olika grupper.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Vad styr vilken testmetod du kan använda vid statistiskt test?

A

utfallet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Vad är ”utfallet”?

A
  • Utfallet är det man undersöker i studien, tex kroppsvikt hos labradorer, och det kan vara en sjukdom (som diabetes hos katt) eller något positivt (som hur ofta någon är glad eller skriver godkänt på en tenta), eller annan negativ händelse (som död).
  • Notera att den variabel som kallas utfallet i en undersökning inte behöver vara ett utfall i andra undersökningar.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Vad innebär en kontinuerlig skala inom statistiska test?

A

Medelvärde eller medianvärde för att beskriva “mitten” av datapunkterna, dvs centralmått. Ex: jämföra medelblodtryck för människor som får olika behandling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Vad innebär en 1/0 - variabel inom statistiska test?

A

proportion eller räknar antalet händelser.
- Ex jämföra proportionen katter som blir symtomfria av gastroenterit Behandling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Vad innebär grupper/kategorier inom statistiska test?

A

Antal eller proportion i varje grupp.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Vilka typer av observationer utgår de vanligaste statistiska testerna ifrån?

A

oberoende observationer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Vad menas med oberoende observation?

A

Begreppet (statistiskt, stokastiskt) oberoende observationer innebär att varje ny observation, varje ny data, ska ge lika mycket information oavsett alla tidigare observationer – de ska alltså inte ’hänga ihop’.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Ge exempel på beroende observationer.

A

Om man gör många mätningar per individ (tidsserier) så används metoden upprepade mätningar (repeated measurements) på samma individ. Man mäter då t ex blodtryck flera gånger per dag på varje hund.
- Hierarkiska data: Om man undersöker valpar från olika tikar från en hunduppfödare
man kan anta att två valpar från samma tik är mer lika än två valpar från två olika tikar
- Personpåverkan: Ibland kan personer som hanterar/samlar/analyserar prov förorsaka statistiskt beroende mellan observationer: Om så är fallet är två observationer från samma person mer lika än två prov i allmänhet

32
Q

Vad är två olika sätt en studie kan vara beroende på?

A
  1. Hierarkiska data
  2. Personpåverkan
33
Q

Hur kan man testa om ett utfall är resultatet av en exponering?

A

orsakssamband (hypotesprövning) - analysera statistiska data för att kunna extrapolera fynden från stickprovet till en större population

34
Q

Vad innebär personpåverkan (beroende observationer)?

A

Ibland kan personer som hanterar/samlar/analyserar prov försaka statistikt beroende mellan observationer: Om så är fallet är två observationer från samma person mer lika än två prov i allmänhet. De är beroende av vem som tar provet.

35
Q

Vad innebär hierarkiska data (beroende observationer)?

A

ex. undersökningar av valpar från olika tikar men av samma uppfödare. Man kan anta att två valpar från samma tik är mer lika än två valpar från två olika tikar. Valparna beror av tiken.

36
Q

Vad är en oberoende variabel?

A

En oberoende variabel är en variabel som representerar en kvantitet som förändras i ett experiment.
- Man använder ofta x för att beteckna den oberoende variabeln i en ekvation
- den oberoende variabel är den del jag kan påverka
- en faktorer som påverkar utfallet

37
Q

Vad är en beroende variabel?

A

En beroende variabel representerar en kvantitet vars värde beror på hur den oberoende variabeln manipuleras.
- Man använder ofta y för att beteckna den beroende variabeln i en ekvation.
- Den beroende variabelns värde kommer alltså bero på hur den beroende variabeln manipuleras.
- utfallet

38
Q

Vad kallas de faktorer som påverkar utfallet?

A

oberoende variabel.

39
Q

Vad är normalfördelning?

A
  • likformig kurva på båda sidor runt medelvärdet.
  • två grupper, oberoende observationer: student’s t-test (kallas också t-test)
40
Q

Vad är “inte normalfördelning”?

A
  • olikformig kurva på båda sidor runt medelvärdet.
  • två grupper, oberoende observationer där man inte antar att data passar en viss fördelning: ex. Mann Whitney U test eller Wilcoxon Signed Rank test.
41
Q

Hur kan kontinuerlig data delas upp?

A
  • normalfördelning
  • inte normalfördelning
42
Q

Vilket test används om observationerna är oberoende?

A
  • Brukar vara grundantagandet vid statistiska analyser
  • Exempel: jämföra medelvärde mellan två grupper där observationerna är oberoende – använd ”Student’s t-test” (kallas också ”t-test”
43
Q

Vilket test används om observationerna är beroende?

A
  • Om två observationer hänger ihop, tex. man har data på före och efter behandling inom samma individ, använder man parat test (paired test) tex ett parat t-test för kontinuerliga variabler, istället för “vanligt” t-test.
44
Q

Vad behövs göra för att kunna dra slutsatser om populationen?

A

Att ett urval undersöks.

45
Q

Vad är svagheten med att göra ett sample/urval?

A

man får aldrig exakt samma resultat när man tar ett sample - man hamnar lite fel varje gång (urvalsfel)
- Det blir alltid en variation oavsett om det är slumpmässigt i en urvalsgrupp. Detta behöver man vara medveten om

46
Q

Vad är ett punktestimat/punktskattning?

A

Är en estimering - skattning - av något, den bästa skattningen av populations värdet, ex. på punktestimat: det värde man presenterar då man:
- beskriver: beräknar medelvärde eller median av observationer
- Analytisk studie: beräknar associationsmått dvs odds ratio, risk ratio (= relativ risk (RR))
proportion = prevalence. Skattningen är för ett okänt värde.

47
Q

Vad menas med standardavvikelse?

A
  • med standardavvikelsen menas ett mått på den genomsnittliga avvikelsen från medelvärdet i en serie observationsvärden. Dvs hur mycket data varierar, för de mätpunkter vi har
48
Q

Vad är konfidensintervall (KI)?

A
  • Felmarginal när vi uttalar oss om okända målpopulationen
  • vi tittar på ett urval men vill dra slutsatser på en målpopulation, när man studerar ett urval får man en statistisk osäkerhet i uppskattningen.
  • ju större konfiendesintervall desto troligare är det att man har lyckats träffa målpopulationen inom intervallet.
49
Q

Vilket konfidensintervall (KI) är vanligast?

A

95% (man har till 95% lyckats träffa målpopulationen utifrån urvalet).

50
Q

Vad är SE?

A

Medelfel (standard error)

51
Q

Vad innebär medelfel/SE?

A

Medelfelet varierar med urvalsstorleken dvs N: ju mindre N desto större SE och vidare konfidensintervall.

52
Q

Vad menas med P-värde?

A

probability (sannolikhet)

53
Q

Varför används P-värde?

A
  • P- värdet används för att visa om statistisk signifikans finns för undersökningen eller inte, dvs om skillnaden vi ser i punktestimaten beror på slumpen eller om det faktiskt finns en skillnad.
  • Vanligaste gränsen för signifikans är P = 0,05
  • Om detta p-värde är signifikant, det vill säga ligger under 0,05 så förkastas nollhypotesen
54
Q

Varför vill man ha ett lågt P-värde?

A

används för att visa om resultatet är signifikant, man vill ha så lågt P=värde som möjligt då det innebär att datamönstret vi ser faktiskt är på riktigt och inte ett programfel

55
Q

Vad ska P-värde vara för att ge signifikans?

A

< 0,05 (mindre än 0,05)

56
Q

Varför kan man få en icke statistisk signifikans?

A
  1. man har för liten statistisk styrka /dvs låg power/ = man undersöker får få, eller
  2. att det inte är någon skillnad som ska hittas
57
Q

Vad menas med nollhypotes?

A

En nollhypotes är motsatsen till en hypotes och den skall uttrycka alla förklaringar som inte uttrycks i hypotesen.

58
Q

När vill man ha hög specificitet “Sp”?

A
  1. Hög kostnad att felklassificera friska som sjuka
  2. Bekräfta misstanke om sjukdom: testet ffa användbart om det är positivt?
  3. När hög andel i populationen som har sjukdomen testas och man vill utesluta sjukdomen?
59
Q

Hur kan man göra för att alla falska positiva blir korrekt klassificerade som sjukdomsnegativa?

A

Dvs först ett test med hög Se+låg Sp, sedan test med lägre Se och hög Sp
- finns inga som är bra på båda.

60
Q

När undersöks testprestanda?

A
  • före kliniken
  • på kliniken
61
Q

Vad är testprestanda?

A
  • hur exakt ett test är, dvs hur många friska som testar negativt, och tvärt om.
62
Q

Hur ser testprestandan ut före klinik?

A

under utvecklingsfas: sensitivitet och specificitet
- olika test testar olika saker, misstänker man ett falskt negativt/positivt så kan det backas upp med andra typer av test? är det olika Sp/Se test eller använder man först den ena sedan den andra.
- Ett test skulle i den bästa värden ha 99% Sp och Se men finns inget sådant test.

63
Q

Hur ser testprestandan ut på klinik?

A
  • hur korrekt testet är i att klassificera ett prov som positivt eller negativt.
64
Q

Vad kallas värdet på sannolikheten att en patient som testar positivt är sjuk, dvs hur bra är testet på att förutspå att patienten är sjuk?

A

positivt prediktivt värde.

65
Q

Vad kallas värdet på sannolikheten att en patent som testar negativt är frisk, Dvs hur bra är testet på att förutspå att patienten är frisk?

A

negativt prediktivt värde

66
Q

Vad innebär att testet inte är fullständigt?

A
  • Att ni kommer få fel resultat ibland.
  • Är det värre att missa några sjuka eller att råka få med friska i sjukgruppen?
  • Beror på problemet.
67
Q

Vad är associastionsmått?

A
  • Korrelation – undersöker associationen mellan två eller fler variabler, ett mått på hur starkt sambandet är mellan två eller fler värden vilket mäts med en korrelationskoefficient
  • Oftast används korrelation för linjära samband medan association syftar till vilket samband som helst
68
Q

Vad innebär RR (risk ratio)?

A

RR: risk att något händer i en grupp jämfört med risken att något händer i en annan grupp (det som skiljer grupperna är oftast exponering).
- Risk hos de exponerade att de har sjukdom: A/(A+C). Risk hos de oexponerade att de har sjukdom: B/(B+D). Dividera de två riskerna för att få ration

69
Q

Vad innebär OR (oddsrat)?

A

OR= odds ratio: se om högre odds för exponering hos fallen (A/B) jämfört med exponeringen hos de friska (C/D). Man utgår från fall som redan finns (bestämt i förväg, därmed så kan man ej summera).
- Exponerade fall (A)/oexponeriade fall (B) dividerat med exponerade icke-fall (C) / oexponerade icke-fall (D).
- Alternativt uttryck: odds att ett fall var exponerat (A/B), dividerat med odds att en kontroll var exponerat (C/D).

70
Q

Vad menas confounders?

A

en faktor som påverkar både exponering och utfall.
- Confounders (sammanblandande faktorer) är tex ålder, kön, utbildningsnivå, rökningsstatus, etc
- Kausala diagram är ett verktyg för att se relationerna mellan variablern

71
Q

Är samband (Correlation) samma sak som kausalitet (orsakssamband)?

A

NEJ!!!!

72
Q

Vad är korrelationsanalys?

A
  • Vi har pratat om statistiska test för kontinuerliga variabler (Student’s t-test) och chi2-test (proportioner) som används när man vill jämföra grupper. Grundförutsättning: oberoende observationer
  • Begränsning: vi tar bara tar hänsyn till en variabel i taget, andra variabler måste vi hantera genom att dela upp materialet (stratifiering).
73
Q

Vad är en Regressionsanalys?

A

-Statistiska modeller som kan utvärdera flera variabler och confounders mot ett utfall. VI behåller alla observationer och får hög statistisk styrka. Ska kunna se skillnad på dessa tre:
- kontinuerliga utfall - Linjär regression (linear regression)
- Dikotoma utfall/binära/ja-nej - Logistisk regression,
- Tid till händelse (död) – överlevnadsanalys (survival analysis) – Cox regression

74
Q

Vad innebär överlevnadsanalys?

A
  • När man studerar tid till händelse är det bättre att använda en sk Cox-regressionsmodell än linjär eller logistisk regression. Då kan man nämligen ta hänsyn till när saker händer och inte bara att de händer
  • En Coxmodell kan vara univariat eller multivariat precis som de andra regressionsmodellerna.
  • Alla regressionsmodeller undersöker samband mellan riskfaktor och utfall: dvs undersökande/förklarande
75
Q

Vad innebär regressionsanalys?

A

Först gör man en analys med en exponering/determinant mot utfallet: detta kallas univariat analys. Uni=en.
- Motsvarar figuren högst upp, och ekvationen ser ut så här för ett kontinuerligt utfall:
- Y=utfall, a=intercept (dvs där linjen börjar på Yaxeln, x=exponeringen/determinanten, b=lutningen på linjen, ɛ= error
- Sedan kan man ta hänsyn till confounding genom att justera sin modell för confoundervariablen. Det gör man genom att lägga till den i ekvationen

76
Q

Vad innebär regressionsmodell med confoundervariabel?

A

𝑦=𝑎+𝑏∗𝑥+𝑏∗confounder + ɛ
- Det här innebär att man justerar analysen för att olika värden på confoundern kommer påverka relationen mellan X och Y, dvs om risk varierar mellan kön så fixerar vi värdet på kön så vi kan se värdet på relationen mellan X och Y.
- Dvs i analyssteget kan vi kontrollera för confounding och det kallas för att man justerar för confounders (adjust for confounders)