Biostatistik 3 Flashcards

1
Q

Vad är ett samband?

A

Beskriver att det finns ett förhållande mellan två variabler, kan vara positivt eller negativt, men innebär inte att det finns något orsakssamband.
* Ex. Vi kan säga att det finns ett samband mellan hull och vikt hos hästar som får behandling A.
* OBS! Det innebär inte att behandlingen A orsakar denna förändring i hull eller vikt. Det kan finnas andra faktorer som påverkar hästarna, men vi ser att en förändring i hullpoäng är kopplad till en förändring av vikten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är korrelation?

A

Ett statistiskt mått som beskriver styrkan och riktningen av ett linjärt samband mellan två variabler. Om vi använder en korrelationskoefficient, kan vi mäta hur starkt hullpoängen och vikten är relaterade till varandra i behandling A och kontrollgruppen.
* Ex. Om vi utför en statistisk test (mha av en korrelationskoefficient tex. Pearsons r) på data från hästarna som genomgår behandling A och ser att den är negativ betyder det att det finns en negativ korrelation mellan hullpoäng och vikt i denna grupp.
* Tolkning: Detta betyder att när hullpoängen minskar (t.ex. hästar går ner i hull), så tenderar vikten också att minska, och sambandet är starkt och linjärt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad är skillnaden mellan samband och korrelation?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vad är ett spridningsdiagram?

A
  • Används för att visualisera sambandet mellan två variabler. * Varje punkt på diagrammet representerar en observation där den ena variabeln (förklaringsvariabeln) plottas på x-axeln och den andra variabeln (responsvariabeln) plottas på y-axeln. * Responsvariabel, den beroende variabeln (Y): Hullpoäng, 1-9 (rangordnad) * Förklaringsvariabel, den oberoende variabeln (x): Vikt, kg (konternuerlig) Där vikt används för att förklara en förändring i hull
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Beskriv olika typer av korrelation?

A

1) Positiv korrelation: Observationsvärdena ligger samlade runt en tänkt linje med positiv lutning, → positiv korrelation mellan den förklarande variabeln och responsvariabeln
2) Negativ korrelation: Observationsvärdena ligger samlade runt en tänkt linje med negativ lutning, → negativ korrelation mellan den förklarande variabeln och responsvariabeln
3) Ingen korrelation: Observationsvärdena ligger utspridda → ingen korrelation mellan den förklarande variabeln och responsvariabeln.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vad är pearson korrelationskoefficinet (r eller p)?

A
  • Vanligaste alternativet för beräkning av korrelationskoefficient
  • Den matematiska formeln bygger på medelvärde och standardavvikelse (Parametrisk metod)
  • Bygger på antagandet att X och Y är normalfördelade och att sambandet mellan X och Y är linjärt.
  • Betecknas r eller ρ (r för stickprov och ρ för population)
  • Mäter det linjära förhållandet mellan två kvantitativa variabler (OBS! Hull är en kategorisk variabel, men brukar ofta hanteras som en kontinuerlig variabel!)
    Korrelationen sträcker sig från –1 till +1 (korrelationskoefficienten): +1 = perfekt positivt linjärt korrelation mellan X och Y –1 = perfekt negativt linjärt korrelation mellan X och Y 0 = så finns ingen korrelation mellan X och Y .
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kriterier för pearsons korrelationskoefficient?

A
  • Båda variablerna måste vara konternuerliga (OBS! Hull är inte en konternuerlig variabel)
  • En linjär trend (spridningsdiagrammet)
  • Inga avvikande värden (outliers) * Ha ett värde mellan -1 och +1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vad är spearmans (rang)korrelationskoefficient?

A
  • Om variablerna (X och Y) inte uppfyller föregående kriterier
  • Den mest använda icke-parametriska metoden (kräver inte normalfördelning)
  • Jämför rangordning mellan X och Y
  • Minskar också betydelsen av eventuella extremvärden (outliers)
  • Om antagandena för Pearsons korrelationskoefficient är uppfyllda så bör man inte använda Spearmans korrelation eftersom den är mindre effektiv, vilket innebär att Pearsons har större möjlighet att upptäcka ett samband (om ett sådant existerar). Eftersom vår data inte är normalfördelad bör vi använda oss av Spearmans (rang) korrelationskoefficient
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ett exempel på hur ett extremvärde kan bidra till stark positiv korrelation

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hypotes för korrelation mellan hull och vikt

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Korrelationsanalys med hjälp av Spearmans rang (korrelationskoefficient)

A

Analysen påvisar en svag positiv korrelation mellan vikt och hull för behandling A (0.286) och kontroll (0.175)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  1. Varför är det viktigt med en visuell bedömning av korrelation?
A
  • Ett spridningsdiagram är utmärkt för att göra detta, särskilt om en regressionslinje kan visualiseras på grafen.
  • Anledningen till att en visuell bedömning är viktig är för att själva korrelationskoefficienten inte karaktäriserar sambandet mellan variablerna.
  • Korrelationskoefficienten är alltså ett sammanfattande mått och skall därför aldrig ersätta en visuell bedömning av relationen mellan X och Y.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

OBS! En stark korrelation innebär inte automatiskt ett orsakssamband! Varför?

A
  • Även om två variabler korrelerar vet vi inte vilken variabler som påverkar vilken
  • Tänk om båda variablerna påverkas av en tredje variabel som inte finns med i vår analys, som förklarar varför våra variabler samvarierar.
  • Att upptäcka ett samband är inte samma sak som att upptäcka en orsak! Exempel: Jämförelse korrelation mellan hull och vikt. Positiv korrelation mellan hög hullpoäng och förekomst av hög vikt, men kan finnas andra faktorer som påverkar den höga vikten som tex. ras. Optimalt vore alltså att även inkludera ras i den statistiska modellen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad är regression?

A
  • Statistiska modeller som kan utvärdera flera variabler och confounders mot ett utfall
  • Utläser korrelation, men inte kausalitet (orsakssamband)
  • Kan vara univariata eller multivariata
  • Vi behåller alla observationer och får hög statistisk styrka
  • Regression tillåter oss att:
    1. Studera relationen (sambandet) mellan en beroende variabel (Y) och en eller flera oberoende variabler (prediktorer, X).
    2. Studera hur stark relationen (sambandet) är mellan varje enskild prediktor ( X ) och den beroende variabeln ( Y ).
    3. Skapa en prediktionsmodell som kan användas för att predicera, vilket innebär att vi baserat på information om X kan förutsäga Y .
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad är syftet med regressionsanalys?

A
  • Med regression undersöker man sambandet (associationen) mellan två eller fler variabler.
  • I en regressionsanalys predikteras en variabel (Y) av minst en prediktor (X) →Y är beroende av X →Y är därför den beroende variabel och X är oberoende variabel.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Så när ska en använda korrelation eller regression?

A
  • Korrelation: Visar om det är ett positivt/negativt samband mellan de två variablerna
  • Regression: Visar hur mycket en förändring av en variabel påverkar en annan variabel
  • För att använda linjär regression måste vi FÖRST undersöka att variablerna korrelerar
  • Alla villkor för linjär korrelation måste uppfyllas (linjär trend i spridningsdiagrammet, inga outliers och inga subgrupper i datasetet) OBS! Det går att inkludera både kvalitativa och kvantitativa variabler i regressionsanalys, men du behöver hantera den kvalitativa variabeln (kategoriska variabler) på rätt sätt, ofta genom att skapa dummyvariabler. Detta gör att du kan inkludera både typer av variabler i samma regressionsmodell..
17
Q

Tre olika typer av regressionsanalyser:

A
  1. Enkel linjär regression:
    * Används när man har en beroende variabel och en oberoende variabel.
    * Modellen försöker hitta en rak linje som bäst beskriver sambandet mellan variablerna.
  2. Multipel linjär regression:
    * Används när det finns flera oberoende variabler.
  3. Logistisk regression:
    * Används när den beroende variabeln är binär (t.ex. ja/nej, 1/0), dvs. den har två möjliga utfall.
    * Här försöker modellen förutsäga sannolikheten för att ett visst utfall inträffar, snarare än ett exakt värde. Den logistiska funktionen används för att modellera denna sannolikhet.
18
Q

Linjär regression: linjärt samband mellan y (beroende) och x (oberoende)

A
  • Används för att modellera sambandet mellan en beroende variabel (Y) och en oberoende variabel (X)
  • Beroende variabel (Y): kontinuerlig
  • Oberoende variabel (x): kontinuerlig eller rangordnad
  • Med regression kan vi förutsäga (predict) värdet på en variabel utifrån kunskapen om en annan, meningsfullt om högt linjärt samband
19
Q

Tolkning av resultat från linjär regressionsanalys: hull och vikt

A
  • Behandling A: Om hull ökar en enhet → Ökning av vikt med 4.2 enheter?
20
Q

OBSERVERA! Prediktion av okända värden kan ENDAST göras inom området för observerad data!

A
  • Om det hade framgått att man utifrån den linjära modellen kunde beräkna vikt utifrån hull.
  • Insamlad data är: 460-515 kg och hull 5-9
  • Kan man beräkna vikten för en häst med hull 6? JA!
  • Kan man beräkna vikten på en häst med hull 4? NEJ!
21
Q

Vad är mutipel regression?

A
  • Den används när vi vill förutsäga ett resultat baserat på mer än en faktor.
  • Används för att modellera sambandet mellan en beroende variabel och flera oberoende variabler. -Beroende variabel (y) är kontinuerlig. - Oberoende variabler (x₁, x₂, …, xₖ) kan vara kontinuerliga eller kategoriska.
  • I vårat exempel kan vi inkludera både Vikt (x) och ras (x) som oberoende variabler för att förutsäga Hull (Y). - Dvs. vi tror även att ras är ytterligare en faktor som förklarar hästarnas hull och vill därför inkludera det i vår regressionsmodell (en s.k.. förväxlingsfaktor).
22
Q

Vad är förväxlingsfaktor (confounder)?

A
  • En faktor som påverkar både exponeringen och utfallet (dvs. både hästarnas vikt och hull i detta exempel.
  • ”Confounding” uppstår om någon annan faktor (tex. ras) än den studerade faktorn (vikt) visar sig påverka utfallet
  • Multipel regression är en väl använd metod för att kontrollera för confounding just för att en kan inkludera flera oberoende variabler som kan tänkas påverka utfallet (förväxlingsfaktorer).
23
Q

Identifiering av förväxlingseffekter

A
  • Man tittar på sina data – om man ser att det verkar vara fler i en viss subgrupp som får ett utfall
  • Man ritar ett diagram där man illustrerar sambanden mellan variablerna
  • I analysstadiet kan man genom olika analyser se om det finns confounding genom att analysera med respektive utan att förväxlingsfaktorn är med och se om/hur sambandet mellan exponering och utfall ändras när förväxlingsfaktorn läggs till.
24
Q

Vad är logistisk regression?

A
  • Istället för (att som i linjär regression) beräkna ett predikterat värde på den beroende variabeln räknar en fram en predikterad sannolikhet (relativa odds)
  • Används vid icke-linjärt samband mellan x och y.
  • Används då y-variabeln inte är kontinuerlig, utan är dikotom eller klassificeras dikotomt t ex 0 = missnöjd, 1 = nöjd
  • Inte alla typer variabler kan inkluderas (måste designas rätt). - Kan vara nödvändigt att dikotomisera! - Tex. Övervikt= hull >4, Undervikt= hull <4
25
Q

Skillnaden mellan linjär – multipel och logistisk regression?