Statistik - logistisk regression och överlevnadsanalys Flashcards

1
Q
  • När vi söker efter en linjär modell som beskriver sambandet mellan våra variabler. Vad vi söker är alltså en linje som våra markerade punkter avviker så lite från som möjligt
  • Y (beroende) är en kontinuerlig variabel
  • Slumpfel antal vara normalfördelade
  • Men om Y är en dikotom variabel fungerar inte detta så bra

Vad beskrivs?

A

Linjär regression/regressionsanalys

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  • Generell modell för alla linjära samband
  • Bygger på att man vet:
    • Fördelningen av den beroende variabeln (Y), ex normalfördelning (Gaussian), binominal fördelning etc
      • Kallas i statistikprogrammen för error eller family
    • En matematisk länk mellan Y och X
      • Tex log eller logit

Vad beskrivs?

A

Generalized linear model (GLM)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad beskriver de inringade områdena?

A
  • Här kan vi titta på R-square för att se hur mkt av variationen i Y som förklaras av x
  • Ekvationen längst ner Y=a + B*X ger en bedömning av vad en individ borde ha för värde på den beroende variabeln
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  • Används vid binär beroende variabel – ex sant eller falskt, levande eller död
    • 1 eller 0 (om det inte händer)
  • Oberoende variabel/variabel fungerar som vid linjär regression
  • Används ofta i fall-kontroll studier där fallen är den beroende variabeln
  • Kan också användas i kohortstudier men passar inte alltid
    • Viktigt isf med samma uppföljningstid
    • Är tidpunkten för händelsen viktigt så är överlevnadsanalys bättre
    • Kan inte användas om utfallet upprepas eller så sällan att frekvensen är oviktig
  • Bilden visar risken att dö av sjukdom relaterat till ålder
  • 0 levande, 1 död – varierar däremellan
  • Andelen döda ökar ju äldre man blir och till slut dör alla
  • För att få kurvan rak kan matematisk länk användas

Vad beskrivs?

A

Logistisk regression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Skillnad på odds och proportion?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  • För att få kurvan rak vid logistisk regression kan logaritmering användas som matematisk länk
  • Men för mer stabil modell kan vad användas?
    • Havererar inte så ofta som bara logaritmering
    • Kan tolkas som oddskvoten
A

Logit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vad betyder det som är inringat?

A
  • Ger ungefär samma info R-square på sina håll (2) även om de avviker från varandra
  • Här ses inte genomsnittligt värde på y-variabel utan sannolikhet att variabel = 1
    • I detta fall har kvinnor hälften så stor risk att få rektumcancer i förhållande till män i denna population (signifikant vilket ses under Sig.)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  • Logistisk regression är ganska lik linjär regression
    • I linjär regression används t-test för p-värden

Vad används vid logistik regression?

A
  • Chi-två test
    • Kan ge för stora p-värden och vi kan missa signifikanta samband
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Is a mathematical model used in statistics to estimate (guess) the probability of an event occurring having been given some previous data. Works with binary data, where either the event happens (1) or the event does not happen (0).

Vad beskrivs?

A

Logistic Regression, also known as Logit Regression or Logit Model

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  • Tid är alltid beroende variabel och börjar då vi viss tidpunkt, ex vid diagnos eller då behandling påbörjas
    • Mäts till utfall inträffar eller individerna censureras (ex studien tar slut, pat flyttar, pat får annan sjukdom

Vad beskrivs?

A

Överlevnadsanalys

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Överlevnadsanalys

  • Tid är alltid beroende variabel och börjar då vi viss tidpunkt, ex vid diagnos eller då behandling påbörjas
    • Mäts till utfall inträffar eller individerna censureras (ex studien tar slut, pat flyttar, pat får annan sjukdom

Vad betyder kryssen?

A

Censurering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Överlevnadskurvor

  • Jämförelse mellan överlevnadskurvor vi en tidpunkt
    • Chi2-test för att få fram p-värde
    • Svagheter
      • Tidpunkt måste väljas i förväg annars kan man välja en punkt där signifikant skillnad finns
      • Kurvorna kan skilja sig åt i vissa punkter men inte andra

Så hur kan vi göra istället?

A
  • Bättre använda metod som tar hänsyn till hela kurvan
    • Logrank testet (variant på Chi2-test)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad säger log-rank-testet?

A
  • Om överlevnadskurvor är lika varandra
    • Lika många händelser? Inträffar de ungefär samtidigt
    • Noll-hypotesen anger att kurvor är lika och p-värdet anger sannolikheten att nollhypotesen är sann – bilden visar icke signifikans – alltså hittas ingen skillnad mellan kurvor
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
  • Multivariabel modell (proportionall hazard model – Cox-regression)
    • Används när man vill kontrollera för fler faktorer
    • Halv-parametrisk då den inte förutsätter någon bestämd fördelning men kurvorna man jämför ska ha samma fördelning
    • Oberoende variabler (x) bör vara konstanta över tid
    • Ex – vad är sannolikheten att överleva två år efter en behandling om patienten redan överlevt ett år
    • Exempel visar jämförelse mellan patienter med fettlever och friska avseende risken att insjukna i levercancer (samma som ovan bild)

Vad säger Exp(B) här?

A
  • Exp(B) – hazarad ratio – de med fettlever har 35 % högre risk för insjuknande men p-värdet säger att vi inte kan säga detta
  • Konfidensintervallets nedre del (0,971) visar att det till och med möjligt att fettlever kan ha skyddande effekt. OM bägge siffror varit över 1 hade det funnits en signifikant ökad risk
17
Q
  • Multivariabel modell (proportionall hazard model – Cox-regression)
    • Används när man vill kontrollera för fler faktorer
    • Halv-parametrisk då den inte förutsätter någon bestämd fördelning men kurvorna man jämför ska ha samma fördelning
    • Oberoende variabler (x) bör vara konstanta över tid
    • Ex – vad är sannolikheten att överleva två år efter en behandling om patienten redan överlevt ett år
    • Exempel visar jämförelse mellan patienter med fettlever och friska avseende risken att insjukna i levercancer (samma som ovan bild)
      • Exp(B) – hazarad ratio – de med fettlever har 35 % högre risk för insjuknande men p-värdet säger att vi inte kan säga detta
      • Konfidensintervallets nedre del (0,971) visar att det till och med möjligt att fettlever kan ha skyddande effekt. OM bägge siffror varit över 1 hade det funnits en signifikant ökad risk

Kurvorna är gjorda efter Cox-regression, grundantagande är att kurvorna är mer eller mindre parallella. Dessa kurvor ska inte användas för att visa överlevnad (då de stökats till av modellen). Men fördelen är att få ut?

A

Hazarad ratio med konfidensintervall

18
Q

När vi tar med födelseår i analys sjunker p-värdet till 0,025 (signifikans), hazard ratio ökar. Konfidensintervallet har också höjts.

Ålder är alltså också en riskfaktor för levercancer, vilket innebär att?

A

Ålder är en confoundingfaktor