Statistik - logistisk regression och överlevnadsanalys Flashcards
- När vi söker efter en linjär modell som beskriver sambandet mellan våra variabler. Vad vi söker är alltså en linje som våra markerade punkter avviker så lite från som möjligt
- Y (beroende) är en kontinuerlig variabel
- Slumpfel antal vara normalfördelade
- Men om Y är en dikotom variabel fungerar inte detta så bra
Vad beskrivs?
Linjär regression/regressionsanalys
- Generell modell för alla linjära samband
- Bygger på att man vet:
- Fördelningen av den beroende variabeln (Y), ex normalfördelning (Gaussian), binominal fördelning etc
- Kallas i statistikprogrammen för error eller family
- En matematisk länk mellan Y och X
- Tex log eller logit
- Fördelningen av den beroende variabeln (Y), ex normalfördelning (Gaussian), binominal fördelning etc
Vad beskrivs?
Generalized linear model (GLM)
Vad beskriver de inringade områdena?
- Här kan vi titta på R-square för att se hur mkt av variationen i Y som förklaras av x
- Ekvationen längst ner Y=a + B*X ger en bedömning av vad en individ borde ha för värde på den beroende variabeln
- Används vid binär beroende variabel – ex sant eller falskt, levande eller död
- 1 eller 0 (om det inte händer)
- Oberoende variabel/variabel fungerar som vid linjär regression
- Används ofta i fall-kontroll studier där fallen är den beroende variabeln
- Kan också användas i kohortstudier men passar inte alltid
- Viktigt isf med samma uppföljningstid
- Är tidpunkten för händelsen viktigt så är överlevnadsanalys bättre
- Kan inte användas om utfallet upprepas eller så sällan att frekvensen är oviktig
- Bilden visar risken att dö av sjukdom relaterat till ålder
- 0 levande, 1 död – varierar däremellan
- Andelen döda ökar ju äldre man blir och till slut dör alla
- För att få kurvan rak kan matematisk länk användas
Vad beskrivs?
Logistisk regression
Skillnad på odds och proportion?
- För att få kurvan rak vid logistisk regression kan logaritmering användas som matematisk länk
- Men för mer stabil modell kan vad användas?
- Havererar inte så ofta som bara logaritmering
- Kan tolkas som oddskvoten
Logit
Vad betyder det som är inringat?
- Ger ungefär samma info R-square på sina håll (2) även om de avviker från varandra
- Här ses inte genomsnittligt värde på y-variabel utan sannolikhet att variabel = 1
- I detta fall har kvinnor hälften så stor risk att få rektumcancer i förhållande till män i denna population (signifikant vilket ses under Sig.)
- Logistisk regression är ganska lik linjär regression
- I linjär regression används t-test för p-värden
Vad används vid logistik regression?
- Chi-två test
- Kan ge för stora p-värden och vi kan missa signifikanta samband
Is a mathematical model used in statistics to estimate (guess) the probability of an event occurring having been given some previous data. Works with binary data, where either the event happens (1) or the event does not happen (0).
Vad beskrivs?
Logistic Regression, also known as Logit Regression or Logit Model
- Tid är alltid beroende variabel och börjar då vi viss tidpunkt, ex vid diagnos eller då behandling påbörjas
- Mäts till utfall inträffar eller individerna censureras (ex studien tar slut, pat flyttar, pat får annan sjukdom
Vad beskrivs?
Överlevnadsanalys
Överlevnadsanalys
- Tid är alltid beroende variabel och börjar då vi viss tidpunkt, ex vid diagnos eller då behandling påbörjas
- Mäts till utfall inträffar eller individerna censureras (ex studien tar slut, pat flyttar, pat får annan sjukdom
Vad betyder kryssen?
Censurering
Överlevnadskurvor
- Jämförelse mellan överlevnadskurvor vi en tidpunkt
- Chi2-test för att få fram p-värde
- Svagheter
- Tidpunkt måste väljas i förväg annars kan man välja en punkt där signifikant skillnad finns
- Kurvorna kan skilja sig åt i vissa punkter men inte andra
Så hur kan vi göra istället?
- Bättre använda metod som tar hänsyn till hela kurvan
- Logrank testet (variant på Chi2-test)
Vad säger log-rank-testet?
- Om överlevnadskurvor är lika varandra
- Lika många händelser? Inträffar de ungefär samtidigt
- Noll-hypotesen anger att kurvor är lika och p-värdet anger sannolikheten att nollhypotesen är sann – bilden visar icke signifikans – alltså hittas ingen skillnad mellan kurvor