Föreläsning 8 - Hetrogenitet, Specification Checks Och Competingrisk Flashcards
Vad är problemet med hetrogenitet hazard modeller?
Hetrogenitet uppstår i en population näör olika individer i populationen har potentiellt olikla distributioner av den beroende variabeln.
Man anväönder covariat för att kontrolera för dessa.
Misslkyckas man med detta eller har fel funktionella for kommer man få problem.
Hetrogenitet i durations-modeller leder till missvisande inferencer om duration-dependance och potentiellt missfisande inferenser om effekten av förklaringsvariablerna.
Om vi samplar individer som har olika lätt att skaffa jobb kommer vi få ett downward bias ällande duration dependance. Dvs, effekten av tid är negativ. Vi kommer tro att det är svårare att hitta arbete ju länge man är arbetslös, men egentligen handlar det om att individer som har enkelt att skaffa jobb är de som blir kvar sist.
Detta enligt Keifer (1988)
Vilka är de två sätten enligt Keifer (1988) som vi kan analysera felspeifikation på i hazard modeller?
Två sätt.
- Analysera residualerna. Det enklaste sättet att studera dessa är genom att se på den integrerade hazarden. Om specifikationen är korrekt så ska värderna Iin absens of censureing) likna en sample från unit-exponenital distributionen. Dvs 45 grader streck.Ju längre durationerna är desto mer kommer de avvika tyvär… Men man vill ha sån liten sklillnad mellan de integrerade residualerna och 45 graders strecket.
- Dela upp samplet i gruper givet någon förklaringsvariabel (tjejer och killar, eller något annat) och fitta modellen separat för grupperna. Om specifikationen är korrekt ska de estimerade parame
Förklara mer hur man enligt palme kan göra residual-checks för att kolla felspecificering i hazard modeller.
Det mest använda felspecificeringstestet är att kolla på distributionen i residualerna. Om denna avviker från normalfördelningen är det en felspecificering.
I hazardmodeller finns det inga upenbara residualer. Ett sätt är dock att använda cox-snell residualer.
Dessa är de integrerade hazarden.
De är alltså bara summan av hazard funktionerna.
En väldigt viktig sak:!!!: För hazzardmodeller kan man visa att den integrerade hazarden har en unit-distibution! Inget vi visar, men vi använder detta.
I OLS följer de normalfördelar, här följer de generaliserade en unit-distribution.
De ska alltså följa en unit-exponential distribution.
Vi kan då jämföra våra residualer mot en teoretisk prediktion!
OM modellen då håller den teoretiska prediuktionen ska den vara = 45 graders linjen.
Om inte så kommer den skilja sig från denna.
I de flesta fallen kommer det skilja sig efter ett tag.
Frågan är dock om det skiljer sig så mycket så man får rejecta modellen.
Vi testar h0: a = 0 och beta = 1.
De flesta gör dock inte testet. Utan de plottar bara residualerna mot 45 i en graf!!
Var är ett annat felspecificeringstest enligt Palme?
Second moment contidion: Variance of the unit exponential distribution should be equal to 2.
Avvilker variansen från två har vi alltså felspecificering. Ju större avvikelse desto värre.
Vad är ett problem gällande covariat i hazard modellerP
Om vi har Y X sen variabel Z som bara påverkar Y men inte X. Vi kan då strunta i Z och ändå få konsistenta estimat vid OLS.
Detta är inte fallet i hazardmodellen!.!.! Här ska vi iknkludera alla Z
Hur löser vi problemet med dynbamisk selektion i hazard modeller?
Vi får inkludsera så mycket kontrollvariabler som möjligt! För att fånga detta oobserverbara som gör att personer skiljer sig åt.
Som tidigare nämnt, även om Z bara påverkar Y och inte X, är det viktigt att inkludera Z ändå om vi ska ha konsistenta estimat!
Vad menas med compeating risk?
Vi har fler riskfaktorer som stör ut varandra eftersom vi bara kan observera hur den ena gör att spellen termineras och inte den andra.
Alltså, det är fler durationsmodeller samtidigt.
Tex: livslängden när man har fått canser och hjärtfel.
Om vi observerar att patienten där av hjältfel kan vi inte observera när han dör av canser senare.
För eller senare kommer nåon dö av canser om den lever tillräckligt länge! Men man kommer inte obswervera dett för att personer då de dör i annat. Det är alltså censurerat
Det går dock att hypothesera vilken sjukdom som är känsligast mot inkomst och education.
t.ex med unemployment:
Katz och Mayer:
De skiljer mellan recalls (tillbaka till det gamla jobbet) och få ett helt nytt jobb. Detta är en typ av compeating risk.
Hur studerar man compeating risk?
Couses of death can be latently correlated. De som har högre sannolikhet till hjärtinfigt kan också ha större sannolikhet till cancer, pga livstil.-
Hur kan vi bounda den latenta survival-funktionen? Lower…??
Upper : assuming that canser and cario mortality is perfectly correllated (om vi dör i cardio skulle vi ändå ha döt dagen efter i canser)
Givet detta är det möjligt att få olika estimat för olika dödsorsaker.
Fattar inte detta!!!
Hur studerar vi formellt competing risk-modeller?
Vi antar att alla har en underliggande distibution av failuse av olika orsaker (m antal mpnga), det ger då en risk att bli censurerad av något annat. Det vi observerar är minimumet av alla durationer.
Vi kan göra två extrema antagenden:
- Orsakerna till terminering (t.ex cancer och hjärtinfigt är helt okorrelerade)
- Orsakerna är perfekt korrelerade (dog jag i cancer idag skulle jag ändå ha dött av hjärtinfight imorgon.)
- Om vi har oberoende risker så är det ganska straight forward att få en over all probability of termination. Det öär bara multiplicering av riskerna.
Det blir en multiplikativ summa. Det är därför simplet att få en likelihood funktiuion.
Det är samma som att behandla censurering vid olika punkter i tiden.
Givet antagandet om indipendence, får vi en ett estimat av hazardfunktionen genom att estimera den vanliga hazardfunktionen och behandla alla andra orsaker till terminering som censurering.
- En annan extrem är om de är perfekkt korrelerade.
Det är också straignt forward, då kan vi ju bara använda vår vanliga hazard funktion (applying to all courses of determination!) alltså säga att ALL termenering beror på den ena orsaken.