AVV College 4 Flashcards
Wanneer is een logistische regressie toepasbaar
= als de afhankelijke variabele dichotoom is, dus uitsluitend de waarden 0 of 1 kan aannemen
Voorbeelden:
- Niet (=0) of wel (=1) huisartsconsult in de afgelopen 2 weken
- Niet of wel overgestapt naar andere zorgverzekeraar per 1 januari
- Niet of wel gekozen voor een vrijwillig eigen risico
Overeenkomsten logistische versus lineaire regressie
- doel: vinden van een ‘best passende’ relatie tussen één afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X1…Xp)
- onafhankelijke variabele continu of categoriaal
- beide technieken worden zeer vaak toegepast
Verschil logistische en lineaire regressie
- de afhankelijke variabele is bij logistische regressie dichotoom, terwijl deze bij lineaire regressie continu is (min oneindig tot positief oneindig)
Verschil log en lin regressie heeft gevolgen voor
- bepalen van de coëfficiënten
- interpretatie van de coëfficiënten
- toetsen van hypothese
pi / 1-pi
= dit noemen we de odds (winstkans/verlieskans)
Interpretatie logistische regressie formule
de (populatie)parameter bj geeft aan in welke mate de waarde van de ln(odds) stijgt of daalt bij een stijging van de waarde van de onafhankelijke variabele (Xj) met één eenheid, onder gelijkhouding van de andere X-variabelen (of wel: ceteris paribus).
• Stel bj > 0: als Xj ↑, dan p ↑
Odds ratio (or)
Bij kleine waarden van pi, benadert de odds ratio de relatieve kans
Odds ratio versus relatieve kans
Relatieve kans = intuïtief eenvoudiger, maar blijk bij logistische regressie niet in elke situatie te berekenen
Odds ratio (OR) altijd te berekenen bij logistische regressie en is een goede benadering voor de relatieve kans bij kleine waarde van p
pi / (1 - pi)
pi = kans op
relatieve kans = pi ene kans/ pi andere
odds
pi / (1 - pi) van de ene / pi / (1 - pi) van de andere
Maximum likelihood methode
ipv schattingsmethode. Kies b0,b1..bp zodanig dat de met het model berekende kansen op de feitelijke uitkomsten (dus; of iemand bijvoorbeeld wel of geen hartziekte heeft) in de steekproef zo groot mogelijk worden
Mensen met een hoge kans op hartziekte wil je zo dicht mogelijk bij 1 en mensen met een lage kans op hartziekte wil je zo dicht mogelijk bij 0
ML-methode maximaliseert de log-likelihood of wel de ln (L)
• Gegeven zekere startwaarden van b0, b1 ….. bp berekent de computer de geschatte kans op de uitkomsten van elk individu i in de steekproef:
- En vervolgens worden de geschatte kansen van alle individuen samengevoegd tot de zogenaamde aannemelijkheid (of wel: likelihood) en die maakt de computer zo groot mogelijk door optimale waarden te bepalen voor b0, b1 ….. bp.
- Feitelijk wordt de logaritme van de likelihood gemaximeerd. Die is vergelijkbaar met de KS(regressie) in lineaire regressie: hoe groter, hoe beter.
Maximaliseren van ln (L) = de log likelihood
levert de zogenaamde ML-schatters b0,b1,bp voor de populatieparameters B0,B1…Bp. De hypothese toetsen zijn gebaseerd op de log-likelihood
Afzonderlijke variabelen toetsen Wald Toets
Bij logistische regressie berekenen we: Z = (b_j-β_j)/(se(b_j)) en dit heeft een standaard normale verdeling als de steekproef voldoende groot is (Wald toets).
b.i. voor geschatte cöefficiënt
• Bij logistische regressie: bj +/- z α*se(bj)
b.i. odds ratio
e^( b1±z*se(b1))
- toets voor het gehele model
We gebruiken de Likelihood Ratio toets, gebaseerd op het quotiënt L1 / L0, met:
L1 = Likelihood van model met alle X-en: ln (π/(1-π)) = β_0+β_1 X_1
L0 = Likelihood van model zonder X-en: ln (π/(1-π)) = β_0