AVV College 4 Flashcards

1
Q

Wanneer is een logistische regressie toepasbaar

A

= als de afhankelijke variabele dichotoom is, dus uitsluitend de waarden 0 of 1 kan aannemen

Voorbeelden:

  • Niet (=0) of wel (=1) huisartsconsult in de afgelopen 2 weken
  • Niet of wel overgestapt naar andere zorgverzekeraar per 1 januari
  • Niet of wel gekozen voor een vrijwillig eigen risico
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Overeenkomsten logistische versus lineaire regressie

A
  • doel: vinden van een ‘best passende’ relatie tussen één afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X1…Xp)
  • onafhankelijke variabele continu of categoriaal
  • beide technieken worden zeer vaak toegepast
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Verschil logistische en lineaire regressie

A
  • de afhankelijke variabele is bij logistische regressie dichotoom, terwijl deze bij lineaire regressie continu is (min oneindig tot positief oneindig)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Verschil log en lin regressie heeft gevolgen voor

A
  • bepalen van de coëfficiënten
  • interpretatie van de coëfficiënten
  • toetsen van hypothese
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

pi / 1-pi

A

= dit noemen we de odds (winstkans/verlieskans)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Interpretatie logistische regressie formule

A

de (populatie)parameter bj geeft aan in welke mate de waarde van de ln(odds) stijgt of daalt bij een stijging van de waarde van de onafhankelijke variabele (Xj) met één eenheid, onder gelijkhouding van de andere X-variabelen (of wel: ceteris paribus).
• Stel bj > 0: als Xj ↑, dan p ↑

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Odds ratio (or)

A

Bij kleine waarden van pi, benadert de odds ratio de relatieve kans

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Odds ratio versus relatieve kans

A

Relatieve kans = intuïtief eenvoudiger, maar blijk bij logistische regressie niet in elke situatie te berekenen

Odds ratio (OR) altijd te berekenen bij logistische regressie en is een goede benadering voor de relatieve kans bij kleine waarde van p

pi / (1 - pi)

pi = kans op

relatieve kans = pi ene kans/ pi andere

odds

pi / (1 - pi) van de ene / pi / (1 - pi) van de andere

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Maximum likelihood methode

A

ipv schattingsmethode. Kies b0,b1..bp zodanig dat de met het model berekende kansen op de feitelijke uitkomsten (dus; of iemand bijvoorbeeld wel of geen hartziekte heeft) in de steekproef zo groot mogelijk worden

Mensen met een hoge kans op hartziekte wil je zo dicht mogelijk bij 1 en mensen met een lage kans op hartziekte wil je zo dicht mogelijk bij 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

ML-methode maximaliseert de log-likelihood of wel de ln (L)

A

• Gegeven zekere startwaarden van b0, b1 ….. bp berekent de computer de geschatte kans op de uitkomsten van elk individu i in de steekproef:

  • En vervolgens worden de geschatte kansen van alle individuen samengevoegd tot de zogenaamde aannemelijkheid (of wel: likelihood) en die maakt de computer zo groot mogelijk door optimale waarden te bepalen voor b0, b1 ….. bp.
  • Feitelijk wordt de logaritme van de likelihood gemaximeerd. Die is vergelijkbaar met de KS(regressie) in lineaire regressie: hoe groter, hoe beter.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Maximaliseren van ln (L) = de log likelihood

A

levert de zogenaamde ML-schatters b0,b1,bp voor de populatieparameters B0,B1…Bp. De hypothese toetsen zijn gebaseerd op de log-likelihood

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Afzonderlijke variabelen toetsen Wald Toets

A

Bij logistische regressie berekenen we: Z = (b_j-β_j)/(se(b_j)) en dit heeft een standaard normale verdeling als de steekproef voldoende groot is (Wald toets).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

b.i. voor geschatte cöefficiënt

A

• Bij logistische regressie: bj +/- z α*se(bj)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

b.i. odds ratio

A

e^( b1±z*se(b1))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. toets voor het gehele model
A

We gebruiken de Likelihood Ratio toets, gebaseerd op het quotiënt L1 / L0, met:
L1 = Likelihood van model met alle X-en: ln (π/(1-π)) = β_0+β_1 X_1

L0 = Likelihood van model zonder X-en: ln (π/(1-π)) = β_0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

L1 / L0

A

= (de geschatte kans om de uitkomsten van de steekproef te krijgen als we wél rekening houden met de X variabelen) gedeeld door (de geschatte kans om de uitkomsten van de steekproef te krijgen als we géén rekening houden met de x-variabelen)

17
Q

We berekenen L1 en L0 niet zelf, maar

A

LR = 2in(L1/L0) = 2[ln(L1) - ln(L0)]

Dit heeft een C2 verdeling met p vrijheidsgraden; waarbij p het aantal X-variabelen in het model is

18
Q

toets voor gehele model vs toets voor groep variabelen

A
  1. LR-toets: LR = 2 * [ln(L1)  ln(L0)], heeft c2-verdeling met p vrijheidsgr
  2. LR-toets: LR = 2 * [ln(L1)  ln(L0)], heeft c2-verdeling met k vrijheidsgr.
19
Q

Hoe goed past het logistische regressie model op de data van de steekproef?

A

De toets voor het gehele model
Pseudo R2 (komt altijd tussen 0 en 1 uit):
óf R2 = 1  (L0 / L1)2/n (voor het voorbeeld van hartziekte: 0,47)
óf R2 = 1  [ln(L1) / ln(L0)] (voor het voorbeeld van hartziekte: 0,46)
L0 = likelihood van het model zonder de X-variabelen
L1 = likelihood van het model met de X-variabelen
3. Percentage ‘correcte’ voorspellingen in de steekproef:
Bereken π ̂_i = geschatte kans op hartziekte voor individu i
Als π ̂_i > 0,5 dan is onze voorspelling: individu i heeft hartziekte
Als π ̂_i < 0,5 dan is onze voorspelling: individu i heeft geen hartziekte
Vergelijk alle voorspellingen met de werkelijkheid in de steekproef en bereken het percentage correcte voorspellingen.