logistische regressie Flashcards
wanneer gebruik je de logistische regressie analyse
voorspellen van één kwalitatieve , dichotome afhankelijke variabele door één of meer onafhankelijke variabelen ( kwalitatief of continue)
waarom werkt een lineaire regressie niet bij één kwalitatieve dichotome afhankelijke variabele?
omdat er maar 2 waardes voor kunnen komen ( 0 en 1), zal de regressievergelijking waardes simuleren die niet mogelijk zijn
heteroscedasticiteit
wat is de intercept E
Euter’s constante
wat is het voordeel en nadeel van de lineaire functie van ln(odds)
voordeel: lineair, dus makkelijker te interpreteren
“een verandering van één eenheid van X leidt tot een verandering van b1 eenheden in Y”
Nadeel: de afhankelijke variabele is lastiger voor te stellen
interpretatie van termen in LOGITS
als predictor met één eenheid stijgt, verandert logit met b eenheden (onder constanthouding overige predictoren)
interpretatie van termen in ODDS
Door toename van één eenheid van predictor wordt odds Exp(B) keer zo groot (onder constanthouding overige predictoren)
interpretatie van termen in KANSEN
Niet rechtstreeks; effect van predictor op kans door invullen van b’s in logistische regressievergelijking
wat is de Walds-toets
test of B (populatie) afwijkt van 0
–> zelfde functie als t-toets
antwoord vergelijken met X^2 verdeling bij 1 df
–>Als de waldtest in abslute zin grote waardes heeft, dan krijgt die ook grote standaardfouten
wat is het probleem bij logistische regressie en Chi-square
erklaarde variantie R2y.12..m niet zinvol bij dichotome afhankelijke variabele!
→Voor een dummy kun je geen verklaarde variantie berekenen
wat is de schattingsprocedure van logistische regressie
Maximum likelihood schatting
Log lilelihood (LL) = maat voor waarschijnlijkheid dat de geobserveerde data zou zijn verkregen bij de gegeven coëfficiënten uit het (logistische) regressiemodel
–> we gebruiken -2LL omdat deze X^2- verdeeld is
Hoe lager -2LL, hoe beter de parameters de geobserveerde data reproduceren, dus hoe beter het model past!!
HOE doe je de maximum likelihood schatting
Stap 1:
A = -2 log likelihood ‘klein model’ met n regressiecoëfficiënten
B = -2 log likelihood ‘groot model’ met m regressiecoëfficiënten (m>n)
bereken A-B
–> model A is een simplificatie van model B
Stap 2:
A-B is X^2 verdeeld bij m-n df
–> grote model is significant beter als A-B groter is dan de kritieke waarde van X^2 bij m-n df
wat is de maximum likelihood schatting nulhypothese
“Het kleine model A past even goed als het grote model B”
alternatieve hypothese: “ Het grote model B past beter dan het kleine model A”
toets NIET significant: voorkeur aan model A ( omdat deze eenvoudiger is)
hoe werkt de model-toets
vergelijk model met een aantal (m) predictoren met een ‘leeg’ model, dit is een model met 0 predictoren (logit=a)