logistische regressie Flashcards
logistische regressie
Maakt gebruik van logit-transformatie van dummy afhankelijke en biedt uitkomst voor nadelen verbonden aan linear probability model:
- niet-lineaire karakter van relatie tussen kans op gebeurtenis en verschillende achtergrondkenmerken
- begrenzing van kans tussen minimumwaarde 0 en maximumwaarde 1
odds
de verhouding van de kans dat het zich voordoet tov de kans dat het zich niet voordoet
odds-ratio
de verhouding van de conditionele odds
logit(Y)
Het natuurlijke logaritme van de odds. Heeft een onbegrensde minimum en maximumwaarde. In tegenstelling tot kansverhouding of odds is logit symmetrisch rond 0.
(logits van odds-ratios steeds optellen met de logits van odds van de noemer om kansen te berekenen)
kansen-odds-logits
een kans van 50% komt overeen met odds van 1 en een logit van 0 (.5 - 1 - 0)
multiplicatieve regressievergelijking
- de geëxponentieerde constante weerspiegelt de odds voor de referentiecategorie
- de geëxponentieerde regressiecoëfficient weerspiegelt de verandering in de odds bij een eenheidswijziging in een onafhankelijke variabele en is dus de odds-ratio van de niet-referentiecategorie tov de referentiecategorie!!
eigenschappen van de maximum likelihood schattingen
• Consistent: naarmate steekproefomvang toeneemt, stijgt de kans dat de schatting dicht bij de populatiewaarde ligt, i.e. schatters zijn zuiver en spreiding van steekproevenverdeling (standaardfout) wordt kleiner
naarmate steekproefomvang toeneemt
• Asymptotisch efficiënt: in grote steekproeven zijn standaardfouten kleiner (of toch niet groter) dan bij enige andere schattingsmethode
• Asymptotisch normaal verdeeld: naarmate steekproefomvang toeneemt, benadert de steekproevenverdeling van Maximum Likelihood schatters de vorm van een normale verdeling
deviance
De -2 LL. Minimaliseren van deviance (-2LL) gebeurt iteratief: startwaarden van 𝛼 , 𝛽1, 𝛽2 worden bijgesteld tot geen verbetering meer wordt bekomen
Model Chi-square
De modelvergelijkingsprocedure bij logistische regressie waarin de -2LL van het beperkte model vergeleken wordt met de -2LL van het volledige model. volgt een chi-kwadraatverdeling met Ddf vrijheidsgraden, waarbij Ddf het verschil weerspiegelt tussen het aantal geschatte parameters in het beperkte model (1, voor de constante) en het aantal geschatte parameters in het volledige model
𝑅^2 berekenen voor logistische regressie
initiele chi-square waarde voor het model gedeeld door de initiële -2LL (alternatieven in spss = cox&snell en nagerkerke )
classification table
resultaten obv logistische regressievergelijking (boven of onder de kans van .50) worden vergeleken met de geobserveerde waarden en geeft het aandeel dat juist geclassificeerd is. Deze tabel is echter weinig genuanceerd, daarom gaat de voorkeur uit naar de chi-square test voor beoordeling van het model.
likelihood ratio test
Gaat na of het toevoegen van 1 variabele een significante stijging in chi-quare model teweeg brengt (maar dan moet er steeds een ander model geschat worden)
Wald statistic
Evalueert de bijdrage van afzonderlijke variabelen (vergelijkbaar met de t test). Door het kwadraat van de verhouding van de maximum likelihood schatter en de asymptotische standaardfout. Volgt een chikwadraat verdeling met één vrijheidsgraad!!!!!!!!!!! Bij categorische variabelen (meet 3+ categorieën) wordt de variabele opgesplitst in meerdere dummys.
Nadeel: standaardfout bij grote regressiecoëfficiënt wordt overschat wat leidt tot het valse niet-verwerpen van de nulhypothese
interpretatie van de logistische regressievergelijking in termen van logits
Bij continue variabelen: naarmate de variabele met 1 eenheid stijgt daalt/stijgt de logit
Bij categorische variabelen moet er steeds vergeleken worden met de referentiecategorie.
-> - is een daling, + is een stijging van de logit (niet zoals groeifactoren interpreteren maar hoe het er staat!)
interpretatie van de logistische regressievergelijking in termen van odds en odds-ratio’s
interpreteren in zoals groeikansen. Een odds(ratio) van