logistische regressie Flashcards

1
Q

logistische regressie

A

Maakt gebruik van logit-transformatie van dummy afhankelijke en biedt uitkomst voor nadelen verbonden aan linear probability model:

  • niet-lineaire karakter van relatie tussen kans op gebeurtenis en verschillende achtergrondkenmerken
  • begrenzing van kans tussen minimumwaarde 0 en maximumwaarde 1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

odds

A

de verhouding van de kans dat het zich voordoet tov de kans dat het zich niet voordoet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

odds-ratio

A

de verhouding van de conditionele odds

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

logit(Y)

A

Het natuurlijke logaritme van de odds. Heeft een onbegrensde minimum en maximumwaarde. In tegenstelling tot kansverhouding of odds is logit symmetrisch rond 0.
(logits van odds-ratios steeds optellen met de logits van odds van de noemer om kansen te berekenen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

kansen-odds-logits

A

een kans van 50% komt overeen met odds van 1 en een logit van 0 (.5 - 1 - 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

multiplicatieve regressievergelijking

A
  • de geëxponentieerde constante weerspiegelt de odds voor de referentiecategorie
  • de geëxponentieerde regressiecoëfficient weerspiegelt de verandering in de odds bij een eenheidswijziging in een onafhankelijke variabele en is dus de odds-ratio van de niet-referentiecategorie tov de referentiecategorie!!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

eigenschappen van de maximum likelihood schattingen

A

• Consistent: naarmate steekproefomvang toeneemt, stijgt de kans dat de schatting dicht bij de populatiewaarde ligt, i.e. schatters zijn zuiver en spreiding van steekproevenverdeling (standaardfout) wordt kleiner
naarmate steekproefomvang toeneemt
• Asymptotisch efficiënt: in grote steekproeven zijn standaardfouten kleiner (of toch niet groter) dan bij enige andere schattingsmethode
• Asymptotisch normaal verdeeld: naarmate steekproefomvang toeneemt, benadert de steekproevenverdeling van Maximum Likelihood schatters de vorm van een normale verdeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

deviance

A

De -2 LL. Minimaliseren van deviance (-2LL) gebeurt iteratief: startwaarden van 𝛼 , 𝛽1, 𝛽2 worden bijgesteld tot geen verbetering meer wordt bekomen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Model Chi-square

A

De modelvergelijkingsprocedure bij logistische regressie waarin de -2LL van het beperkte model vergeleken wordt met de -2LL van het volledige model. volgt een chi-kwadraatverdeling met Ddf vrijheidsgraden, waarbij Ddf het verschil weerspiegelt tussen het aantal geschatte parameters in het beperkte model (1, voor de constante) en het aantal geschatte parameters in het volledige model

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

𝑅^2 berekenen voor logistische regressie

A

initiele chi-square waarde voor het model gedeeld door de initiële -2LL (alternatieven in spss = cox&snell en nagerkerke )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

classification table

A

resultaten obv logistische regressievergelijking (boven of onder de kans van .50) worden vergeleken met de geobserveerde waarden en geeft het aandeel dat juist geclassificeerd is. Deze tabel is echter weinig genuanceerd, daarom gaat de voorkeur uit naar de chi-square test voor beoordeling van het model.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

likelihood ratio test

A

Gaat na of het toevoegen van 1 variabele een significante stijging in chi-quare model teweeg brengt (maar dan moet er steeds een ander model geschat worden)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wald statistic

A

Evalueert de bijdrage van afzonderlijke variabelen (vergelijkbaar met de t test). Door het kwadraat van de verhouding van de maximum likelihood schatter en de asymptotische standaardfout. Volgt een chikwadraat verdeling met één vrijheidsgraad!!!!!!!!!!! Bij categorische variabelen (meet 3+ categorieën) wordt de variabele opgesplitst in meerdere dummys.

Nadeel: standaardfout bij grote regressiecoëfficiënt wordt overschat wat leidt tot het valse niet-verwerpen van de nulhypothese

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

interpretatie van de logistische regressievergelijking in termen van logits

A

Bij continue variabelen: naarmate de variabele met 1 eenheid stijgt daalt/stijgt de logit
Bij categorische variabelen moet er steeds vergeleken worden met de referentiecategorie.
-> - is een daling, + is een stijging van de logit (niet zoals groeifactoren interpreteren maar hoe het er staat!)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

interpretatie van de logistische regressievergelijking in termen van odds en odds-ratio’s

A

interpreteren in zoals groeikansen. Een odds(ratio) van

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

indicator coding

A

Odds op zittenblijven van één groep (bv. Turkse mannen) worden vergeleken met de odds van een referentiecategorie (bv. Marokkaanse mannen)

17
Q

deviation coding

A

Odds op zittenblijven van één groep (bv. Turkse mannen) worden vergeleken met (geometrisch) gemiddelde kansverhouding of odds. Dus NIET met de referentiecategorie. => geeft ook twee tabellen en modellen weer

18
Q

Hosmer-Lemeshow test

A

Hosmer-Lemeshow test gaat na of empirisch verband tussen dichotome afhankelijke variabele en onafhankelijke variabelen daadwerkelijk logistische curve volgt. Wanneer deze test significant is lijkt het verband af van de logistische curve (willen we dus niet!)