Meervoudige regressieanalyse - week 3 Flashcards
Meervoudige regressieanalyse
= onderzoeken van verband tussen Y en meerdere onafhankelijke variabelen
We bekijken het verband tussen Y en X1 tm Xp gezamenlijk om tot betere schatters te komen; afzonderlijke verbanden kunnen misleidend zijn. Het meervoudige regressie-model corrigeert voor de invloed van andere variabelen
toets voor een afzonderlijke variabele
t-toets
toets voor het gehele model (alle variabele)
f-toets
toets voor een groep van variabelen
f-toets voor een groep van variabelen
toetsingsgrootheid afzonderlijke variabelen
T verdeling met n-p-1 d.f.
p = aantal x-variabelen
Hoe goed past het model op de data van de steekproef?
Meten met R2
Max en min R2
Max wordt bereikt als KS (residu) gelijk is aan 0
Min wordt bereikt als alle waarnemingen exact op de regressielijn liggen
R2 neemt toe naarmate KS (regressie) groter is en dus KS(residu) kleiner
Hoe groter R2 des te beter het model past op de steekproefdata
(Multi)collineariteit
= sterke lineaire samenhang tussen 2 of meer X-variabelen (vermijden)
Hierbij is er niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen
Gevolg (multi)collineariteit
- voor elk van de afzonderlijke X-variabelen in het model wordt H0 niet verworpen, dus geen enkele X is statistisch significant van invloed
- voor H0 voor het gehele model wordt wel verworpen, dus alle X-variabelen tezamen zijn wél statistisch significant van invloed (maar welke verantwoordelijk is hiervoor weet je niet)
Hoe spoort je (multi)collineariteit op
- lage t-waarden (vvoor afzonderlijke X-variabelen), EN hoge F-waarden (voor gehele model of groep X-variabelen)
- grote veranderingen in coëfficienten treden op bij verwijdering van een X-variabele uit het model
- er zijn hoge correlaties tussen de X-variabelen (bijv. tussen leeftijd en gezondheid)
Hoe los je multicollineariteit op
- Niets doen, want multicollineariteit is alleen een probleem als de samenhang tussen de X’en onderling (gemeten in termen van R2) kleiner is dan de R2 van de regressie zelf
- Niets doen, als je niet in de coëfficiënten van de X-variabelen bent geïnteresseerd maar wel in de voorspelkracht van het model als geheel
- Maak de steekproef groter
- Verwijder sterk gecorreleerde X-variabelen (maar dat is problematisch als juist díe variabelen van belang zijn in je onderzoek; denk aan de hoogte van het vrijwillig eigen risico in het voorbeeld)
- Voeg sterk gecorreleerde variabelen samen (kan bv met PC/factoranalyse)