AVV College 3 Flashcards
Meervoudige lineaire regressie
= onderzoeken van verband tussen Y en meerdere onafhankelijke variabelen (X1 tm Xp)
Populatie / steekproef
P: Y = b0 + b1X1 + b2X2 + …,…,… + bp*Xp + ε
S: Ŷ = b0 + b1X1 + b2X2 + …,…,… + bp*Xp
We bekijken het verband gezamenlijk…
We bekijken het verband tussen Y en X1 tm Xp gezamenlijk om tot betere schatters te komen; afzonderlijke verbanden kunnen misleiden zijn. Het meervoudige regressie-model corrigeert voor de invloed van andere variabelen. Dit is cruciaal!
Interpretatie van een parameter (bijv. b)
= de partiele invloed van Xi op Y, gecorrigeerd voor de invloed van de andere X’en (of: onder gelijkhouding van de andere X’en)
Hypothese toetsen voor 3 situaties
- t-toets voor een afzonderlijke variabele
- F-toets voor het gehele model
- F-toets voor een groep van variabele
- toets voor afzonderlijke variabele en b.i. (toetsingsgrootheid)
- T = (b_j-β_j)/(se(b_j)) , heeft t-verdeling met n-p-1 vrijheidsgraden
- p = aantal X-variabelen
se(bj) = - standaardfout van bj = S_d/√(〖KS(residu)〗_j ) (sd wordt groter als punt verder van regressielijn af ligt)
‐ KS(residu)j is de KS van de residuen van een regressie van Xj op alle andere X-variabelen
‐ Dus hoe minder de samenhang tussen Xj en alle andere X-variabelen, hoe groter KS(residu)j en hoe kleiner se(bj)
‐ Dus: probeer sterk samenhangende X-variabelen te vermijden
Betroubaarheidsinterval van bj
Betrouwbaarheidsinterval (b.i.) van bj:
bj +/- tn-p-1, a*se(bj)
Hoe goed past het model op de data van de steekproef?
R^2 = KS (totaal) -KS (residu) / KS (totaal)
=
KS (regressie) / KS (totaal)
Stel we hebben de mogelijkheid het model uit te breiden met 2 variabelen: gezondheid en inkomen. Welk model is dan beter, het ‘oude’ model (met alleen HVER en LFT) of het ‘nieuwe’, met daarin ook deze nieuwe X-variabelen?
Antw: voer een F-toets uit voor een groep van variabelen. De ‘groep’ betreft hier beide nieuwe X-variabelen en de omvang van de groep duiden we aan met k (dus hier: k = 2)
Oude model:
b0 + b1HVER + b2Lft + ε
Nieuwe model:
b0 + b1HVER + b2Lft + b3Gezondheid + b4Inkomen + ε
Aanpak nieuwe model
Bereken KS (residu) voor nieuwe model en voor oude model en voer de F-toets uit –> zit er een significant verschil tussen het nieuwe en oude model?
Voorbeeld: Het blijkt dat: KS(residu)0 = 470949,6 (slide 20) en KS(residu)1 = 453352,4 Met: KS(residu)0 = kwadraatsom van residuen van model zonder X1, X2 …Xk en KS(residu)1 = kwadraatsom van residuen van model met X1, X2 …Xk H0: b3 = b4 = 0 Ha: b3 ≠ b4 ≠ 0 F = ([〖KS(residu)〗_0 - 〖KS(residu)〗_1]/k)/(〖Ks(residu)〗_1 /(n-p-1)) , heeft F-verdeling met k en n-p-1 vrijheidsgraden F2,23317-4-1 en a = 0,05 levert kritieke grens van 3,00 (zie tabel F-verdeling) F = ([470949,6 -453352,4]/2)/(453352,4/(22317-4-1)) = 433,0 > 3,00, verwerp dus H0
Conclusie: gezamenlijk leveren gezondheid en inkomen een significante bijdrage aan verklaring van de variantie in Zkosten als leeftijd en de hoogte van het vrijwillig eigen risico al in het model zitten (a = 0,05). Het nieuwe model is beter want het verklaart (significant) meer variantie.
multicollineariteit
= er is niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen. Een klein residu zorgt voor een hoge standaardfout want:
se(bj) = Sd / Wortel KS (Residu)j
Geen collineariteit
–> zeldzaam
Deze is het meest ideaal, ze overlappen deels, maar geen 1 vertoont samenhang met elkaar
Beperkte collineariteit
–> gebruikelijk
Sterke collineariteit
–> vermijden
Gevolgen multicollineariteit voor hypothese toetsing
- t-toets afzonderlijke variabelen: omdat se(bj) groot wordt, daalt de waarde van de toetsingsgrootheid, dus de nulhypothese wordt minder snel verworpen
- Ftoets voor het hele model: multicollineariteit heeft hierop geen invloed, want de gezamenlijke bijdrage van de x-variabelen blijft gelijk