AVV College 3 Flashcards

1
Q

Meervoudige lineaire regressie

A

= onderzoeken van verband tussen Y en meerdere onafhankelijke variabelen (X1 tm Xp)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Populatie / steekproef

A

P: Y = b0 + b1X1 + b2X2 + …,…,… + bp*Xp + ε

S: Ŷ = b0 + b1X1 + b2X2 + …,…,… + bp*Xp

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

We bekijken het verband gezamenlijk…

A

We bekijken het verband tussen Y en X1 tm Xp gezamenlijk om tot betere schatters te komen; afzonderlijke verbanden kunnen misleiden zijn. Het meervoudige regressie-model corrigeert voor de invloed van andere variabelen. Dit is cruciaal!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Interpretatie van een parameter (bijv. b)

A

= de partiele invloed van Xi op Y, gecorrigeerd voor de invloed van de andere X’en (of: onder gelijkhouding van de andere X’en)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hypothese toetsen voor 3 situaties

A
  1. t-toets voor een afzonderlijke variabele
  2. F-toets voor het gehele model
  3. F-toets voor een groep van variabele
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. toets voor afzonderlijke variabele en b.i. (toetsingsgrootheid)
A
  • T = (b_j-β_j)/(se(b_j)) , heeft t-verdeling met n-p-1 vrijheidsgraden
  • p = aantal X-variabelen
    se(bj) = - standaardfout van bj = S_d/√(〖KS(residu)〗_j ) (sd wordt groter als punt verder van regressielijn af ligt)

‐ KS(residu)j is de KS van de residuen van een regressie van Xj op alle andere X-variabelen
‐ Dus hoe minder de samenhang tussen Xj en alle andere X-variabelen, hoe groter KS(residu)j en hoe kleiner se(bj)
‐ Dus: probeer sterk samenhangende X-variabelen te vermijden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Betroubaarheidsinterval van bj

A

Betrouwbaarheidsinterval (b.i.) van bj:

bj +/- tn-p-1, a*se(bj)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hoe goed past het model op de data van de steekproef?

A

R^2 = KS (totaal) -KS (residu) / KS (totaal)

=

KS (regressie) / KS (totaal)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Stel we hebben de mogelijkheid het model uit te breiden met 2 variabelen: gezondheid en inkomen. Welk model is dan beter, het ‘oude’ model (met alleen HVER en LFT) of het ‘nieuwe’, met daarin ook deze nieuwe X-variabelen?

A

Antw: voer een F-toets uit voor een groep van variabelen. De ‘groep’ betreft hier beide nieuwe X-variabelen en de omvang van de groep duiden we aan met k (dus hier: k = 2)

Oude model:
b0 + b1HVER + b2Lft + ε

Nieuwe model:
b0 + b1HVER + b2Lft + b3Gezondheid + b4Inkomen + ε

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Aanpak nieuwe model

A

Bereken KS (residu) voor nieuwe model en voor oude model en voer de F-toets uit –> zit er een significant verschil tussen het nieuwe en oude model?

Voorbeeld:
Het blijkt dat: KS(residu)0 = 470949,6 (slide 20) en KS(residu)1 = 453352,4
Met: KS(residu)0 = kwadraatsom van residuen van model zonder X1, X2 …Xk
en KS(residu)1 = kwadraatsom van residuen van model met  X1, X2 …Xk
	H0: b3 = b4 = 0      Ha: b3 ≠ b4 ≠ 0
	F = ([〖KS(residu)〗_0  - 〖KS(residu)〗_1]/k)/(〖Ks(residu)〗_1  /(n-p-1)) , heeft F-verdeling met k en n-p-1 vrijheidsgraden
	F2,23317-4-1 en a = 0,05 levert kritieke grens van 3,00 (zie tabel F-verdeling)
	F = ([470949,6 -453352,4]/2)/(453352,4/(22317-4-1)) =  433,0 > 3,00, verwerp dus H0

Conclusie: gezamenlijk leveren gezondheid en inkomen een significante bijdrage aan verklaring van de variantie in Zkosten als leeftijd en de hoogte van het vrijwillig eigen risico al in het model zitten (a = 0,05). Het nieuwe model is beter want het verklaart (significant) meer variantie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

multicollineariteit

A

= er is niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen. Een klein residu zorgt voor een hoge standaardfout want:

se(bj) = Sd / Wortel KS (Residu)j

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Geen collineariteit

A

–> zeldzaam

Deze is het meest ideaal, ze overlappen deels, maar geen 1 vertoont samenhang met elkaar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Beperkte collineariteit

A

–> gebruikelijk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Sterke collineariteit

A

–> vermijden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Gevolgen multicollineariteit voor hypothese toetsing

A
  1. t-toets afzonderlijke variabelen: omdat se(bj) groot wordt, daalt de waarde van de toetsingsgrootheid, dus de nulhypothese wordt minder snel verworpen
  2. Ftoets voor het hele model: multicollineariteit heeft hierop geen invloed, want de gezamenlijke bijdrage van de x-variabelen blijft gelijk
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

F toets hele model multicollineariteit merkwaardige gevolgen

A
  • voor elk van de afzonderlijke X-variabelen in het model wordt H0 niet geworpen, dus geen enkele X is stat. significant van invloed
  • de H0 voor het gehele model wordt wel verworpen, dus alle X-variabelen tezamen zijn wél stat. significant van invloed
17
Q

Hoe is multicollineariteit op te sporen?

A
  1. lage t waarden (voor afzonderlijke x variabelen), hoge f waarden (voor gehele model of groep x var)
  2. grote veranderingen in coëfficiënten treden op bij verwijdering van een x-variabele uit het model
  3. er zijn hoge correlaties tussen de x variabelen (bijv. leeftijd en gezondheid)
18
Q

Hoe is multicollineariteit op te lossen?

A
  1. Niets doen, want is alleen een probleem als de samenhang tussen de x’en onderling groter is dan de R2 van de regressie zelf
  2. Niets doen, als je niet in de coëfficiënten van de X-variabelen bent geïnteresseerd maar wel in de voorspelkracht van het model als gehee;
  3. maak de steekproef groter
  4. verwijder sterk gecorreleerde x-variabelen (maar dat is problematisch als juist díe variabelen van belang zijn in je onderzoek; denk aan de hoogte van het vrijwillig eigen risico in het voorbeeld)
  5. voeg sterk gecorreleerde variabelen samen
19
Q

Dummy variabelen

A

= variabelen die alleen de waarde 0 of 1 hebben

20
Q

2 soorten dummy variabelen

A
  1. verschuiving (verandering van het snijpunt met de Y-as_

Zkosten = b0 + b1HVER + b2Lft + b3*Gesl + ε

  1. Interactie (verandering van de richtingscoëfficiënt)

Zkosten = b0 + b1HVER + b2Lft + b3Gesl + b4Lft*Gesl + ε

21
Q

Dummy variabelen: let op!

A

Pas op: nooit dummy-variabelen opnemen voor ‘alle groepen’, want dan ‘perfecte’ multicollineariteit
• Bijvoorbeeld: in het model één variabele voor Geslacht vervangen door twee variabelen, namelijk MAN (1 = man, 0 = vrouw) én VROUW (0 = man, 1 = vrouw).
• Gevolg: als MAN= 1, dan is VROUW altijd 0 (en andersom), dan hebben we dus ‘perfecte’ multicollineariteit, en dat is ongewenst!