8/9: Meervoudige regressie Flashcards
Meervoudige regressie
- Regressie met twee of meer predictoren (variabelen)
- De helling (bx) beschrijft het effect van een verklarende variabele terwijl het effect van de andere verklarende variabelen in het model wordt gecontroleerd
- y ̂=a+b_1 x_i1+b_2 x_i2+…+b_m x_im
- μ_y=α+β_1 x_i1+β_2 x_i2+…+β_m x_im
- Gebruiken om potentiële lurking variabelen te identificeren en controleren door ze als verklarende variabelen op te nemen
Stappen:
Hypothesetoetsing meervoudige regressie (associatie)- Manier 1 (t- individuele t-test)
1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μ_y=α+β_1 x_i1+β_2 x_i2+…+β_m x_im
* Normaal verdeelde data
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Residuen normaal verdeeld
- Homoscedasticity
* Random trekking/toewijzing
* N minstens 10*predictoren (b)
2) Hypothesen opstellen
Nulhypothese (H0)
□ H_0:β_1=0
Alternatieve hypothese (HA of H1)
□ Eenzijdig: H_A:β_1<0 of H_A:β_1>0
□ Tweezijdig: H_A:β_1≠0
3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* t
* SE wordt gegeven
* k= aantal schatters (a & b’s(voorspellers))
4) P-waarde opzoeken
* Beschrijft hoe zeldzaam de geobserveerde steekproefproportie (of extremer) zou zijn als H0 waar is
* Hoe kleiner P-waarde, hoe sterker bewijs tegen nulhypothese
* Passend bij t-waarde in tabel
- Bij hypothese ‘<’ in tabel geïnteresseerd in linkerkant
- Bij hypothese ‘>’ in tabel geïnteresseerd in rechterkant
- Bij hypothese ‘≠’ in tabel geïntresseerd in beide kanten dus 2p (p-waarde verdubbelen)
* Df=N-k
5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0
Stappen:
Hypothesetoetsing meervoudige regressie- Manier 2 (R2, F overall test)
1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μ_y=α+β_1 x_i1+β_2 x_i2+…+β_m x_im
* Normaal verdeelde data
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Residuen normaal verdeeld
- Homoscedasticity
* Random trekking/toewijzing
* N minstens 10*predictoren (b)
2) Hypothesen opstellen
Nulhypothese (H0)
□ H_0:β_1= β_2=…=0
□ H_0:R^2=0
Alternatieve hypothese (HA of H1)
□ Tweezijdig
□ H_A:Niet H_0, Minstens een β wijkt af van 0
□ H_A: β_1 en/of β_2=…≠0
3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* F
* R^2=
* F≥0
4) Overschrijdingskans
* Opzoeken in F tabel (altijd eenzijdig, rechts)
* Niet nadenken over zijdes
* Grote F-waarde geeft kleine overschrijdingskans
* Als regressie goed voorspelt, is MSreg groot en MSres klein
* DF
* Df1= k-1
* Df2= N-k
* Totaal df= n-1
5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0
Std. Error of the estimate
Standaardafwijking gegeven x
Mean square
Ander woord voor variance
Verschil F-waarde en t-waarde:
- De F-waarde
- Te vinden in ANOVA tabel SPSS
- De test of alle onafhankelijke (x) variabelen samen een significante voorspelling geven van de afhankelijke variabele (y).
- Of het model als geheel een significante voorspelling geeft van de waarden van y.
- Overall bijdrage aan y
- De t-waarden
- Te vinden in de coefficients tabel SPSS
- Testen de individuele predictoren
- Testen dus of predictoren apart van elkaar een significante voorspelling geven van de afhankelijke variabele (y).
- Unieke bijdrage aan y
- Verschillen tussen significantie toetsen
- T-hoger, omdat andere predicters verstoorden en nu eruit zijn gefilterd
- F hoger, omdat ze overlappen
Residu:
- Prediction error (Voorspellingsfout)
- (y−y ̂)
- Verschil tussen werkelijke y-waarde en daadwerkelijke lijn
- Verticale afstand tussen het punt en de regressielijn
- Hoe kleiner, hoe preciezer
- Gestandaardiseerde residu
- Tussen -3 en 3, anders mogelijke outlier
- Tweezijdig toetsen robuust schending normaliteit
- Gestandaardiseerde residu
- Residuen voor elke onafhankelijke variabele rond de nullijn
- Homosedasticiteit en geen heterosedasticiteit
Multiple correlatie (R) meervoudige regressie
- Lineaire samenhang tussen meerdere kwantitatieve variabelen
- Correlatie tussen voorspelde ŷ en geobserveerde y
- Hoe hoger, hoe beter de voorspelling van y door de predictoren
- Eenheidloos
- R
- Bereik 0 tot 1
- Klein effect: 0.1
- Middelmatig effect: 0.3
- Groot effect: 0.5
- Bij perfecte voorspelling y ̂=y →R=1
- Slechtste voorspelling y ̂=y ̅ →R=0
Proportie verklaarde variantie meervoudige regressie (proportionele reductie) (R2)
- Gekwadrateerde correlatie
- Hoeveel beter is de regressielijn (voorspelling) beter dan het gemiddelde van y is–> beschrijft voorspellende kracht
- Eenheidloos
- Hoeveel van de totale variabiliteit in scores kan verklaard worden door de regressielijn
- Hoe groter, hoe nauwkeuriger voorspelling van regressievergelijking
- Bij het toevoegen van meer variabelen, dan wordt R2 groter of blijft gelijk
- Tussen 0 (geen verband) en 1 (100%) (perfecte voorspelling)
- 0.01= klein effect
- 0.09= middel effect
- 0.25= groot effect
- R^2=1, wanneer∑(y−y ̂ )^2 =0
- Alleen als alle punten precies op regressielijn vallen
- r=1
- r^2=0, wanneer b=0 en ∑(y−y ̂ )^2 =∑(y−y ̅ )^2
Heterosedasticiteit
Je standaarddeviatie verandert in loopt van tijd. Dit mag niet, behalve bij tweezijdig. Predictie-intervallen werken niet meer
Dummyvariabelen
Aan categorische variabelen een nummer toewijzen. Bijvoorbeeld man=0, vrouw=1
Regressie is hetzelfde als t-toets voor 2 gemiddelden (als varianties gelijk zijn)
Betrouwbaarheidsinterval meervoudige regressie:
- b ± t_(a/2(df=n−k))∗〖se〗_b
- Met 95%-betrouwbaarheidsinterval zijn wij 95% zeker dat de helling β van de populatie
tussen de … en … Valt - 95%-betrouwbaarheidsinterval: Estimated slope ±t_0.025 (se)
- Als 0 in interval zit, dan niet significant