multiple regressie Flashcards
onderzoeksdoelen multiple regressie
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie). Lijkt het ook relevant en significant te zijn als je kennis hebt over een kenmerk?
- Kwantificeren van relaties (effectgrootte). : hoe groot is het effect? Soms is er wel een associatie maar is het heel minimaal en kleine effectgrootte, waardoor je er in de praktijk weinig aan hebt.
- Kwalificeren van relaties (klein, middelmatig, groot effect).
- Beoordelen relevantie relaties (subjectief). : Soms is kleine verbetering relevant als iemand ziek is bv, maar soms is het niet relevant en heeft het alleen zin als er een groot effect is.
- Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).
onderzoeksvraag multiple regressie
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?
Y
afhankelijke variabele (dependent)
- Kenmerk gemeten op minimaal interval meetniveau.: of nominaal niveau
x
onafhankelijke variabele (predictoren)
- Kenmerk gemeten op minimaal interval meetniveau.
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt omgezet in dummyvariabelen.
BO
intercept (constant)
B1
regressiecoëfficiënt (slope)
E
E = voorspellingsfout (error of residual)
toetsingsgrootheid verklaarde variantie R2
F-toets: bepaalt of de verklaarde variantie significant is (p < .05). F bepaalt het aandeel verklaarde en onverklaarde variantie in het model. Formule F- toets:
Mean Sum of squares / Residuele Sum of Squares.
toetsingsgrootheid regressiecoëfficiënten B
T-toets: richtingscoëfficiënt B omgerekend naar een T- waarde.
Formule T-waarde: T=(M1-M2)/SE
effectgrootte
R2 0.01 Klein
R2 0.09 Medium
R2 0.25 Groot
waar staat BO voor
de waarde van Y als X gelijk is aan 0
waar staat B1 voor
het verschil van waarde in Y wanneer X1 groter wordt. Dus de verandering in y als x1 groter wordt.
wat zijn de assumpties bij multiple regressie
- De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
- De variabelen meten een begrip op interval/ ratio meetniveau (uitzondering: dummy’s)
- Er is een lineaire relatie tussen de variabelen
- Er zijn geen
uitschieters - Homoscedasticiteit: per X-waarde is de spreiding in Y-scores gelijk
- Per X-waarde zijn de Y-scores normaal verdeeld
- Multicollineariteit: Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen
Variantie
beschrijving
Y = b0 + b1∙X + error
Voorspelling:
Ŷ = b0 + b1∙X
dichotoom
ja of nee, man of vrouw etc. het betekend wel of niet aanwezig.
wat is het padmodel van multiple regressie
- een afhankelijke variabele (Y)
- één of meerdere onafhankelijke variabelen (minimaal interval)
- één of meerdere onafhankelijke variabelen (dichotoom)
- E: de meetfouten, de errors,
waarom kijk je naar een histrogram
Je kijkt naar een histogram om te kijken of er spreiding is en of er sprake is van een normaalverdelling en een belcurve.
Je kijkt hiernaar om te kijken of er uberhaubt iets te verklaren valt.
kleinste kwadraten criterium
best passende rechte lijn. Dit is de lijn waarbij de voorspellingsfout zo klein mogelijk is. Dit doe je door het kleine kwadraten criterium te nemen.
Je rekent de voorspellingsfout uit, de voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde.
wat betekent een positive error
dit zijn errors boven de lijn, dus een onderschatting van het model
wat betekend een negatieve error
onder de lijn, overschatting van het model
goodness- of-fit
Beste model? Met goodness of fit ga je kijken hoe goed het model past.
- Het model (regressielijn) met kleinste residuele kwadratensom. Hoe goed is dat dan?
R square (ΔR2)
R square (ΔR2) geeft het percentage verklaarde variantie aan in de steekproef.
Adjusted R square
De adjusted R2 geeft aan wat het geschatte percentage verklaarde variantie is in de populatie. De R2 wordt hiervoor aangepast op basis van de steekproefgrootte (n) en het aantal predictoren in het model (k). Het geschatte percentage verklaarde variantie in de populatie is altijd iets lager dan het percentage verklaarde variantie in de steekproef.
Controleren van uitschieters
Als vuistregel houden we aan dat waardes voor Mahalanobis distance lager moeten zijn dan 10 + 2∙(onafhankelijke variabelen) = 10 + 2∙3 = 16.
Cook’s distance
Hiermee controleren we of er sprake is van uitschieters in XY-ruimte. Een uitschieter in de XY-ruimte is een extreme combinatie van X(-en) en Y-scores. Cook’s distance geeft aan wat de overall invloed is van een respondent op het model. Als vuistregel houden we aan dat waardes voor Cook’s distance lager dan 1 moeten zijn. Waardes hoger dan 1 duiden op invloedrijke respondenten (influential cases).
Multicollineariteit
Vaststellen of multicollineariteit een probleem is kan aan de hand van statistieken die SPSS geeft in de laatste twee kolommen van de tabel Coefficients. Hierbij kun je de volgende vuistregels aanhouden:
Waardes voor de Tolerance kleiner dan .2 duiden op een mogelijk probleem.
Waardes voor de Tolerance kleiner dan .1 duiden op een probleem.
De VIF is gelijk aan 1/Tolerance, dus voor de VIF geldt dat waardes groter dan 10 duiden op een probleem.
Wat is het verschil tussen enkelvoudige en multipele regressie?
We gebruiken enkelvoudige regressie als we één afhankelijke variabele van minimaal
interval meetniveau hebben en onafhankelijke variabele van minimaal interval
meetniveau.
We gebruiken multipele regressie als we één afhankelijke variabele van minimaal
interval meetniveau hebben en meer dan één onafhankelijke variabele van minimaal
interval meetniveau al dan niet in combinatie met een dichotome variabele(n).
Wat is in een regressieanalyse een residu?
Residu: het verschil tussen een geobserveerde score 𝑌𝑌𝑖𝑖 en de voorspelde score
Waarvoor wordt de kleinste kwadratenmethode gebruikt?
Voor het bepalen van de best passende regressielijn, waarbij de som van de kwadraten
van de residuen het kleinst is.
welke twee vragen kun je stellen bij regressie
Verklaart een predictor/een set van predictoren variantie in de afhankelijke variabele?
Is een specifieke onafhankelijke variabele een voorspeller van de afhankelijke variabele?