multipele regressie Flashcards
3 onderzoeksvragen bij multipele regressie
- Hoe goed kunnen scores van de afhankelijke variabele worden voorspeld door de onafhankelijke variabelen SAMEN (met R2)?
- Hoeveel variantie wordt voorspeld door elke onafhankelijke variabele afzonderlijk, als de andere onafhankelijke variabelen constant worden gehouden?
- Binnen de set van onafhankelijke variabelen die in de regressievergelijking zijn opgenomen, welke onafhankelijke variabelen heeft het sterkste effect op de afhankelijke variabele? (dmv gestandaardiseerde regressiecoëfficiënt)
wat zijn de formules voor de multipele regressie
1. ongestandaardiseerd
2. gestandaardiseerd
- Y’ = b0 + b1X1 + b2X2
- Z’y = β1Zx1 + β2Zx2
Y’ = b0 + b1X1 + b2X2
wat is de rol van b1 en b2
b1 en b2 zijn partial regression slopes (partiële regressie coëfficiënten)
–> geven het GECONTROLEERDE directe effect van de onafhankelijke variabele(n) op de afhankelijke variabele weer
b1 = Als X1 met 1 eenheid verandert, dan verandert Y met b1 eenheden , ONDER CONSTANT HOUDING VAN X2
b2 = Als X2 met 1 eenheid verandert, dan verandert Y met b2 eenheden, ONDER CONSTANT HOUDING VAN X1
8 assumpties van multipele regressie analyse
- Correcte specificatie van de relatie tussen de onafhankelijke variabelen en de afhankelijke variabele
- Correcte specificatie van de onafhankelijke variabelen in het regressiemodel
- Geen meetfouten in de onafhankelijke variabelen ( betrouwbare meetinstrumenten)
- Constante variantie van residuen (homoscedasticiteit)
- Residuen zijn onafhankelijk van elkaar
- Residuen zijn normaal verdeeld
- Geen uitschieters (outliers)
- Geen multicollineariteit
–> wanneer 2 of meer van je onafhankelijke variabelen hetzelfde principe meten. Dit zorgt namelijk voor ene hele sterke correlatie wat effect heeft op de analyse.
Wat is de R2 in multipele regressie
Hetzelfde
R2 = SSregression : SStotal
Wat is R2
de maat van effect size het algemene model
–> hoe goed voorspellen alle onafhankelijke modellen samen de afhankelijke variabele
Wat is de formule voor de F test bij multipele Regressie analyse
F= (SSregression: k) : (SSresidual: N-k-1)
Hoe toets je op significantie
door middel van een t-test PER ONAFHANKELIJKE VARIABELE
ti = bi: SEbi
met Df= N-k-1
wat is het verschil tussen semi-partial en partial correlatie
partial: Correlatie tussen X1 en Y als zowel de variantie die X1 als Y gemeenschappelijk heeft met X2 eruit is gefilterd
semi-partial: Correlatie tussen X1 en Y als de variantie die alleen X1 gemeenschappelijk heeft met X2 eruit gefilterd wordt
notatie van semi-partial correlatie
ry(1,2) : part correlatie tussen X1 en Y, met constant houding van X2
sri : part correlatie tussen X1 en Y, onder constant houding van de overige variabelen in het regressiemodel
wat is het nut van semi-partial correlatie
geeft een handige maat voor de effect size R2 voor elke onafhankelijke variabele afzonderlijk
belangrijke regel bij semi-partial correlatie
Als je de Semipartial Correlation kwadrateert, krijg je de proportie verklaarde variantie van Y die uniek door elke afzonderlijke onafhankelijke variabele wordt verklaard
zero-order correlatie
de bivariate correlatie zonder de controle variabele
wat is multicollineariteit
Probleem ontstaat als 2 of meer onafhankelijke variabelen sterk onderling correleren of als onafhankelijke variabelen onderling lineaire relatie vormen
wat is essentiële multicollineariteit
als 2 of meer onafhankelijke variabelen in zeer hoge mate hetzelfde concept meten
gevolgen multicollineariteit
- SE wordt groter, waardoor het moeilijker wordt om significante effecten te vinden
- tekens van de coëfficiënt “klappen” om: waar een positief verband wordt verwacht, wordt een negatief verband gevonden
hoe ontdek je multicollineariteit
dmv een correlatie matrix
–> zoek naar predictoren die onderling hoog correleren
maar: methode werkt niet altijd
wat is de Variance Inflation Factor (VIF)
VIF = 1 : (1-R2i)
methode voor detecteren multicollineariteit
waarbij R2i staat voor de proportie verklaarde variantie waarbij de regressie wordt uitgevoerd van één onafhankelijke variabele Xi op de overige onafhankelijke variabelen in het model
“Hoe goed wordt elke onafhankelijke variabele voorspeld/verklaard door alle
overige onafhankelijke variabelen in de regressievergelijking?”
hoe interpreteer je de VIF
Relatief grote waarden van VIF signaleren dat multicollineariteit een mogelijk probleem is
maar wat is ‘groot’?
vuist regel: VIF > 10 of de wortel van VIF > 2
mogelijke oplossingen voor multicollineariteit
- goed nadenken over wat je onafhankelijke variabelen eigenlijk meten
- eventueel onafhankelijke variabelen verwijderen