Lecture 20: Correlation and simple regression Flashcards
partial correlation=
a measure of the strength and direction of a linear relationship between two continuous variables whilst controlling for the effect of one or more other continuous variables (also known as ‘covariates’ or ‘control’ variables).
hoe zie je achter de naam van de correlatie om welke variabelen het gaat
r salnow,edlevel⋅* salbeg
correlatie gaat over: salnow en edlevel
achter puntje = covariate: salbeg
wat als je in r moet berekenen de correlatie
waardes geven aan x, y en z. dat gaat makkelijker
wat is de visualisation code in r voor een correlatie
visualize.t(stat=c(-t,t),df=n-2,section=”tails”)
in een regressie: When there is no relationship between the variables…
y does not vary depending on x. The slope coefficient will then be 0.
Finally, we could also look at whether the whole model predicts better than average as a model. You can test this with an …
F test
f test: If there is no relationship between the variables, the model will not predict better than average. The F-value….
will therefore be 0.
waar staat x en y voor
y always stands for the dependent variable and x for the independent variable!!
hoe maak je een tabel in r met een berekening
cbind(x,y,b=x-y)
hoe bereken je de predictive value in r
y_expected = b0+b1*x
error = x-y_expected
cbind(y,x,y_expected,error)
regression analysis: How much variance is explained by this model?
wat willen ze hier?
de waarde van R^2
hoe maak je een scatterplot matrix bij regression
correlation -> daar alles invullen. dan onder plots scatterplots aanvinken
hoe outliers zien bij linear regression
linear regression -> statistics -> onder residuals: casewise diagnostics en dan standardized residual
waar goed naar kijken als ze vragen om een ID
het nummer wat je ziet is niet altijd gelijk!!! dus altijd naar de variable view gaan om vanaf daar te kijken!!!!!!!!!!
hoe check je voor homoscedacity bij multiple regression
linear regression -> plots -> residuals vs predicted
hoe check je voor multicollinearity bij multiple regression
linear regression -> statistics -> collinearity diagnostics
there is no multicollinearity if…
- the largest VIF is less than 10; (VIF<10)
- all correlations between the predictors are below 0.8
- the average VIF is not much greater than 1
- the table ‘Collinearity Diagnostics’ shows that each predictor has a large part of its variance loading onto a different dimension (factor);
- no tolerance statistic is less than 0.2. (TS>2)
what if….
the largest VIF is less than 10 (7.156);
the correlation between the variables BioStabil 2000 and Healthy diet is higher than 0.8, but lower than 0.9 (r = 0.85);
but the average VIF is much greater than 1 ((2.115 + 1.933 + 5.303 + 7.156) / 4 = 4.13);
the table ‘Collinearity Diagnostics’ shows that the variables Age, Healthy diet, and BioStabil 2000 all have most of their variance loading onto dimension (factor) 5;
although all tolerance statistics are greater than 0.1, the variables Healthy diet and BioStabil 2000 have tolerance statistics of less than 0.2.
In view of these results, it can be concluded that there probably is multicollinearity.
dus als de eisen elkaar tegenspreken is er waarschijnlijk WEL multicollinearity
wat wil je van multicollinearity
je wil GEEN multicollinearity!!!!!!!!! als dat er wel is moet je hiervoor correcten!!!!!!!
hoe linearity checken bij multiple regression
correlation - alles erin - plots - checken of je overal ongeveer een rechte lijn hebt
wat is het verschil tussen regression & correlation
bij regression specificeer je wat je dependent variable is. bij correlatie gaat het er gewoon om dat je naar alles kijkt.
dus wat is specifieker: correlation of regression
regression, hier zie je echt welk model beter is (model predictions)
wat zijn de grootste factoren die je uit die regression haalt
onder coefficients - unstandardized: die onderste factoren per predictor variabele
waar kijk je naar als je predictions wil maken voor elke predictor variabel
onder unstandardized
waar kijk je naar als je hypothesis testing wilt doen
dan kijk je standardized en de t value
model summary: wat is R?
R = correlation between each model’s prediction
model summary: wat is R^2
R^2 = variance explained by the model (=explained variance, altijd 0 voor H0)
model summary: wat is adjusted R^2
takes into account all the predictors that you added
waarom is adjusted R belangrijk
because we want parsimony! we want to punish too complex models, we want our results to have theoretical implications.
formule voor R^2
correlation (predicted - observed) ^2
anova and regression…
are the same thing!
simple regression means…
one predictor variable
3 mantra’s
- always plot your data
- total variability = predicted variability + error. more explained than unexplained is success!
- keep models simple! we want as few predictors as possible
waarom is parsimony belangrijk in psychologie
omdat we het willen vertalen naar psychologische theorieën.
parametric correlation heet ook wel
pearson product-moment correlation coefficient
PPMCC