Lecture 20: Correlation and simple regression Flashcards
partial correlation=
a measure of the strength and direction of a linear relationship between two continuous variables whilst controlling for the effect of one or more other continuous variables (also known as ‘covariates’ or ‘control’ variables).
hoe zie je achter de naam van de correlatie om welke variabelen het gaat
r salnow,edlevel⋅* salbeg
correlatie gaat over: salnow en edlevel
achter puntje = covariate: salbeg
wat als je in r moet berekenen de correlatie
waardes geven aan x, y en z. dat gaat makkelijker
wat is de visualisation code in r voor een correlatie
visualize.t(stat=c(-t,t),df=n-2,section=”tails”)
in een regressie: When there is no relationship between the variables…
y does not vary depending on x. The slope coefficient will then be 0.
Finally, we could also look at whether the whole model predicts better than average as a model. You can test this with an …
F test
f test: If there is no relationship between the variables, the model will not predict better than average. The F-value….
will therefore be 0.
waar staat x en y voor
y always stands for the dependent variable and x for the independent variable!!
hoe maak je een tabel in r met een berekening
cbind(x,y,b=x-y)
hoe bereken je de predictive value in r
y_expected = b0+b1*x
error = x-y_expected
cbind(y,x,y_expected,error)
regression analysis: How much variance is explained by this model?
wat willen ze hier?
de waarde van R^2
hoe maak je een scatterplot matrix bij regression
correlation -> daar alles invullen. dan onder plots scatterplots aanvinken
hoe outliers zien bij linear regression
linear regression -> statistics -> onder residuals: casewise diagnostics en dan standardized residual
waar goed naar kijken als ze vragen om een ID
het nummer wat je ziet is niet altijd gelijk!!! dus altijd naar de variable view gaan om vanaf daar te kijken!!!!!!!!!!
hoe check je voor homoscedacity bij multiple regression
linear regression -> plots -> residuals vs predicted
hoe check je voor multicollinearity bij multiple regression
linear regression -> statistics -> collinearity diagnostics
there is no multicollinearity if…
- the largest VIF is less than 10; (VIF<10)
- all correlations between the predictors are below 0.8
- the average VIF is not much greater than 1
- the table ‘Collinearity Diagnostics’ shows that each predictor has a large part of its variance loading onto a different dimension (factor);
- no tolerance statistic is less than 0.2. (TS>2)
what if….
the largest VIF is less than 10 (7.156);
the correlation between the variables BioStabil 2000 and Healthy diet is higher than 0.8, but lower than 0.9 (r = 0.85);
but the average VIF is much greater than 1 ((2.115 + 1.933 + 5.303 + 7.156) / 4 = 4.13);
the table ‘Collinearity Diagnostics’ shows that the variables Age, Healthy diet, and BioStabil 2000 all have most of their variance loading onto dimension (factor) 5;
although all tolerance statistics are greater than 0.1, the variables Healthy diet and BioStabil 2000 have tolerance statistics of less than 0.2.
In view of these results, it can be concluded that there probably is multicollinearity.
dus als de eisen elkaar tegenspreken is er waarschijnlijk WEL multicollinearity
wat wil je van multicollinearity
je wil GEEN multicollinearity!!!!!!!!! als dat er wel is moet je hiervoor correcten!!!!!!!
hoe linearity checken bij multiple regression
correlation - alles erin - plots - checken of je overal ongeveer een rechte lijn hebt
wat is het verschil tussen regression & correlation
bij regression specificeer je wat je dependent variable is. bij correlatie gaat het er gewoon om dat je naar alles kijkt.
dus wat is specifieker: correlation of regression
regression, hier zie je echt welk model beter is (model predictions)
wat zijn de grootste factoren die je uit die regression haalt
onder coefficients - unstandardized: die onderste factoren per predictor variabele
waar kijk je naar als je predictions wil maken voor elke predictor variabel
onder unstandardized
waar kijk je naar als je hypothesis testing wilt doen
dan kijk je standardized en de t value
model summary: wat is R?
R = correlation between each model’s prediction
model summary: wat is R^2
R^2 = variance explained by the model (=explained variance, altijd 0 voor H0)
model summary: wat is adjusted R^2
takes into account all the predictors that you added
waarom is adjusted R belangrijk
because we want parsimony! we want to punish too complex models, we want our results to have theoretical implications.
formule voor R^2
correlation (predicted - observed) ^2
anova and regression…
are the same thing!
simple regression means…
one predictor variable
3 mantra’s
- always plot your data
- total variability = predicted variability + error. more explained than unexplained is success!
- keep models simple! we want as few predictors as possible
waarom is parsimony belangrijk in psychologie
omdat we het willen vertalen naar psychologische theorieën.
parametric correlation heet ook wel
pearson product-moment correlation coefficient
PPMCC
wat is de PPMCC
altijd standardized, tussen -1 en +1
waarop is de PPMCC gebaseerd
op de covariance: how much variation do the variables share?
rx = ..
cov xy/sxsy
de covariance is..
niet gestandardized.
PPMCC algemene info
In statistics, the Pearson correlation coefficient, also referred to as the Pearson’s r, Pearson product-moment correlation coefficient (PPMCC) or bivariate correlation, is a measure of the linear correlation between two variables X and Y. It has a value between +1 and −1, where 1 is total positive linear correlation, 0 is no linear correlation, and −1 is total negative linear correlation. It is widely used in the sciences. It was developed by Karl Pearson from a related idea introduced by Francis Galton in the 1880s.
hoe kan je de covariance visualiseren
plotten: (xi - x̄)(yi - ȳ)
dus de x per datapunt en de y per data punt min het gemiddelde, keer elkaar
dan krijg je die grafiek met puntjes en lijnen die steeds naar de grote lijnen gaan (zie schrift)
wat doe je nadat je de (xi - x̄)(yi - ȳ) hebt geplot
z score berekenen voor x en y:
z = (xi - x̄)/sdx
z = (yi - ȳ)/sdy
variance =
distance between each data point and the mean
wat doe je nadat je de zscores hebt berekend
plot maken: kijken naar het verschil. als het een perfecte correlatie is: zouden alle datapunten overlappen. dan is de explained variance heel groot. waar het niet overlapt is er unexplained variance.
z scores always…
have a sd of 1!!!
dus als we de covariance zouden berekenen is dat gewoon de covariance (want je deelt dan door 1)
hoe krijg je de covariance van de z scores
cov/sxsy
dus hoe kan je de unexplained variance berekenen
- z scores
- covariance formule: rxy = covxy/sxsy
leiden alletwee tot hetzelfde!
wat kan je zien in zo’n correlation plot
values in red contribute to a negative correlation, and values in green contribute to a positive correlation.
veel rood = sterk negatieve r
veel groen = sterk positieve r
er is geen sampling distribution voor r (correlation), dus we gebruiken ….
een t distribution
formule voor tr=
r * sqrt(N-2) / sqrt(1-r^2)
welke df hoort bij deze t distributie
df = N-2
wat doen we bij meer dan een predictor variabele
multiple regression
first step bij multiple regression =
partial correlation: we control for the presence of a thrid variable
= rxy*z
dus wat doe je in principe bij partial correlation
kijken naar de correlatie tussen x en y, whilst controlling for z
wat wordt beinvloedt door de sd
de covariance wel, de correlatie niet
regression met een predictor algemene formule
outcome = prediction + error
welke formule hoort bij een regression
y = B0 + B1 * x + ei
B0=
intercept (grant mean)
B1=
hoe hoger, hoe sterker de relatie
in regression, we wat tot test….
whether B1 is significantly high enough.
verschil tussen correlation en regression
correlation gaat om: je wil weten of er een associatie is tussen de variabelen
regression: je wil voorspellen hoe een variabele een andere kan beïnvloeden
dus een regressie is een voorspelling!
assumpties van regressie
- Sensitivity
- Homoscedasticity
sensitivity=
outliers
hoe check je voor sensitivity
- extreme residuals: error high for this variable
- cooks distance (>1)
- Q-Q plots of residual plots
hoe interpreteer je cooks distance
kijkt naar de impact op de mean, hoe grotere impact op de mean, hoe meer de kans dat het een outlier is en dus even naar kijken
wat is het ding met outliers
een outlier can really affect your results! dus outliers warrant a followup.
however, if your significance depends on one single outlier, maybe your conclusions werent so strong to begin with.
het is vooral belangrijk bij kleinere samples
homoscedasticity=
soort van lineaire levene’s test. the variance of residuals should be equal across all expected values. you rprediction error should not differ for levels of the prediction values, want dan dan is er systematische error!
hoe interpreteer je homoscedasticity
Look at scatterplot of standardized: predicted values*residuals. Roughly round shape is needed
je wil een soort cloud in de plot (rondje met allemaal stipjes).
wanneer moet je homoscedasticity doen
na de analysen, omdat het gaat over de residuals
dus wat is regression basically
gewoon lekker voorspellinkjes maken en leuk dingen uitrekenen
b1 = (formule)
rxy * sy/sx
b 1 = the line that…
has the mnimal distance between all the points and the line.
hoe interpreteer je b1
every unit increase in IV lead to an … increase of DV
b 0 = (formule)
ȳ - b1 * x̄
model prediction =
dv (met dakje) = b0 + b1 * IV
naast model prediction is het ook belangrijk dat wordt gekeken naar….
prediction error!!! (=residuals)
model fit =
The fit of the model can be viewed in terms of the correlation (r) between the predictions and the observed values: if the predictions are perfect, the correlation will be 1.
wat laat r^2 zien
de explained variance
wat is de model fit voor simple regression
For simple regression, this is equal to the correlation between x and y. For multiple regression (next lecture), these will differ.
hoe krijg je de explained variance
correlation between predicted and observed, ^2
even kijken naar total vs explained vs unexplained in schrift
echt gedaan anders mag je niet klikken
hoe kan je model fit testen
compare model to the mean:
F = (n-p-1)*r^2 . p(1-r^2)
wat is de df voor model fit
df = n-p-1, of N - k - 1
F is ratio…
signal/noise
dus op welke twee manieren kun je het model van correlation testen
- t statistic
- f value
hoe bereken je de f statistic van de t statistic
t ^2 !!!
dus welke 5 dingen kunnen we doen met een correlation
- standardized correlation r: -1 en +1
- covariance between x and y, not standardized
- regression coefficient in linear regression (standardized but not bounded, generalizes easily to settings with multiple predictions)
- t statistic: standardized difference between b1 and 0.
- overall model performance: f statistic of squared correlation to get the proportion of explained variance
wat verandert dus wel door de standaard deviatie, en wat niet?
de r verandert NIET
de covariance en de slope veranderen WEL
dus regression coefficient is ….
standardized but not bounded, generalises easily to settings with multiple predictors