Lecture 20: Correlation and simple regression Flashcards

1
Q

partial correlation=

A

a measure of the strength and direction of a linear relationship between two continuous variables whilst controlling for the effect of one or more other continuous variables (also known as ‘covariates’ or ‘control’ variables).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

hoe zie je achter de naam van de correlatie om welke variabelen het gaat

A

r salnow,edlevel⋅* salbeg

correlatie gaat over: salnow en edlevel
achter puntje = covariate: salbeg

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

wat als je in r moet berekenen de correlatie

A

waardes geven aan x, y en z. dat gaat makkelijker

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

wat is de visualisation code in r voor een correlatie

A

visualize.t(stat=c(-t,t),df=n-2,section=”tails”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

in een regressie: When there is no relationship between the variables…

A

y does not vary depending on x. The slope coefficient will then be 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Finally, we could also look at whether the whole model predicts better than average as a model. You can test this with an …

A

F test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

f test: If there is no relationship between the variables, the model will not predict better than average. The F-value….

A

will therefore be 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

waar staat x en y voor

A

y always stands for the dependent variable and x for the independent variable!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

hoe maak je een tabel in r met een berekening

A

cbind(x,y,b=x-y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

hoe bereken je de predictive value in r

A

y_expected = b0+b1*x

error = x-y_expected

cbind(y,x,y_expected,error)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

regression analysis: How much variance is explained by this model?

wat willen ze hier?

A

de waarde van R^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

hoe maak je een scatterplot matrix bij regression

A

correlation -> daar alles invullen. dan onder plots scatterplots aanvinken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

hoe outliers zien bij linear regression

A

linear regression -> statistics -> onder residuals: casewise diagnostics en dan standardized residual

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

waar goed naar kijken als ze vragen om een ID

A

het nummer wat je ziet is niet altijd gelijk!!! dus altijd naar de variable view gaan om vanaf daar te kijken!!!!!!!!!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

hoe check je voor homoscedacity bij multiple regression

A

linear regression -> plots -> residuals vs predicted

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

hoe check je voor multicollinearity bij multiple regression

A

linear regression -> statistics -> collinearity diagnostics

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

there is no multicollinearity if…

A
  1. the largest VIF is less than 10; (VIF<10)
  2. all correlations between the predictors are below 0.8
  3. the average VIF is not much greater than 1
  4. the table ‘Collinearity Diagnostics’ shows that each predictor has a large part of its variance loading onto a different dimension (factor);
  5. no tolerance statistic is less than 0.2. (TS>2)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

what if….

the largest VIF is less than 10 (7.156);
the correlation between the variables BioStabil 2000 and Healthy diet is higher than 0.8, but lower than 0.9 (r = 0.85);
but the average VIF is much greater than 1 ((2.115 + 1.933 + 5.303 + 7.156) / 4 = 4.13);
the table ‘Collinearity Diagnostics’ shows that the variables Age, Healthy diet, and BioStabil 2000 all have most of their variance loading onto dimension (factor) 5;
although all tolerance statistics are greater than 0.1, the variables Healthy diet and BioStabil 2000 have tolerance statistics of less than 0.2.

A

In view of these results, it can be concluded that there probably is multicollinearity.

dus als de eisen elkaar tegenspreken is er waarschijnlijk WEL multicollinearity

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

wat wil je van multicollinearity

A

je wil GEEN multicollinearity!!!!!!!!! als dat er wel is moet je hiervoor correcten!!!!!!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

hoe linearity checken bij multiple regression

A

correlation - alles erin - plots - checken of je overal ongeveer een rechte lijn hebt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

wat is het verschil tussen regression & correlation

A

bij regression specificeer je wat je dependent variable is. bij correlatie gaat het er gewoon om dat je naar alles kijkt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

dus wat is specifieker: correlation of regression

A

regression, hier zie je echt welk model beter is (model predictions)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

wat zijn de grootste factoren die je uit die regression haalt

A

onder coefficients - unstandardized: die onderste factoren per predictor variabele

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

waar kijk je naar als je predictions wil maken voor elke predictor variabel

A

onder unstandardized

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

waar kijk je naar als je hypothesis testing wilt doen

A

dan kijk je standardized en de t value

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

model summary: wat is R?

A

R = correlation between each model’s prediction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

model summary: wat is R^2

A

R^2 = variance explained by the model (=explained variance, altijd 0 voor H0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

model summary: wat is adjusted R^2

A

takes into account all the predictors that you added

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

waarom is adjusted R belangrijk

A

because we want parsimony! we want to punish too complex models, we want our results to have theoretical implications.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

formule voor R^2

A

correlation (predicted - observed) ^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

anova and regression…

A

are the same thing!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

simple regression means…

A

one predictor variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

3 mantra’s

A
  1. always plot your data
  2. total variability = predicted variability + error. more explained than unexplained is success!
  3. keep models simple! we want as few predictors as possible
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

waarom is parsimony belangrijk in psychologie

A

omdat we het willen vertalen naar psychologische theorieën.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

parametric correlation heet ook wel

A

pearson product-moment correlation coefficient

PPMCC

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

wat is de PPMCC

A

altijd standardized, tussen -1 en +1

37
Q

waarop is de PPMCC gebaseerd

A

op de covariance: how much variation do the variables share?

38
Q

rx = ..

A

cov xy/sxsy

39
Q

de covariance is..

A

niet gestandardized.

40
Q

PPMCC algemene info

A

In statistics, the Pearson correlation coefficient, also referred to as the Pearson’s r, Pearson product-moment correlation coefficient (PPMCC) or bivariate correlation, is a measure of the linear correlation between two variables X and Y. It has a value between +1 and −1, where 1 is total positive linear correlation, 0 is no linear correlation, and −1 is total negative linear correlation. It is widely used in the sciences. It was developed by Karl Pearson from a related idea introduced by Francis Galton in the 1880s.

41
Q

hoe kan je de covariance visualiseren

A

plotten: (xi - x̄)(yi - ȳ)

dus de x per datapunt en de y per data punt min het gemiddelde, keer elkaar

dan krijg je die grafiek met puntjes en lijnen die steeds naar de grote lijnen gaan (zie schrift)

42
Q

wat doe je nadat je de (xi - x̄)(yi - ȳ) hebt geplot

A

z score berekenen voor x en y:

z = (xi - x̄)/sdx
z = (yi - ȳ)/sdy

43
Q

variance =

A

distance between each data point and the mean

44
Q

wat doe je nadat je de zscores hebt berekend

A

plot maken: kijken naar het verschil. als het een perfecte correlatie is: zouden alle datapunten overlappen. dan is de explained variance heel groot. waar het niet overlapt is er unexplained variance.

45
Q

z scores always…

A

have a sd of 1!!!

dus als we de covariance zouden berekenen is dat gewoon de covariance (want je deelt dan door 1)

46
Q

hoe krijg je de covariance van de z scores

A

cov/sxsy

47
Q

dus hoe kan je de unexplained variance berekenen

A
  1. z scores
  2. covariance formule: rxy = covxy/sxsy

leiden alletwee tot hetzelfde!

48
Q

wat kan je zien in zo’n correlation plot

A

values in red contribute to a negative correlation, and values in green contribute to a positive correlation.

veel rood = sterk negatieve r
veel groen = sterk positieve r

49
Q

er is geen sampling distribution voor r (correlation), dus we gebruiken ….

A

een t distribution

50
Q

formule voor tr=

A

r * sqrt(N-2) / sqrt(1-r^2)

51
Q

welke df hoort bij deze t distributie

A

df = N-2

52
Q

wat doen we bij meer dan een predictor variabele

A

multiple regression

53
Q

first step bij multiple regression =

A

partial correlation: we control for the presence of a thrid variable

= rxy*z

54
Q

dus wat doe je in principe bij partial correlation

A

kijken naar de correlatie tussen x en y, whilst controlling for z

55
Q

wat wordt beinvloedt door de sd

A

de covariance wel, de correlatie niet

56
Q

regression met een predictor algemene formule

A

outcome = prediction + error

57
Q

welke formule hoort bij een regression

A

y = B0 + B1 * x + ei

58
Q

B0=

A

intercept (grant mean)

59
Q

B1=

A

hoe hoger, hoe sterker de relatie

60
Q

in regression, we wat tot test….

A

whether B1 is significantly high enough.

61
Q

verschil tussen correlation en regression

A

correlation gaat om: je wil weten of er een associatie is tussen de variabelen
regression: je wil voorspellen hoe een variabele een andere kan beïnvloeden

dus een regressie is een voorspelling!

62
Q

assumpties van regressie

A
  • Sensitivity
  • Homoscedasticity
63
Q

sensitivity=

A

outliers

64
Q

hoe check je voor sensitivity

A
  • extreme residuals: error high for this variable
  • cooks distance (>1)
  • Q-Q plots of residual plots
65
Q

hoe interpreteer je cooks distance

A

kijkt naar de impact op de mean, hoe grotere impact op de mean, hoe meer de kans dat het een outlier is en dus even naar kijken

66
Q

wat is het ding met outliers

A

een outlier can really affect your results! dus outliers warrant a followup.

however, if your significance depends on one single outlier, maybe your conclusions werent so strong to begin with.
het is vooral belangrijk bij kleinere samples

67
Q

homoscedasticity=

A

soort van lineaire levene’s test. the variance of residuals should be equal across all expected values. you rprediction error should not differ for levels of the prediction values, want dan dan is er systematische error!

68
Q

hoe interpreteer je homoscedasticity

A

Look at scatterplot of standardized: predicted values*residuals. Roughly round shape is needed

je wil een soort cloud in de plot (rondje met allemaal stipjes).

69
Q

wanneer moet je homoscedasticity doen

A

na de analysen, omdat het gaat over de residuals

70
Q

dus wat is regression basically

A

gewoon lekker voorspellinkjes maken en leuk dingen uitrekenen

71
Q

b1 = (formule)

A

rxy * sy/sx

72
Q

b 1 = the line that…

A

has the mnimal distance between all the points and the line.

73
Q

hoe interpreteer je b1

A

every unit increase in IV lead to an … increase of DV

74
Q

b 0 = (formule)

A

ȳ - b1 * x̄

75
Q

model prediction =

A

dv (met dakje) = b0 + b1 * IV

76
Q

naast model prediction is het ook belangrijk dat wordt gekeken naar….

A

prediction error!!! (=residuals)

77
Q

model fit =

A

The fit of the model can be viewed in terms of the correlation (r) between the predictions and the observed values: if the predictions are perfect, the correlation will be 1.

78
Q

wat laat r^2 zien

A

de explained variance

79
Q

wat is de model fit voor simple regression

A

For simple regression, this is equal to the correlation between x and y. For multiple regression (next lecture), these will differ.

80
Q

hoe krijg je de explained variance

A

correlation between predicted and observed, ^2

81
Q

even kijken naar total vs explained vs unexplained in schrift

A

echt gedaan anders mag je niet klikken

82
Q

hoe kan je model fit testen

A

compare model to the mean:

F = (n-p-1)*r^2 . p(1-r^2)

83
Q

wat is de df voor model fit

A

df = n-p-1, of N - k - 1

84
Q

F is ratio…

A

signal/noise

85
Q

dus op welke twee manieren kun je het model van correlation testen

A
  1. t statistic
  2. f value
86
Q

hoe bereken je de f statistic van de t statistic

A

t ^2 !!!

87
Q

dus welke 5 dingen kunnen we doen met een correlation

A
  1. standardized correlation r: -1 en +1
  2. covariance between x and y, not standardized
  3. regression coefficient in linear regression (standardized but not bounded, generalizes easily to settings with multiple predictions)
  4. t statistic: standardized difference between b1 and 0.
  5. overall model performance: f statistic of squared correlation to get the proportion of explained variance
88
Q

wat verandert dus wel door de standaard deviatie, en wat niet?

A

de r verandert NIET

de covariance en de slope veranderen WEL

89
Q

dus regression coefficient is ….

A

standardized but not bounded, generalises easily to settings with multiple predictors