Correlatie en regressie Flashcards
covariantie
relatie tussen twee variabele. Met variantie wordt de standaard spreiding van de betrokken waarden berekend.
Waarde zit altijd tussen -1 en 1.
positieve covariantie
beide variabele in dezelfde richting verschillen van de mean
negatieve covariantie
ene variabele boven en de ander onder de mean.
Correlatie
standaardiseren van de covariantie met behulp van de standaarddeviatie.
relatie van twee variabelen met elkaar.
Pearson correlatie coëfficiënt, r
ligt tussen -1 en +1, met r=0 is geen verband.
Grootte van effect: r = 0.1 is klein, r = 0.3 is medium, r = 0.5 is groot.
Bivariate correlatie
correlatie tussen twee variabelen
Partiële relatie
kijkt naar de relatie tussen twee variabelen terwijl men het effect van een of meerdere bijkomende variabelen ‘controleert’
Correlatie SPSS
analyze > correlate > bivariate
Uitkomst: correlatiematrix
NB: maakt altijd een scatterplot
correlatiecoëfficient
mate van significantie
Bivariate correlatietest SPSS
Analyse > correlate > bivariate > correlation coefficient > test of significance > options
Non-parametrische toets
Gebruikt wanner:
- niet aan eisen normaliteit is voldaan
- weinig gegevens of gegevens met uitschieters
Spearman’s en Kendall’s tau kunnen worden gebruikt als correlatiecoëfficiënten
Biseriële en punt-biseriële correlatie
wanneer een van de twee variabelen dichotoom is. Dichotome variabele discreet of continu. Point wordt berekent met Pearson’s r.
Regressieanalyse
voorspellen van uitkomstvariabele uit voorspellende variabele
- simpele regressie: een voorspellende variabele
- Multiple regressie: eerder voorspellende variabelen
residu
verschil tussen wat het model voorspelt (regressielijn) en de geobserveerde data (punten); afwijkingen in het model
Residual sum of squares, SSr
verschil tussen geobserveerde data en regressielijn; geeft een maat aan voor onnauwkeurigheid wanneer de best passende lijn wordt gebruikt als model
Total sum of squares, SST
verschil tussen geobserveerde data en gemiddelden waarden van de data.
Model sum of squares, SSm
verschil tussen SSt (regressielijn) en SSr (gemiddeld waarden data) en geeft de verbetering aan wanneer de SSr wordt gebruikt in plaats van de SST
SSm groot, gemiddelde als model; SSm klein regressielijn als model
multiple regression
lijkt op simpele regressie, dient alleen voor iedere extra voorspellende variabele een coefficient toegevoegd te worden
Generalisatie
generaliseren van model op andere samples
- additiviteit en lineariteit
- onafhankelijke errors > Durbin-watson test
- homoscedasticiteit
-normaal verdeelde errors
- voorspellers niet gecorreleerd met externe variabele
- type variabele
- geen perfecte multicollineariteit: voorspellers niet te hoog correleren
- geen variantie van nul
Pearson’s r
gestandaardiseerde maat. Covariantie is geen standaardmaat en moet worden gestandaardiseerd met behulp van std. Correlatie tussen twee variabele
Determinatiecoëfficient (R^2)
maat voor hoeveelheid variantie die door een variabele wordt verklaard, die wordt gedeeld door andere variabele. Coefficient geeft percentage verklaarde variantie.
Partiele correlatie
type correlatie die het mogelijk maakt te kijken naar relatie tussen twee variabele als de effecten van een derde variabele constant worden gehouden.
Semi-partiele correlatie
alleen controleren voor het effect dat de derde variabele heeft op een andere variabele. Correlatie is bruikbaar wanneer de variantie in een specifiek set van voorspellende variabelen moet worden uitgelegd
R^2 pearson
verklaarde variantie
R^2 van Spearman
verdeling van variantie in de ranks de twee variabelen delen
Geen 0 voor komma: r = .87
Tau^2
geen numerieke variabele: geeft geen informatie over de verdeling van gedeelde variantie van twee variabele.
cross-validation
bepalen van nauwkeurigheid van het model op verschillende samples. Hiermee kan worden beoordeeld hoe goed het model de uitkomst bij een andere sample voorspelt
- aangepaste R^2: informatie over hoe veel van de variantie Y rekening mee moet worden gehouden wanneer het model afgeleid zou zijn van de populatie waarin de sample is genomen. Deze methode verliest predictie power (shrinkage)
- Data splitten: random splitten van data, regressievergelijking op beide helften uitvoeren en vervolgens vergelijken van modellen.