Correlatie & regressie Flashcards
correlatie
- betekenis
- nagaan van lineair verband tussen 2 variabelen
- altijd nagaan door scatterplot = nagaan of er enige mate van verband is
- geen belang welke variabele op X-as & Y-as <=> lineaire regressie wel! - correlatiecoëfficiënten = LINEAIR
- pearson
- spearman - corretlatie ≠ causaliteit
- toevallige samenhang
- X is ooraak van Y of omgekeerd
- varband komt door 3e variabele
pearson correlatiecoëfficiënt
- eigenschappen van r
- maat voor lineair verband tussen x & y
- dimensieloos = geen eenheid
- symmetrische tov. x & y
- invariant voor lineaire transformaties van x en/of y
–> vb: eenheid van variabele veranderen - waarden van r
- 1+ = perfect positieve correlatie
–> rechtevenredig
- 1- = perfect negatieve correlatie
–> omgekeerd evenredig
- ≈0 = geen correlatie
spearman correlatiecoëfficiënt
= rang correlatiecoëfficiënt
= rs
- hypothese test = zelfde voor pearson
- H0: p = 0
- H0: p ≠ 0
- p = populatie correlatiecoëfficiënt - vergelijking met pearson
- P = acutele waarden <=> S = rangen
- P = X & Y moeten minstens van interval niveau zijn <=> S = minstens van ordinaal niveau
- P = normaal verdeling <=> S = niet gebaseerd op normaal verdeling
- P = parametrisch <=> S = niet-parametrisch
- P = gevoelig aan outliers <=> S = niet-gevoelig aan outliers
correlatiecoëfficiënt in SPSS
eerst altijd scatter plot aanvragen
1. graphs
2. scatterplot
3. simple scatterplot
lineaire correlatiecoëfficiënten = pas als visueel in scatterplot
1. analyze
2. correlate
3. bivariate
4. variabelen kiezen
- meerdere kunnen kiezen
- onderaan testen kiezen
5. tabel
- waarde & p-waarde rapporteren
- vooral waarde interpreteren idpv p-waarde
enkelvoudige lineaire regressie
- algemeen
- 1 onafhankelijke variabele opnemen in model = X
- opzoek gaan naar best passende rechte - y = B0 + B1 X + e
- B0 = intercept = snijpunt met Y-as
- B1 = regressiecoëfficiënt = rico
- e = foutenterm = afwijking van trendlijn
- ^y = b0 + b1 x X = geschatte waarde grafiek - regressiewaarde
- verschillen tussen O & E voor elk punt
- Yi - ^Yi
- residu e - regressierechte bepalen
- methode der kleinste kwadraten
- best passende rechte = som van e^2 is kleinst voor alle punten
lineaire regressie
- betekenis
- correlatie verder kwantificeren
- predictie maken van variabele door enkel andere variabele te kennen
–> rechte vergelijking maken - X = onafhankelijke variabele
- predictor
- covariaat bij continue variabele
- factor bij categorische variabele
–> moet continue of categorisch zijn - Y = afhankelijke variabele
- moet continue varbiale zijn - voorwaarden
- lineariteit
- onafhankelijke waarnemingen
- residuen normaal verdeeld gemiddelde 0 & constante variatie
determinatiecoëfficient
- R^2 = verklaard deel / residueel deel
- totale spreiding = verklaarde spreiding + residuele spreiding
- onderverdeleing van residu e
- residueel deel zo klein mogelijk maken - inhoud
- kwaltatief nagaan van bekomen rechte
- percentage van Y dat verklaarbaar is door X
- dimentieloos
- waarde van 0 tot 1
- is kwadraad van pearson r - anova tabel voor resultaten
- zelfde onderlinge verhouding van cellen
- df van regressie = 1 bij enkelvoudige lineaire regressie
- testen of van hypothesen
- H0: B0 = 0
- H1: B0 ≠ 0
lineaire regressie SPSS
test
1. analyze
2. regression
3. linear
- dependent & independent kiezen = van elk 1
- statistics = confidence interval aanduiden
tabellen
1. eerste = test voor juiste keuze van variabelen
2. tweede = pearson r & R^2 kunnen aflezen
3. derde = anova
–> aantonen of regressie coëfficiënt er is
4. coëfficiënten
- B constant = B0
- B variabele = B1
residuen analyze
- aanpassing aan test
- save = predicted values unstandardized & residuals standardized
–> residuen analyze = voorwaarden controleren
- enkel invloed op laatste tabel - gevolg
- 2 extra variabelen in data view
- PRE 1 = voorspelde waarde
- ZRE 1 = verschil met effectieve waarde
- ook tabel in data vieuw = mean residual als controle - normaliteit controleren
- histogram & QQ van ZRE1
- scatterplot van ZRE tov PRE & ZRE tov Y
zinvolle interpretatie
= bij continue onafhankelijke variabele
- gecentreerde predictor variabele
- nieuw = oud - gemiddeld
- nieuwe variabele aanmaken door compute in SPSS
- variabele goed zetten door formats
- opnieuw lineaire regressie uitvoeren - test opnieuw runnen
- tabel = ander intercept = enige veranderd
meervoudige lineaire regressie
- algemeen
- meerdere onafhankelijke variabelen = meerde X variabelen
- Y = B0 + som Bixi + e - multicollineariteit
- onderlinge correlatie van onafhankelijke variabelen = X
- invloed op regressiecoëfficiënt & betrouwbaarheidsintervallen
- oplossen door variabelen samen te nemen of 1 weglaten - testen in SPSS voor multicollineariteit
- tolerance = % van variatie in onafhankelijke variabelen dat niet kan worden verklaard door de andere onafhankelijke variabelen
–> waarde kleiner dan 0.4 = probleem
- VIF variance inflation factor = reciproke waarde van tolerance
–> waarde hoger dan 2.5 probleem
modelkwaliteit
- anova-tabel & p-waarde
- determinatiecoëfficiënt
- voorwaarden vervuld
- residuen-analyse
- klinische relevantie
selectie van onafhankelijke variabelen
verschillende methodes leiden tot andere modellen
- enter = zelf selectie maken = altijd deze gebruiken
- foward = begin met 1 variabelen, en continu 1 toevoegen en kijken wat effect is
- backward = begin met alle variabelen, en continu 1 verwijderden en kijken wat effect is
- stepwise = forward & backward gecombineerd
variabelen meervoudige lineaire regressie
- voorwaarden
- categorische variabelen moeten dichotoon zijn = 2 opties
- moeten geprogrammeerd zijn als 0 & 1 - programmatie naar dichotone variabele
- K-1 dummy variabele aanmaken
- stel n categorieën dan n-1 dummy variabelen
- overblijvende = referentie categorie - programmatie naar 0 & 1 = recode
programmatie naar dichotone variabele
- centreren van variabele
- verschil van variabele tov. gemiddelde
- gemiddelde aanvragen via frequencies of descriptives
- nieuwe variabele aanmaken = variabele - gemiddelde - dummy-variabelen aanmaken
- 1 categorie kiezen = waarde 1
- alle andere categoriën = waarde 0
- zo alle categorieën afgaan & 1 referentie variabele overlaten