Correlatie & regressie Flashcards

Question 1

Q

correlatie

Answer

A

betekenis
- nagaan van lineair verband tussen 2 variabelen
- altijd nagaan door scatterplot = nagaan of er enige mate van verband is
- geen belang welke variabele op X-as & Y-as <=> lineaire regressie wel!
correlatiecoëfficiënten = LINEAIR
- pearson
- spearman
corretlatie ≠ causaliteit
- toevallige samenhang
- X is ooraak van Y of omgekeerd
- varband komt door 3e variabele

Question 2

Q

pearson correlatiecoëfficiënt

Answer

A

eigenschappen van r
- maat voor lineair verband tussen x & y
- dimensieloos = geen eenheid
- symmetrische tov. x & y
- invariant voor lineaire transformaties van x en/of y
–> vb: eenheid van variabele veranderen
waarden van r
- 1+ = perfect positieve correlatie
–> rechtevenredig
- 1- = perfect negatieve correlatie
–> omgekeerd evenredig
- ≈0 = geen correlatie

Question 3

Q

spearman correlatiecoëfficiënt

Answer

A

= rang correlatiecoëfficiënt
= rs

hypothese test = zelfde voor pearson
- H0: p = 0
- H0: p ≠ 0
- p = populatie correlatiecoëfficiënt
vergelijking met pearson
- P = acutele waarden <=> S = rangen
- P = X & Y moeten minstens van interval niveau zijn <=> S = minstens van ordinaal niveau
- P = normaal verdeling <=> S = niet gebaseerd op normaal verdeling
- P = parametrisch <=> S = niet-parametrisch
- P = gevoelig aan outliers <=> S = niet-gevoelig aan outliers

Question 4

Q

correlatiecoëfficiënt in SPSS

Answer

A

eerst altijd scatter plot aanvragen
1. graphs
2. scatterplot
3. simple scatterplot

lineaire correlatiecoëfficiënten = pas als visueel in scatterplot
1. analyze
2. correlate
3. bivariate
4. variabelen kiezen
- meerdere kunnen kiezen
- onderaan testen kiezen
5. tabel
- waarde & p-waarde rapporteren
- vooral waarde interpreteren idpv p-waarde

Question 5

Q

enkelvoudige lineaire regressie

Answer

A

algemeen
- 1 onafhankelijke variabele opnemen in model = X
- opzoek gaan naar best passende rechte
y = B0 + B1 X + e
- B0 = intercept = snijpunt met Y-as
- B1 = regressiecoëfficiënt = rico
- e = foutenterm = afwijking van trendlijn
- ^y = b0 + b1 x X = geschatte waarde grafiek
regressiewaarde
- verschillen tussen O & E voor elk punt
- Yi - ^Yi
- residu e
regressierechte bepalen
- methode der kleinste kwadraten
- best passende rechte = som van e^2 is kleinst voor alle punten

Question 6

Q

lineaire regressie

Answer

A

betekenis
- correlatie verder kwantificeren
- predictie maken van variabele door enkel andere variabele te kennen
–> rechte vergelijking maken
X = onafhankelijke variabele
- predictor
- covariaat bij continue variabele
- factor bij categorische variabele
–> moet continue of categorisch zijn
Y = afhankelijke variabele
- moet continue varbiale zijn
voorwaarden
- lineariteit
- onafhankelijke waarnemingen
- residuen normaal verdeeld gemiddelde 0 & constante variatie

Question 7

Q

determinatiecoëfficient

Answer

A

R^2 = verklaard deel / residueel deel
- totale spreiding = verklaarde spreiding + residuele spreiding
- onderverdeleing van residu e
- residueel deel zo klein mogelijk maken
inhoud
- kwaltatief nagaan van bekomen rechte
- percentage van Y dat verklaarbaar is door X
- dimentieloos
- waarde van 0 tot 1
- is kwadraad van pearson r
anova tabel voor resultaten
- zelfde onderlinge verhouding van cellen
- df van regressie = 1 bij enkelvoudige lineaire regressie
- testen of van hypothesen
- H0: B0 = 0
- H1: B0 ≠ 0

Question 8

Q

lineaire regressie SPSS

Answer

A

test
1. analyze
2. regression
3. linear
- dependent & independent kiezen = van elk 1
- statistics = confidence interval aanduiden

tabellen
1. eerste = test voor juiste keuze van variabelen
2. tweede = pearson r & R^2 kunnen aflezen
3. derde = anova
–> aantonen of regressie coëfficiënt er is
4. coëfficiënten
- B constant = B0
- B variabele = B1

Question 9

Q

residuen analyze

Answer

A

aanpassing aan test
- save = predicted values unstandardized & residuals standardized
–> residuen analyze = voorwaarden controleren
- enkel invloed op laatste tabel
gevolg
- 2 extra variabelen in data view
- PRE 1 = voorspelde waarde
- ZRE 1 = verschil met effectieve waarde
- ook tabel in data vieuw = mean residual als controle
normaliteit controleren
- histogram & QQ van ZRE1
- scatterplot van ZRE tov PRE & ZRE tov Y

Question 10

Q

zinvolle interpretatie

Answer

A

= bij continue onafhankelijke variabele

gecentreerde predictor variabele
- nieuw = oud - gemiddeld
- nieuwe variabele aanmaken door compute in SPSS
- variabele goed zetten door formats
- opnieuw lineaire regressie uitvoeren
test opnieuw runnen
tabel = ander intercept = enige veranderd

Question 11

Q

meervoudige lineaire regressie

Answer

A

algemeen
- meerdere onafhankelijke variabelen = meerde X variabelen
- Y = B0 + som Bixi + e
multicollineariteit
- onderlinge correlatie van onafhankelijke variabelen = X
- invloed op regressiecoëfficiënt & betrouwbaarheidsintervallen
- oplossen door variabelen samen te nemen of 1 weglaten
testen in SPSS voor multicollineariteit
- tolerance = % van variatie in onafhankelijke variabelen dat niet kan worden verklaard door de andere onafhankelijke variabelen
–> waarde kleiner dan 0.4 = probleem
- VIF variance inflation factor = reciproke waarde van tolerance
–> waarde hoger dan 2.5 probleem

Question 12

Q

modelkwaliteit

Answer

A

anova-tabel & p-waarde
determinatiecoëfficiënt
voorwaarden vervuld
residuen-analyse
klinische relevantie

Question 13

Q

selectie van onafhankelijke variabelen

Answer

A

verschillende methodes leiden tot andere modellen

enter = zelf selectie maken = altijd deze gebruiken
foward = begin met 1 variabelen, en continu 1 toevoegen en kijken wat effect is
backward = begin met alle variabelen, en continu 1 verwijderden en kijken wat effect is
stepwise = forward & backward gecombineerd

Question 14

Q

variabelen meervoudige lineaire regressie

Answer

A

voorwaarden
- categorische variabelen moeten dichotoon zijn = 2 opties
- moeten geprogrammeerd zijn als 0 & 1
programmatie naar dichotone variabele
- K-1 dummy variabele aanmaken
- stel n categorieën dan n-1 dummy variabelen
- overblijvende = referentie categorie
programmatie naar 0 & 1 = recode

Question 15

Q

programmatie naar dichotone variabele

Answer

A

centreren van variabele
- verschil van variabele tov. gemiddelde
- gemiddelde aanvragen via frequencies of descriptives
- nieuwe variabele aanmaken = variabele - gemiddelde
dummy-variabelen aanmaken
- 1 categorie kiezen = waarde 1
- alle andere categoriën = waarde 0
- zo alle categorieën afgaan & 1 referentie variabele overlaten

Question 16

Q

meervoudige lineaire regressie

Answer

A

analyze
regression
lineair
- dependent kiezen
- meerdere independent kiezen
- statistics = confidence interval & colinearity diagnostics aanduiden
tabel
- eerste = controle
- tweede = kijken naar adjusted R^2 want door meerdere variabele kan R^2 kunstmatig veranderen
- derde = anova tabel
–> H0: B1 = B2 = … = 0
–> H1: minstens 1 B ≠ 0
- vierde = B, significatie & colineariteit controleren
- vijfde = niet van belang

Question 17

Q

interpretatie meervoudige lineaire regressie

Answer

A

regresiecoëfficient
- bij continue predictor: bij stijging van x = stijging/daling met zoveel indien alle andere variabelen gelijk blijven
- bij categorische predictor: indien categorie aanwezi = gemiddelde daling/stijging van zoveel
- stijging/daling afh van positief/negatief van coëfficiënt
regressievergelijking
- linkerlid = afhankelijke variabele Y
- rechterlid = constante B0 +
- B x aantal bij continue variabele
- B x 0 of 1 bij categorische variabele
opgave = altijd zeggen indien andere variabelen onveranderd zijn

Question 18

Q

binair logistische regressie

Answer

A

inhoud = invloed van 1 of meerdere variabelen op categorische variabele
voorwaarden voor Y
- categorische variabele
- dichotoom met 0 & 1 gecodeerd
- kans van 0 of 1 voorspellen
voorwaarden voor X
- continu of categorisch
- geen dummy waarden nodig

Question 19

Q

voorstelling van binaire regressie

Answer

A

voorstelling
- logistische functie = S-curve
- f(-oneindig) = 0
- f(+oneindig) = 1
- z ≈ impact van risicofactoren
- formule gemakkelijker maken door logit transformatie
manieren van formule noteren
- PX = breuk
- PX = logit
- PX = ln(odds) = meestal gebruiken
odds
- odds = kans van gebeurtenis/kans van niet optreden gebeurtenis
- odds ratio = odds 1 / odds 2

Question 20

Q

Wald statistic

Answer

A

hypothesen
- H0: B = 0
- H1: B ≠ 0
–> testen of de odds ratio verschillend is van 1 = heeft de variabele enig effect
Wald statistic
- = Z^2
- Z = B^/Sb
- B^= schatter

Question 21

Q

LR

Answer

A

likelihood ratio test
- toevoegen van variabele bij bestaand model
- effect hiervan zien
L-waarde
- ≈ R^2 bij lineaire regressie
- maximale likelihood waarde
- -2 x ln(L) = log likelihood statistic
- opmaken van formule = niet te kennen

Question 22

Q

testen binaire regressie

Answer

A

omnibus test voor coefficient = S
- gegeven bij block 1
- kijken naar model P-waarde
-2log likelihood = hoe lager hoe beter
pseudo R^2
- Cox & Snell
- Nagelkerke = deze gebruiken
–> hoe hoger hoe beter
Hosmer and Lemeshow test
- discripantie tussen O & E
- H0 = goede fit
- H1 = geen goede fit
–> niet significant resultaat willen bekomen

Question 23

Q

bineaire regressie SPSS

Answer

A

dichotomiseren van Y
- indien continue variabele
- omzetten naar categorische variabele
- met waardes 0 & 1 = bepaalde grens opleggen
- transform into different = manueel of door interface
test
- analyse
- regression
- binary logistic
aanpassen van test
- indien categorische variabele = appart selecteren
–> referentie waarde kiezen door first of last
- options = Hosmer-Lemeshow & CI for exp aanduiden

Question 24

Q

outcome bineaire regressie SPSS

Answer

A

eerste tabel
- aantal geslecteerde cases
- kan afwijken bij veel variabelen door ongekende waardes
tweede tabel = codering van categorische variabelen
block 0
- nog geen X opgenomen in model
- eerste tabel = predictie maken door pure aantallen = percentage
- tweede tabel = B & expB = e^B odds
block 1
- eerste tabel = omnibus kijken naar MODEL & P-waarde
–> moet significant zijn
- tweede tabel = likelihood & nagelkerke
- derde tabel = Hosmer & Lemeshow
–> moet niet significant zijn
classificatie
- predicted rekening gehouden met X
- rechter kolom = ook sensitiviteit & specificiteit
variabelen

Question 25

Q

sensitiviteit & specificiteit

Answer

A

sensitiviteit
- TP / TP + FN
- vals negatieven beinvloeden factor
- in kader vermeld naast “nee” van factor
specificiteit
- TN / TN + FP
- vals positieven beinvloeden factor

Question 26

Q

binaire regressie interpretatie

Answer

A

regressie vergelijking opstellen
- ook linker lid : Ln(Odds)
- B0 + B1xX1 + …
- alle variabelen opnemen ookal zijn deze niet significant
B0
- odds B0 = odds indien andere variabelen wegvallen
–> continu waarde 0 & categorisch niet referentie waarde
B1
- odds B1 = prodcut met deze odds per toename van B0
–> altijd schrijven: na correctie of onafhankelijk van andere variabelen in model