Correlatie & regressie Flashcards

1
Q

correlatie

A
  1. betekenis
    - nagaan van lineair verband tussen 2 variabelen
    - altijd nagaan door scatterplot = nagaan of er enige mate van verband is
    - geen belang welke variabele op X-as & Y-as <=> lineaire regressie wel!
  2. correlatiecoëfficiënten = LINEAIR
    - pearson
    - spearman
  3. corretlatie ≠ causaliteit
    - toevallige samenhang
    - X is ooraak van Y of omgekeerd
    - varband komt door 3e variabele
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

pearson correlatiecoëfficiënt

A
  1. eigenschappen van r
    - maat voor lineair verband tussen x & y
    - dimensieloos = geen eenheid
    - symmetrische tov. x & y
    - invariant voor lineaire transformaties van x en/of y
    –> vb: eenheid van variabele veranderen
  2. waarden van r
    - 1+ = perfect positieve correlatie
    –> rechtevenredig
    - 1- = perfect negatieve correlatie
    –> omgekeerd evenredig
    - ≈0 = geen correlatie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

spearman correlatiecoëfficiënt

A

= rang correlatiecoëfficiënt
= rs

  1. hypothese test = zelfde voor pearson
    - H0: p = 0
    - H0: p ≠ 0
    - p = populatie correlatiecoëfficiënt
  2. vergelijking met pearson
    - P = acutele waarden <=> S = rangen
    - P = X & Y moeten minstens van interval niveau zijn <=> S = minstens van ordinaal niveau
    - P = normaal verdeling <=> S = niet gebaseerd op normaal verdeling
    - P = parametrisch <=> S = niet-parametrisch
    - P = gevoelig aan outliers <=> S = niet-gevoelig aan outliers
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

correlatiecoëfficiënt in SPSS

A

eerst altijd scatter plot aanvragen
1. graphs
2. scatterplot
3. simple scatterplot

lineaire correlatiecoëfficiënten = pas als visueel in scatterplot
1. analyze
2. correlate
3. bivariate
4. variabelen kiezen
- meerdere kunnen kiezen
- onderaan testen kiezen
5. tabel
- waarde & p-waarde rapporteren
- vooral waarde interpreteren idpv p-waarde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

enkelvoudige lineaire regressie

A
  1. algemeen
    - 1 onafhankelijke variabele opnemen in model = X
    - opzoek gaan naar best passende rechte
  2. y = B0 + B1 X + e
    - B0 = intercept = snijpunt met Y-as
    - B1 = regressiecoëfficiënt = rico
    - e = foutenterm = afwijking van trendlijn
    - ^y = b0 + b1 x X = geschatte waarde grafiek
  3. regressiewaarde
    - verschillen tussen O & E voor elk punt
    - Yi - ^Yi
    - residu e
  4. regressierechte bepalen
    - methode der kleinste kwadraten
    - best passende rechte = som van e^2 is kleinst voor alle punten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

lineaire regressie

A
  1. betekenis
    - correlatie verder kwantificeren
    - predictie maken van variabele door enkel andere variabele te kennen
    –> rechte vergelijking maken
  2. X = onafhankelijke variabele
    - predictor
    - covariaat bij continue variabele
    - factor bij categorische variabele
    –> moet continue of categorisch zijn
  3. Y = afhankelijke variabele
    - moet continue varbiale zijn
  4. voorwaarden
    - lineariteit
    - onafhankelijke waarnemingen
    - residuen normaal verdeeld gemiddelde 0 & constante variatie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

determinatiecoëfficient

A
  1. R^2 = verklaard deel / residueel deel
    - totale spreiding = verklaarde spreiding + residuele spreiding
    - onderverdeleing van residu e
    - residueel deel zo klein mogelijk maken
  2. inhoud
    - kwaltatief nagaan van bekomen rechte
    - percentage van Y dat verklaarbaar is door X
    - dimentieloos
    - waarde van 0 tot 1
    - is kwadraad van pearson r
  3. anova tabel voor resultaten
    - zelfde onderlinge verhouding van cellen
    - df van regressie = 1 bij enkelvoudige lineaire regressie
    - testen of van hypothesen
    - H0: B0 = 0
    - H1: B0 ≠ 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

lineaire regressie SPSS

A

test
1. analyze
2. regression
3. linear
- dependent & independent kiezen = van elk 1
- statistics = confidence interval aanduiden

tabellen
1. eerste = test voor juiste keuze van variabelen
2. tweede = pearson r & R^2 kunnen aflezen
3. derde = anova
–> aantonen of regressie coëfficiënt er is
4. coëfficiënten
- B constant = B0
- B variabele = B1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

residuen analyze

A
  1. aanpassing aan test
    - save = predicted values unstandardized & residuals standardized
    –> residuen analyze = voorwaarden controleren
    - enkel invloed op laatste tabel
  2. gevolg
    - 2 extra variabelen in data view
    - PRE 1 = voorspelde waarde
    - ZRE 1 = verschil met effectieve waarde
    - ook tabel in data vieuw = mean residual als controle
  3. normaliteit controleren
    - histogram & QQ van ZRE1
    - scatterplot van ZRE tov PRE & ZRE tov Y
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

zinvolle interpretatie

A

= bij continue onafhankelijke variabele

  1. gecentreerde predictor variabele
    - nieuw = oud - gemiddeld
    - nieuwe variabele aanmaken door compute in SPSS
    - variabele goed zetten door formats
    - opnieuw lineaire regressie uitvoeren
  2. test opnieuw runnen
  3. tabel = ander intercept = enige veranderd
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

meervoudige lineaire regressie

A
  1. algemeen
    - meerdere onafhankelijke variabelen = meerde X variabelen
    - Y = B0 + som Bixi + e
  2. multicollineariteit
    - onderlinge correlatie van onafhankelijke variabelen = X
    - invloed op regressiecoëfficiënt & betrouwbaarheidsintervallen
    - oplossen door variabelen samen te nemen of 1 weglaten
  3. testen in SPSS voor multicollineariteit
    - tolerance = % van variatie in onafhankelijke variabelen dat niet kan worden verklaard door de andere onafhankelijke variabelen
    –> waarde kleiner dan 0.4 = probleem
    - VIF variance inflation factor = reciproke waarde van tolerance
    –> waarde hoger dan 2.5 probleem
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

modelkwaliteit

A
  1. anova-tabel & p-waarde
  2. determinatiecoëfficiënt
  3. voorwaarden vervuld
  4. residuen-analyse
  5. klinische relevantie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

selectie van onafhankelijke variabelen

A

verschillende methodes leiden tot andere modellen

  1. enter = zelf selectie maken = altijd deze gebruiken
  2. foward = begin met 1 variabelen, en continu 1 toevoegen en kijken wat effect is
  3. backward = begin met alle variabelen, en continu 1 verwijderden en kijken wat effect is
  4. stepwise = forward & backward gecombineerd
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

variabelen meervoudige lineaire regressie

A
  1. voorwaarden
    - categorische variabelen moeten dichotoon zijn = 2 opties
    - moeten geprogrammeerd zijn als 0 & 1
  2. programmatie naar dichotone variabele
    - K-1 dummy variabele aanmaken
    - stel n categorieën dan n-1 dummy variabelen
    - overblijvende = referentie categorie
  3. programmatie naar 0 & 1 = recode
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

programmatie naar dichotone variabele

A
  1. centreren van variabele
    - verschil van variabele tov. gemiddelde
    - gemiddelde aanvragen via frequencies of descriptives
    - nieuwe variabele aanmaken = variabele - gemiddelde
  2. dummy-variabelen aanmaken
    - 1 categorie kiezen = waarde 1
    - alle andere categoriën = waarde 0
    - zo alle categorieën afgaan & 1 referentie variabele overlaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

meervoudige lineaire regressie

A
  1. analyze
  2. regression
  3. lineair
    - dependent kiezen
    - meerdere independent kiezen
    - statistics = confidence interval & colinearity diagnostics aanduiden
  4. tabel
    - eerste = controle
    - tweede = kijken naar adjusted R^2 want door meerdere variabele kan R^2 kunstmatig veranderen
    - derde = anova tabel
    –> H0: B1 = B2 = … = 0
    –> H1: minstens 1 B ≠ 0
    - vierde = B, significatie & colineariteit controleren
    - vijfde = niet van belang
17
Q

interpretatie meervoudige lineaire regressie

A
  1. regresiecoëfficient
    - bij continue predictor: bij stijging van x = stijging/daling met zoveel indien alle andere variabelen gelijk blijven
    - bij categorische predictor: indien categorie aanwezi = gemiddelde daling/stijging van zoveel
    - stijging/daling afh van positief/negatief van coëfficiënt
  2. regressievergelijking
    - linkerlid = afhankelijke variabele Y
    - rechterlid = constante B0 +
    - B x aantal bij continue variabele
    - B x 0 of 1 bij categorische variabele
  3. opgave = altijd zeggen indien andere variabelen onveranderd zijn
18
Q

binair logistische regressie

A
  1. inhoud = invloed van 1 of meerdere variabelen op categorische variabele
  2. voorwaarden voor Y
    - categorische variabele
    - dichotoom met 0 & 1 gecodeerd
    - kans van 0 of 1 voorspellen
  3. voorwaarden voor X
    - continu of categorisch
    - geen dummy waarden nodig
19
Q

voorstelling van binaire regressie

A
  1. voorstelling
    - logistische functie = S-curve
    - f(-oneindig) = 0
    - f(+oneindig) = 1
    - z ≈ impact van risicofactoren
    - formule gemakkelijker maken door logit transformatie
  2. manieren van formule noteren
    - PX = breuk
    - PX = logit
    - PX = ln(odds) = meestal gebruiken
  3. odds
    - odds = kans van gebeurtenis/kans van niet optreden gebeurtenis
    - odds ratio = odds 1 / odds 2
20
Q

Wald statistic

A
  1. hypothesen
    - H0: B = 0
    - H1: B ≠ 0
    –> testen of de odds ratio verschillend is van 1 = heeft de variabele enig effect
  2. Wald statistic
    - = Z^2
    - Z = B^/Sb
    - B^= schatter
21
Q

LR

A
  1. likelihood ratio test
    - toevoegen van variabele bij bestaand model
    - effect hiervan zien
  2. L-waarde
    - ≈ R^2 bij lineaire regressie
    - maximale likelihood waarde
    - -2 x ln(L) = log likelihood statistic
    - opmaken van formule = niet te kennen
22
Q

testen binaire regressie

A
  1. omnibus test voor coefficient = S
    - gegeven bij block 1
    - kijken naar model P-waarde
  2. -2log likelihood = hoe lager hoe beter
  3. pseudo R^2
    - Cox & Snell
    - Nagelkerke = deze gebruiken
    –> hoe hoger hoe beter
  4. Hosmer and Lemeshow test
    - discripantie tussen O & E
    - H0 = goede fit
    - H1 = geen goede fit
    –> niet significant resultaat willen bekomen
23
Q

bineaire regressie SPSS

A
  1. dichotomiseren van Y
    - indien continue variabele
    - omzetten naar categorische variabele
    - met waardes 0 & 1 = bepaalde grens opleggen
    - transform into different = manueel of door interface
  2. test
    - analyse
    - regression
    - binary logistic
  3. aanpassen van test
    - indien categorische variabele = appart selecteren
    –> referentie waarde kiezen door first of last
    - options = Hosmer-Lemeshow & CI for exp aanduiden
24
Q

outcome bineaire regressie SPSS

A
  1. eerste tabel
    - aantal geslecteerde cases
    - kan afwijken bij veel variabelen door ongekende waardes
  2. tweede tabel = codering van categorische variabelen
  3. block 0
    - nog geen X opgenomen in model
    - eerste tabel = predictie maken door pure aantallen = percentage
    - tweede tabel = B & expB = e^B odds
  4. block 1
    - eerste tabel = omnibus kijken naar MODEL & P-waarde
    –> moet significant zijn
    - tweede tabel = likelihood & nagelkerke
    - derde tabel = Hosmer & Lemeshow
    –> moet niet significant zijn
  5. classificatie
    - predicted rekening gehouden met X
    - rechter kolom = ook sensitiviteit & specificiteit
  6. variabelen
25
Q

sensitiviteit & specificiteit

A
  1. sensitiviteit
    - TP / TP + FN
    - vals negatieven beinvloeden factor
    - in kader vermeld naast “nee” van factor
  2. specificiteit
    - TN / TN + FP
    - vals positieven beinvloeden factor
26
Q

binaire regressie interpretatie

A
  1. regressie vergelijking opstellen
    - ook linker lid : Ln(Odds)
    - B0 + B1xX1 + …
    - alle variabelen opnemen ookal zijn deze niet significant
  2. B0
    - odds B0 = odds indien andere variabelen wegvallen
    –> continu waarde 0 & categorisch niet referentie waarde
  3. B1
    - odds B1 = prodcut met deze odds per toename van B0
    –> altijd schrijven: na correctie of onafhankelijk van andere variabelen in model