bivariate pearson correlatie Flashcards
waarvoor wordt de pearson correlatie gebruikt
om lineaire samehang tussen twee variabelen te bewijzen
NIET causaal verband
definitie pearson correlatie !
Pearsons correlatiecoëfficiënt r is een gestandaardiseerde maat voor de lineaire samenhang tussen 2 continue (of dichotome*) variabelen
-1<r<1
(denk streepje onder < voor gelijk of kleiner)
0= geen samenhang
1= perfecte samenhang
-1= negatieve perfecte samenhang
5 assumpties van pearson correlatie R
“scores van X en Y variabelen:”
- Zijn kwantitatief ( of beide dichotoom)
- Zijn lineair gerelateerd
- Hebben een bivariate normale verdeling
- Hebben geen extreme uitschieters
- Homoscedasticiteit
invloed van outliers op R
- kan onderdrukken: met outlier: r=.53, zonder outlier: r=.86
- kan versterken: met outlier: .64 zonder, geen verband/ lager
–> door outlier hier kan er een lineaire lijn ontstaan omdat de R de outlier probeert mee te pakken
Homoscedasticiteit vs heteroscedasticiteit
homoscedasticiteit: grafiek heeft de vorm van een rechthoek-ish
heteroscedasticiteit: grafiek heeft de vorm van een hoorn (niet regelmatig)
wat zijn de 2 manieren om pearson r te berekenen
- standaardscore formule
- via covariantie (ongestandaardiseerd)
hoe gebruik je de standaardscore formule (+formule)
- gemiddelde is 0
- standaarddeviatie is 1
r= ∑(Zx * Zy)
———–
N
Zx = (X-Mx) : Sx
Zy= (Y-My): Sy
N = Aantal x,y paren
wat is covariantie
covariantie is een ongestandaardiseerde maat die aangeeft in welke mate 2 variabelen lineair met elkaar variëren
–> kan elke mogelijke waarde aannemen
Net zoals bij variantie is de waarde van covariantie afhankelijk van de eenheden waarin X en Y zijn gemeten
formule van covariantie
cov(x,y)=∑[(X-Mx) * (Y - My)]
—————————
N
hoe bereken je de pearson r uit covariantie
cov(x,y)=∑[(X-Mx) * (Y - My)]
—————————
N
pearson r = cov(x,y)
———–
(Sx * Sy)
—> dus: pearson r is een gestandaardiseerde covariantie
concordante datapunten
punten die of: zowel boven het gemiddelde van x en boven het gemiddelde van y liggen
Of: zowel onder het gemiddelde van x als onder het gemiddelde van y liggen
Teken van Zx en Zy is hetzelfde (++ –)
dus bij meeste punten in concordante kwadranten: ∑ Zx * zy is groot en positief
discordante datapunten
punten die of: boven het gemiddelde van X en onder het gemiddelde van Y liggen
of: onder het gemiddelde van X en boven het gemiddelde van Y liggen
Teken van Zx en Zy zijn niet hetzelfde (+-)
dus bij meeste punten in discordante kwadranten: ∑ Zx * zy is groot en negatief
pearson’s nulhypothese
H0: Pxy = 0
met rho(p) als populatie correlatie-coefficient
hoe samenhang significantie toetsen
t-ratio test statistic
–> van steekproef naar populatie
t-ratio test statistic formule en gebruik
t = r - P0
——–
SEr
Met SEr = standaard error
kleine steekproef –> grote standaard error. je hebt weinig informatie dus je kan minder goed schatten
Df = N-2
–> critical value opzoeken in tabel
bij veel correlaties : 4 manieren om type I fout te voorkomen
- beperk aantal correlaties
- cross-validatie
-Je oorspronkelijke steekproef door de computer in 2 helften hakken. je neemt een subsample, hiervoor bepaal je de correlaties voor de variabelen. De tweede subsample doe je hetzelfde voor, deze twee ga je vergelijken. Vind je consistentie → dan is het gevalideerd. - Bonferroni ( meer conservatieve α)
- Je pakt geen α van 5% maar eentje van van .05/ aantal tests dat je doet → een strenger significantieniveau hanteren
- repliceer correlaties in nieuwe steekproeven
11 factoren die de pearson’s r kunnen beinvloeden
- datapatronen in x,y plotje
- biased sample selection
-beperkt bereik ( restricted range )
- -> onderschatting van de data- selection of extreme groups
– overschatting van de data
- selection of extreme groups
- correlatie van steekproeven met gecombineerde groepen
- mate waarin r gecontroleerd wordt via andere variabelen
- bivariate outliers
- verschillende vorm van de verdeling van x en y
- curvilineaire of nonlineaire verbanden
- transformatie van de data (bv. log)
- Attenuatie als gevolg van onbetrouwbare meetinstrumenten : onbetrouwbare meetinstrumenten verzwakken correlaties tussen die meetinstrumenten
- Artificiële deel-geheel correlaties
- Geaggregeerde data