bivariate pearson correlatie Flashcards

1
Q

waarvoor wordt de pearson correlatie gebruikt

A

om lineaire samehang tussen twee variabelen te bewijzen

NIET causaal verband

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

definitie pearson correlatie !

A

Pearsons correlatiecoëfficiënt r is een gestandaardiseerde maat voor de lineaire samenhang tussen 2 continue (of dichotome*) variabelen

-1<r<1
(denk streepje onder < voor gelijk of kleiner)
0= geen samenhang
1= perfecte samenhang
-1= negatieve perfecte samenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

5 assumpties van pearson correlatie R
“scores van X en Y variabelen:”

A
  1. Zijn kwantitatief ( of beide dichotoom)
  2. Zijn lineair gerelateerd
  3. Hebben een bivariate normale verdeling
  4. Hebben geen extreme uitschieters
  5. Homoscedasticiteit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

invloed van outliers op R

A
  1. kan onderdrukken: met outlier: r=.53, zonder outlier: r=.86
  2. kan versterken: met outlier: .64 zonder, geen verband/ lager
    –> door outlier hier kan er een lineaire lijn ontstaan omdat de R de outlier probeert mee te pakken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Homoscedasticiteit vs heteroscedasticiteit

A

homoscedasticiteit: grafiek heeft de vorm van een rechthoek-ish

heteroscedasticiteit: grafiek heeft de vorm van een hoorn (niet regelmatig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

wat zijn de 2 manieren om pearson r te berekenen

A
  1. standaardscore formule
  2. via covariantie (ongestandaardiseerd)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

hoe gebruik je de standaardscore formule (+formule)

A
  • gemiddelde is 0
  • standaarddeviatie is 1

r= ∑(Zx * Zy)
———–
N
Zx = (X-Mx) : Sx
Zy= (Y-My): Sy

N = Aantal x,y paren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

wat is covariantie

A

covariantie is een ongestandaardiseerde maat die aangeeft in welke mate 2 variabelen lineair met elkaar variëren
–> kan elke mogelijke waarde aannemen

Net zoals bij variantie is de waarde van covariantie afhankelijk van de eenheden waarin X en Y zijn gemeten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

formule van covariantie

A

cov(x,y)=∑[(X-Mx) * (Y - My)]
—————————
N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

hoe bereken je de pearson r uit covariantie

A

cov(x,y)=∑[(X-Mx) * (Y - My)]
—————————
N

pearson r = cov(x,y)
———–
(Sx * Sy)
—> dus: pearson r is een gestandaardiseerde covariantie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

concordante datapunten

A

punten die of: zowel boven het gemiddelde van x en boven het gemiddelde van y liggen
Of: zowel onder het gemiddelde van x als onder het gemiddelde van y liggen

Teken van Zx en Zy is hetzelfde (++ –)
dus bij meeste punten in concordante kwadranten: ∑ Zx * zy is groot en positief

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

discordante datapunten

A

punten die of: boven het gemiddelde van X en onder het gemiddelde van Y liggen
of: onder het gemiddelde van X en boven het gemiddelde van Y liggen

Teken van Zx en Zy zijn niet hetzelfde (+-)
dus bij meeste punten in discordante kwadranten: ∑ Zx * zy is groot en negatief

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

pearson’s nulhypothese

A

H0: Pxy = 0

met rho(p) als populatie correlatie-coefficient

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

hoe samenhang significantie toetsen

A

t-ratio test statistic
–> van steekproef naar populatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

t-ratio test statistic formule en gebruik

A

t = r - P0
——–
SEr

Met SEr = standaard error
kleine steekproef –> grote standaard error. je hebt weinig informatie dus je kan minder goed schatten

Df = N-2
–> critical value opzoeken in tabel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

bij veel correlaties : 4 manieren om type I fout te voorkomen

A
  1. beperk aantal correlaties
  2. cross-validatie
    -Je oorspronkelijke steekproef door de computer in 2 helften hakken. je neemt een subsample, hiervoor bepaal je de correlaties voor de variabelen. De tweede subsample doe je hetzelfde voor, deze twee ga je vergelijken. Vind je consistentie → dan is het gevalideerd.
  3. Bonferroni ( meer conservatieve α)
    • Je pakt geen α van 5% maar eentje van van .05/ aantal tests dat je doet → een strenger significantieniveau hanteren
  4. repliceer correlaties in nieuwe steekproeven
17
Q

11 factoren die de pearson’s r kunnen beinvloeden

A
  1. datapatronen in x,y plotje
  2. biased sample selection
    -beperkt bereik ( restricted range )
    - -> onderschatting van de data
    • selection of extreme groups
      – overschatting van de data
  3. correlatie van steekproeven met gecombineerde groepen
  4. mate waarin r gecontroleerd wordt via andere variabelen
  5. bivariate outliers
  6. verschillende vorm van de verdeling van x en y
  7. curvilineaire of nonlineaire verbanden
  8. transformatie van de data (bv. log)
  9. Attenuatie als gevolg van onbetrouwbare meetinstrumenten : onbetrouwbare meetinstrumenten verzwakken correlaties tussen die meetinstrumenten
  10. Artificiële deel-geheel correlaties
  11. Geaggregeerde data