Mate van samenhang en correlatie Flashcards

1
Q

wanneer mogelijk om te onderzoeken of verschijnselen samenhangen

A

mogelijkheid om samenhang in getal uit te drukken

dus eerst schaalwaarde toekennen aan verschijnsel

meestal gaat het over twee verschijnselen: bivariate correlation

als variabelen op verschillende meetniveau zijn gemeten: berekenen samenhang op laagste niveau

de verschijnselen moeten variëren
dus niet bv lengte en gewicht, want op 1 moment. Maar wel bij groep personen.
langere termijn, meerdere meetmomenten zou kunnen, maar: lengte varieert niet, dus geen samenhang te meten.

liefst variabelen met meerdere waarde (dus bv niet voldoende/onvoldoende, maar ruwe scores)

beste: beide variabelen normaalverdeling
(in praktijk is ongeveer goed genoeg)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

restriction of range

A

wanneer variabele veel verschillende waarde zou kunnen aannemen, maar metingen op beperkt aantal punten liggen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

opletten bij samenhang op ratio- en intervalniveau

A
  1. vaak samenhang imperfect.
    bv. langer = zwaarder
    maar: ook korte dikke mensen
    gemiddeld wel
  2. samenhang kan ook in omgekeerde richting zijn = omgekeerd of negatief verband
    bv. sneller rijden, reistijd korter
    > omgekeerd evenredig

verband 1 op 1 = evenredig
ene 2x zo groot, ander ook 2x zo groot of klein

positief of negatief effect vaak gekozen
bv. samenhang tussen betrokkenheid en leerprestaties
óf tussen afgeleid zijn en prestaties

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

opletten bij correleren percentages

A

percentage overlijden door kanker neemt toe
Misschien wel betere behandeling voor hartproblemen, dus daar minder gevallen

ook: percentage tijd voor rekenen neemt toe, dan zal ander percentage afnemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

waar beginnen bij zoeken samenhang

A

eerst kijken

grafiek: x-as/y-as: bolletje op snijpunt
> spreidingsdiagram = scattersplot

‘band’ omhoog = teken van samenhang
maar: vaak ook uitzonderingen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

correlatiecoëfficiënt

A

samenhang tussen variabelen in getal

1 > perfecte samenhang, 1 op 1, evenredig

0 > geen samenhang

-1 > perfecte negatieve samenhang

correlatie van 0,5 is dan een voorspelling, bij 1 is het zeker weten

bij lage correlatie spreek je eerder van beïnvloeden dan veroorzaken
maar: oorzakelijk verband kun je niet zomaar vaststellen!

(er zijn meerdere manieren van dit uitdrukken, dus altijd aangeven welke je gebruikt)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

berekenen correlatiecoëfficiënt (Pearson r)

A

variantie die variabelen gemeenschappelijk hebben : totale variantie (= gemeenschappelijke variantie + niet-gemeenschappelijke variantie)

variabelen eerst omzetten naar z-scores

als alle metingen bekend zijn: elk paar z-scores met elkaar vermenigvuldigen, dat optellen, delen door aantal paren waarnemingen

officiele voorwaarden: beide variabelen continue schaal en normaal verdeeld
praktijk: redelijk aantal waarnemingen, minimaal interval en geen meertoppige verdeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

verschil covariantie en correlatiecoëfficiënt

A

correlatiecoëfficiënt is de genormaliseerde versie van covariantie

bij covariantie is de waarde sterk afhankelijk van de maat
geeft wel info over de richting en mate van samenhang
bij corr. is dit niet het geval: eerst z-scores, dus gestandariseerd
daarom altijd tussen -1 en +1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

spurious correlation

A

schijnverband
correlatie wordt veroorzaakt door derde variabele

kan ook toevallig zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

data dredging

A

sleepnetmethode

onderzoekers die achteraf op zoek gaan naar onverwachte correlaties

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

illusory correlation

A

geen daadwerkelijke correlatie na berekening, wel gevoelsmatig

bv. geboortemaand maakt uit voor hoe goed je bent in voetbal
nee: selectie vindt plaats op basis van geboortejaar, dus in jan geboren kan bijna een jaar ouder en dus meer oefening zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

niet lineair

A

ene variabele neemt sneller toe dan andere
bv grotere kans op kwalen tussen 80 en 90 dan tussen 20 en 30

curvilineair: ‘mooi’ verband, kromlijnig verband

kan u-vorming zijn of omgekeerde u
(geregeld in sociale wetenschappen, aanvankelijk meestijgen tot maximum en dan weer afnemen)
oplossing voor correlatie kan zijn: variabele opsplitsen in intervallen en apart berekenen)

heteroscedasticity: errorvariantie niet voor elke waarde hetzelfde (bv liggende v vorm)

monotoon verband: verband niet overal even sterk. Andere variabele neemt ook toe, maar steeds minder snel. Richting is wel hetzelfde. bv ebbinghause curve

best passend verband kiezen (vooraf) om te verantwoorden

door hierbij (niet-lineair) pearsons r te gebruiken, krijg je miss een onderschatting van correlatie

(oplossing: eerst standaard-transformatie toepassen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

interpreteren pearsons r

A

= proportie gedeelde variantie

doen door kwadreren van correlatiecoëfficiënt (R2)
= verklaarde variantie
(bv var x verklaart ..% van de variantie van y)
R2 wordt ook wel determinatiecoëfficiënt genoemd

vaak maar klein getal!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

rol outliers bij corr. coeff.

A

outliers drukken zware stempel op r, omdat die rekening houdt met onderlinge afstanden
zeker voor outlier paren! > voegen veel variantie toe
hoe kleiner de steekproef, hoe meer effect

geen vaste regel: afvragen of het representatief is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

restriction of range

A

maar bepaald aantal waarden komen voor,
dus deel van de verdeling ontbreekt

bv. verband intelligentie en succes opleiding, maar: personen hebben allemaal al vwo advies
r lijkt klein, is niet per se het geval

> leidt tot onderschatting van sterkte van het verband
te weinig variantie om verband vast te stellen

mogelijke oplossing: meetinstrument op niveau, die gevoelig is voor kleine verschillen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

partiële correlaties

A

corr coff die overblijft na deel weghalen, bepaald effect eruit filteren
> deel dat samenhangt met derde variabele (z)

rxy.z

17
Q

multipele correlatie

A

met hoofdletter aangeven: R
alleen positief, tussen 0 en 1

vaak niet toepasbaar

wel: 1 variabele en groepje andere variabelen
bv Y en x1, x2, x3
= regressieanalyse

of: correlatie berekenen tussen groepje x en groepje y
= canonische correlatie
bv. groepje voor thuissituatie en groepje voor leerresultaten

18
Q

intra-klasse correlatie (ICC)

A

pearsons r = inter-klasse correlatie

maar wanneer de absolute waarde van metingen ertoe doet bij twee sets metingen van zelfde variabele&raquo_space;
intra-klasse (ICC)
deze houdt rekening met onderlinge rangorde

hoge agreement: beoordelaars zijn even streng/soepel
» hoge ICC = hoog agreement

hoge consistency: beoordelaars komen overeen wat betreft relatieve beoordelingen (qua rangschikken)
» hoge pearsons r = hoge consistency

19
Q

individuele versus ecologische correlaties

A

bij ecologische correlaties wordt geen rekening gehouden met het ‘gewicht’ van afzonderlijke eenheden, er wordt gerekend met gemiddelden
daardoor zijn die vaak hoger

dus: geen met ecologische correlatie kun je geen conclusie trekken over individuele correlatie. Kan misleidend zijn.

ook: ecologische fout: verbanden gemeten op groepsniveau toepassen op individu

20
Q

time-lagged correlation en time-lagged cross-correlations

A

time-lagged: zelfde variabele meten met tijdsinterval van aanzienlijke lengte

time-lagged cross: twee verschillende variabelen met tijdsinterval

term zegt niets over berekening, maar alleen over tijdstip van meten

21
Q

betrouwbaarheid corr. coeff.

A

herhaalde meting van zelfde kenmerk vrijwel nooit precies dezelfde waarde

ook correlaties niet 100% betrouwbaar

vaak betrouwbaarheid niet genoemd bij geven van correlatie

terwijl: wordt gerekend met paren, die beide wat onzekerheid hebben en vaak ook nog steekproef

betrouwbaarheidsinterval berekenen in spss: bootstrap

22
Q

spearman’s rho (p)

A

ook voor ordinaal niveau

minder gevoelig voor outliers

geen afstand gehouden met afstand, alleen met rangnummer

berekenen:
- waarden rangschikken
- paren maken en verschil berekenen
- verschil kwadrateren
- optellen (som)
- formule:
1 - (6 x die som: n x (n kwadraat - 1)

23
Q

kendalls tau

A

bij veel ties: deze gebruiken
in tegenstelling met spearmans houdt deze wel rekening met ties, terwijl spearmans die als gelijke behandelt. Kendalls tau strenger daarin, maar wel representatiever.

concordant: waar rangordening hetzelfde is
discordant: waar volgorde rangordening omgekeerd is
» berekenen: kijken naar tweede rij. Dan steeds kijken naar volgende nummer: groter=+ en kleiner=-
optellen aantal + = aantal concordent
optellen aantal - = aantal discordent

hierbij alle paren vergeleken en dit bepaalt in hoge mate kendalls tau (c-d)

ook tussen -1 en +1

verschillende versies: noemer

> tau-a
houdt geen rekening met ties
c-d: totaal aantal paren (n(n-1):2)

of: (c-d): c+d=

tau-b
houdt wel rekening met ties
grootte van noemer neemt toe bij meer ties, dus waarde wordt kleiner
(ook wel logisch, want bv alleen maar ties, dan geen variabele maar een contante en dus geen samenhang)
» noemer hierbij: wortel van (C+D+aantal ties x) x (C+D+aantal ties y)

24
Q

coëfficiënt phi

A

samenhang tussen twee dichotome variabelen

meestal gebruikt om samenhang te toetsen en niet voor het berekenen

hierbij geen sprake van negatief, want er is geen rangorde
alleen range tussen perfect en geen verband (tussen 1 en 0)

2 x 2, kruistabel (contingency table)
bij grotere tabellen kan de waarde boven de 1 komen

‘scheve’ verdeling in kruistabel kan wijzen op verband
maar: niet zomaar. want rekening houden dat sommige waarden in populatie vaker voorkomen.
én: als de ene categorie scheef verdeeld is, heeft dan invloed op hoe de andere variabele verdeeld is

25
wel of geen verband?
tabel invullen onder de aanname dat er geen verband is: het product van de waarde van betreffende rij en overeenkomstige waarde kolom eindwaarde rij x eindwaarde kolom: totaal aantal waarden als waargenomen waarden sterker afwijken van verwachte waarden, dan samenhang groter berekenen chi-kwadraat (chi-square, x2)) (geobserveerde waarde - verwachte waarde)2 gedeeld door verwachte waarde (dit om te neutraliseren) die getallen optellen x2 als maat niet goed te interpreteren, naar boven toe onbegrensd, neemt ook toe naarmate er meer waarnemingen zijn daarom: delen door aantal waarnemingen en daarna wortel >> = phi dan: interpretatietabel bekijken voor richtlijnen. uit boek Groningen 0-0.10 geen of zeer zwak verband 0,11 - 0,30 zwak 0,31 - 0,50 redelijk 0,51 - 0,80 sterk 0,81 - 0,99 zeer sterk 1 perfect
26
Cramers V
ook voor grotere tabellen r: aantal rijen k: aantal kolommen berekent verhouding tussen berekende x2 en de maximale x2 maximale x2 berekenen: n (totaal aantal waarnem. x (kleinste waarde van rijen en kolommen) gestandaardiseerde versie van x2 makkelijker interpreteren als één van de variabelen ordinaal is
27
Goodman en Kruskal's tau
als de ene categorische waarde een onafhankelijke variabele is. ene variabele wordt gebruikt om andere te voorspellen rekening houden met dat op basis van toeval al juiste voorspellingen kunnen worden gedaan dus: je wil vooral weten wat een bepaalde variabele toevoegt aan de voorspelling voorbeeld blz 41: 30% heeft hbo-gevolgd. Van 100 mensen zijn dat 30 personen. (willekeurig gekozen) Bij die 30 personen hebben we er 9 (30%) ook echt een hbo-gevolgd en 21 niet. (dus 21 fout) Van de andere 70 hebben 21 (30%) wel een hbo-gedaan en 49 idd niet. (dus 21 fout) totaal: 42 foute voorspellingen. (aantal voorspellingsfouten zonder gebruik maken van info - aantal voorspellingsfouten met gebruik van info) gedeeld door (aantal voorspellingsfouten zonder gebruikmaking van info) 0 wanneer nieuwe info niks toevoegt, 1 als helemaal geen fouten meer gemaakt worden theoretisch kan ook negatieve waarde zijn
28
Lambda
?
29
Cohen's kappa
toegepast bij specifieke soort kruistabellen: die waarbij de rijen beoordelaars zijn en kolommen categorieën waarop beoordeeld wordt geen rangorde, dus nominaal sprake van beoordeling en indeling van objecten in categorieën maar: niet zomaar op te tellen de betrouwbaarheid van beoordeling is de samenhang: interrater reliability met maat: cohen's kappa negatieve waarde onwaarschijnlijk berekenen: feitelijk gevonden aantal overeenstemmingen in beoordelingen - op basis van toeval verwachte aantal overeenstemmingen gedeeld door (1 - het op basis van toeval verwachte aantal overeenstemmingen) -> bij percentages laatste stukje (100 - toeval) -> bij aantallen laatste stukje (n- toeval) berekenen aantal op basis van toeval: kruisproduct van overeenkomstige rijwaarde en kolomwaarde feitelijk gevonden aantal overeenstemmingen: daarom bij voorbeeld blz 46 niet alle getallen meegenomen uit tabel. kappawaarde, arbitraire afkappunten: 0 slecht 0 - 0,20 gering 0,21 - 0,40 matig 0,41 - 0,60 redelijk 0,61 - 0,80 voldoende tot goed ... bijna perfect ook voor grotere tabellen minder betrouwbaar bij: 1 of meer cellen vrijwel leeg en: perfect verband betekent niet dat ze per se gelijk hebben. daarvoor objectieve criteria nodig: gouden standaard