Mate van samenhang en correlatie Flashcards
wanneer mogelijk om te onderzoeken of verschijnselen samenhangen
mogelijkheid om samenhang in getal uit te drukken
dus eerst schaalwaarde toekennen aan verschijnsel
meestal gaat het over twee verschijnselen: bivariate correlation
als variabelen op verschillende meetniveau zijn gemeten: berekenen samenhang op laagste niveau
de verschijnselen moeten variëren
dus niet bv lengte en gewicht, want op 1 moment. Maar wel bij groep personen.
langere termijn, meerdere meetmomenten zou kunnen, maar: lengte varieert niet, dus geen samenhang te meten.
liefst variabelen met meerdere waarde (dus bv niet voldoende/onvoldoende, maar ruwe scores)
beste: beide variabelen normaalverdeling
(in praktijk is ongeveer goed genoeg)
restriction of range
wanneer variabele veel verschillende waarde zou kunnen aannemen, maar metingen op beperkt aantal punten liggen
opletten bij samenhang op ratio- en intervalniveau
- vaak samenhang imperfect.
bv. langer = zwaarder
maar: ook korte dikke mensen
gemiddeld wel - samenhang kan ook in omgekeerde richting zijn = omgekeerd of negatief verband
bv. sneller rijden, reistijd korter
> omgekeerd evenredig
verband 1 op 1 = evenredig
ene 2x zo groot, ander ook 2x zo groot of klein
positief of negatief effect vaak gekozen
bv. samenhang tussen betrokkenheid en leerprestaties
óf tussen afgeleid zijn en prestaties
opletten bij correleren percentages
percentage overlijden door kanker neemt toe
Misschien wel betere behandeling voor hartproblemen, dus daar minder gevallen
ook: percentage tijd voor rekenen neemt toe, dan zal ander percentage afnemen
waar beginnen bij zoeken samenhang
eerst kijken
grafiek: x-as/y-as: bolletje op snijpunt
> spreidingsdiagram = scattersplot
‘band’ omhoog = teken van samenhang
maar: vaak ook uitzonderingen
correlatiecoëfficiënt
samenhang tussen variabelen in getal
1 > perfecte samenhang, 1 op 1, evenredig
0 > geen samenhang
-1 > perfecte negatieve samenhang
correlatie van 0,5 is dan een voorspelling, bij 1 is het zeker weten
bij lage correlatie spreek je eerder van beïnvloeden dan veroorzaken
maar: oorzakelijk verband kun je niet zomaar vaststellen!
(er zijn meerdere manieren van dit uitdrukken, dus altijd aangeven welke je gebruikt)
berekenen correlatiecoëfficiënt (Pearson r)
variantie die variabelen gemeenschappelijk hebben : totale variantie (= gemeenschappelijke variantie + niet-gemeenschappelijke variantie)
variabelen eerst omzetten naar z-scores
als alle metingen bekend zijn: elk paar z-scores met elkaar vermenigvuldigen, dat optellen, delen door aantal paren waarnemingen
officiele voorwaarden: beide variabelen continue schaal en normaal verdeeld
praktijk: redelijk aantal waarnemingen, minimaal interval en geen meertoppige verdeling
verschil covariantie en correlatiecoëfficiënt
correlatiecoëfficiënt is de genormaliseerde versie van covariantie
bij covariantie is de waarde sterk afhankelijk van de maat
geeft wel info over de richting en mate van samenhang
bij corr. is dit niet het geval: eerst z-scores, dus gestandariseerd
daarom altijd tussen -1 en +1
spurious correlation
schijnverband
correlatie wordt veroorzaakt door derde variabele
kan ook toevallig zijn
data dredging
sleepnetmethode
onderzoekers die achteraf op zoek gaan naar onverwachte correlaties
illusory correlation
geen daadwerkelijke correlatie na berekening, wel gevoelsmatig
bv. geboortemaand maakt uit voor hoe goed je bent in voetbal
nee: selectie vindt plaats op basis van geboortejaar, dus in jan geboren kan bijna een jaar ouder en dus meer oefening zijn
niet lineair
ene variabele neemt sneller toe dan andere
bv grotere kans op kwalen tussen 80 en 90 dan tussen 20 en 30
curvilineair: ‘mooi’ verband, kromlijnig verband
kan u-vorming zijn of omgekeerde u
(geregeld in sociale wetenschappen, aanvankelijk meestijgen tot maximum en dan weer afnemen)
oplossing voor correlatie kan zijn: variabele opsplitsen in intervallen en apart berekenen)
heteroscedasticity: errorvariantie niet voor elke waarde hetzelfde (bv liggende v vorm)
monotoon verband: verband niet overal even sterk. Andere variabele neemt ook toe, maar steeds minder snel. Richting is wel hetzelfde. bv ebbinghause curve
best passend verband kiezen (vooraf) om te verantwoorden
door hierbij (niet-lineair) pearsons r te gebruiken, krijg je miss een onderschatting van correlatie
(oplossing: eerst standaard-transformatie toepassen)
interpreteren pearsons r
= proportie gedeelde variantie
doen door kwadreren van correlatiecoëfficiënt (R2)
= verklaarde variantie
(bv var x verklaart ..% van de variantie van y)
R2 wordt ook wel determinatiecoëfficiënt genoemd
vaak maar klein getal!
rol outliers bij corr. coeff.
outliers drukken zware stempel op r, omdat die rekening houdt met onderlinge afstanden
zeker voor outlier paren! > voegen veel variantie toe
hoe kleiner de steekproef, hoe meer effect
geen vaste regel: afvragen of het representatief is
restriction of range
maar bepaald aantal waarden komen voor,
dus deel van de verdeling ontbreekt
bv. verband intelligentie en succes opleiding, maar: personen hebben allemaal al vwo advies
r lijkt klein, is niet per se het geval
> leidt tot onderschatting van sterkte van het verband
te weinig variantie om verband vast te stellen
mogelijke oplossing: meetinstrument op niveau, die gevoelig is voor kleine verschillen
partiële correlaties
corr coff die overblijft na deel weghalen, bepaald effect eruit filteren
> deel dat samenhangt met derde variabele (z)
rxy.z
multipele correlatie
met hoofdletter aangeven: R
alleen positief, tussen 0 en 1
vaak niet toepasbaar
wel: 1 variabele en groepje andere variabelen
bv Y en x1, x2, x3
= regressieanalyse
of: correlatie berekenen tussen groepje x en groepje y
= canonische correlatie
bv. groepje voor thuissituatie en groepje voor leerresultaten
intra-klasse correlatie (ICC)
pearsons r = inter-klasse correlatie
maar wanneer de absolute waarde van metingen ertoe doet bij twee sets metingen van zelfde variabele»_space;
intra-klasse (ICC)
deze houdt rekening met onderlinge rangorde
hoge agreement: beoordelaars zijn even streng/soepel
» hoge ICC = hoog agreement
hoge consistency: beoordelaars komen overeen wat betreft relatieve beoordelingen (qua rangschikken)
» hoge pearsons r = hoge consistency
individuele versus ecologische correlaties
bij ecologische correlaties wordt geen rekening gehouden met het ‘gewicht’ van afzonderlijke eenheden, er wordt gerekend met gemiddelden
daardoor zijn die vaak hoger
dus: geen met ecologische correlatie kun je geen conclusie trekken over individuele correlatie. Kan misleidend zijn.
ook: ecologische fout: verbanden gemeten op groepsniveau toepassen op individu
time-lagged correlation en time-lagged cross-correlations
time-lagged: zelfde variabele meten met tijdsinterval van aanzienlijke lengte
time-lagged cross: twee verschillende variabelen met tijdsinterval
term zegt niets over berekening, maar alleen over tijdstip van meten
betrouwbaarheid corr. coeff.
herhaalde meting van zelfde kenmerk vrijwel nooit precies dezelfde waarde
ook correlaties niet 100% betrouwbaar
vaak betrouwbaarheid niet genoemd bij geven van correlatie
terwijl: wordt gerekend met paren, die beide wat onzekerheid hebben en vaak ook nog steekproef
betrouwbaarheidsinterval berekenen in spss: bootstrap
spearman’s rho (p)
ook voor ordinaal niveau
minder gevoelig voor outliers
geen afstand gehouden met afstand, alleen met rangnummer
berekenen:
- waarden rangschikken
- paren maken en verschil berekenen
- verschil kwadrateren
- optellen (som)
- formule:
1 - (6 x die som: n x (n kwadraat - 1)
kendalls tau
bij veel ties: deze gebruiken
in tegenstelling met spearmans houdt deze wel rekening met ties, terwijl spearmans die als gelijke behandelt. Kendalls tau strenger daarin, maar wel representatiever.
concordant: waar rangordening hetzelfde is
discordant: waar volgorde rangordening omgekeerd is
» berekenen: kijken naar tweede rij. Dan steeds kijken naar volgende nummer: groter=+ en kleiner=-
optellen aantal + = aantal concordent
optellen aantal - = aantal discordent
hierbij alle paren vergeleken en dit bepaalt in hoge mate kendalls tau (c-d)
ook tussen -1 en +1
verschillende versies: noemer
> tau-a
houdt geen rekening met ties
c-d: totaal aantal paren (n(n-1):2)
of: (c-d): c+d=
tau-b
houdt wel rekening met ties
grootte van noemer neemt toe bij meer ties, dus waarde wordt kleiner
(ook wel logisch, want bv alleen maar ties, dan geen variabele maar een contante en dus geen samenhang)
» noemer hierbij: wortel van (C+D+aantal ties x) x (C+D+aantal ties y)
coëfficiënt phi
samenhang tussen twee dichotome variabelen
meestal gebruikt om samenhang te toetsen en niet voor het berekenen
hierbij geen sprake van negatief, want er is geen rangorde
alleen range tussen perfect en geen verband (tussen 1 en 0)
2 x 2, kruistabel (contingency table)
bij grotere tabellen kan de waarde boven de 1 komen
‘scheve’ verdeling in kruistabel kan wijzen op verband
maar: niet zomaar. want rekening houden dat sommige waarden in populatie vaker voorkomen.
én: als de ene categorie scheef verdeeld is, heeft dan invloed op hoe de andere variabele verdeeld is