Thema 4. Correlatie Flashcards
Alpha:
in de nulhypothese-significantietoetsing is alpha, oftewel het significantieniveau, de kritieke p-waarde. Dit betekent dat als de kans op een gegeven uitkomst onder de aanname van de nulhypothese (dat is, de p-waarde) lager is dan deze alpha, de nulhypothese wordt verworpen. De conventie is om een alpha van .05 (oftewel 5%) te hanteren, maar onderzoekers kiezen deze zelf voordat ze de studie uitvoeren en zijn vrij om een andere waarde te kiezen als ze dit kunnen onderbouwen.
Correlatieanalyse
: de analysetechniek waarmee de correlatiecoëfficiënt wordt berekend.
Correlatie, correlaties, correlatiecoëfficiënt:
een maat voor samenhang tussen twee continue variabelen. Als over correlatie in het algemeen wordt gesproken, wordt meestal Pearson’s correlatie bedoeld, gesymboliseerd door r, en berekend door de covariantie van twee variabelen te delen door het product van hun standaarddeviaties. Omdat de standaarddeviaties afhankelijk zijn van de schaal waarop een variabele is gemeten, wordt de covariantie hierdoor gecorrigeerd voor de schaal waarop beide variabelen zijn gemeten. De correlatie loopt daarom altijd van -1 (een volledig negatief verband) via 0 (volledige onafhankelijkheid) naar 1 (een volledig positief verband). Het kwadraat van de correlatie geeft weer hoeveel procent van elkaars variantie de twee variabelen delen. Een correlatie van .40 correspondeert dus met een middelsterk effect, waarbij de variabelen 16% van elkaars variantie verklaren (.402=.16). De variantie van elke variabele is dan ongeveer zes keer zo groot als de covariantie (de gedeelde variantie). De correlatie is ook een effectmaat met de volgende tentatieve kwalitatieve labels:
triviaal: tussen −.10 en .10
klein / zwak: tussen −.10 en −.30 of tussen .10 en .30
middelgroot / middelsterk: tussen −.30 en −.50 of tussen .30 en .50
groot / sterk: tussen −.50 en −.70 of tussen .50 en .70
zeer groot / zeer sterk: kleiner dan −.70 of groter dan .70
Correlatiematrix:
Een tabel met in de rijen en kolommen variabelen en in de cellen de correlatie tussen die twee variabelen. Correlatiematrices zijn vaak symmetrisch, met dezelfde variabelen in de rijen en de kolommen.
Covariantie:
covariantie is dat deel van de variantie dat een variabele deelt met een andere variabele. De covariantie kan gestandaardiseerd worden door deze te delen door het product van de standaarddeviaties van beide variabelen. Hiermee wordt gecorrigeerd voor de meetschalen van beide variabelen, waardoor de resulterende gestandaardiseerde covariantie te vergelijken is tussen studies. Dit heet de correlatie.
Curvilineair:
als twee variabelen een curvilineair verband vertonen, is de toe- of afname in de ene variabele wel systematisch, maar niet evenredig afhankelijk van de toe- of afname in de andere variabele. Als twee variabelen wel samenhangen, maar geen lineair verband vertonen, is er vaak sprake van een curvilineair verband. Exponentiële verbanden zijn bijvoorbeeld curvilineair.
Effect:
een effect is een verband tussen variabelen. Afhankelijk van de context kan de implicatie zijn dat dat verband causaal is of niet. In de context van statistische analyses is een effect van x op y simpelweg het verband tussen x en y waarbij impliciet is dat x de onafhankelijke variabele is en y de afhankelijke variabele. Hierbij wordt dus niet geïmpliceerd dat een eventueel verband (effect) causaal is. Buiten de statistische context wordt met de term ‘effect’ wel vaak een causaal verband bedoeld. Als dan gesteld wordt dat x een effect heeft op y, dan wordt gesteld dat als x verandert, daardoor y ook verandert.
Effectmaat
: een maat die de sterkte van het verband tussen twee variabelen, oftewel de effectgrootte, uitdrukt. In deze cursus worden de effectmaten Pearson’s r, Cohen’s d en ω2 (omega2) besproken. Bovendien wordt η2 (eta2) besproken en afgeraden.
Lineair:
als twee variabelen lineair samenhangen, is toe- of afname in de ene variabele evenredig aan toe- of afname in de andere variabele. Als twee variabelen wel samenhangen, maar geen lineair verband vertonen, is er vaak sprake van een curvilineair verband. Exponentiële verbanden zijn bijvoorbeeld curvilineair.
Multiple testing:
als er meer dan één verband wordt geschat, neemt de kans op type 1-fouten toe. Binnen de nulhypothese-significantietoetsing (NHST) worden p-waarden berekend en wordt besloten of variabelen samenhangen op basis van die p-waarden. De kans op minimaal één type 1-fout kan berekend worden met de volgende formule:
Pminimaal 1 type 1-fout=1−(1−α)k
waarbij α staat voor het significantieniveau en k voor het aantal p-waarden dat wordt berekend. Als er dus bijvoorbeeld in een onderzoek 28 p-waarden worden berekend en er wordt het standaard significantieniveau van .05 gehanteerd, dan is de kans op minimaal één type 1-fout gelijk aan 1−(1−.05)28, oftewel 76%. Dit is praktisch een garantie dat er minimaal één fout wordt gemaakt. Om die reden moet in de poweranalyses rekening gehouden worden met het aantal verbanden dat berekend gaat worden om deze negatieve gevolgen van multiple testing tegen te gaan.
Nulhypothese:
de hypothese, ook wel H0, die in NHST wordt getoetst. Deze betreft bijna altijd de hypothese dat er geen verband is, oftewel dat de effectgrootte gelijk is aan 0. Bijvoorbeeld: de correlatie in de populatie is 0; het verschil tussen twee gemiddelden is 0 in de populatie; de varianties van de drie groepen zijn in de populatie aan elkaar gelijk.
Nulhypothese-significantietoetsing:
vroeger werden in de psychologie en onderwijswetenschappen onderzoeksvragen en hypothesen enkel beantwoord door middel van nulhypothese-significantietoetsing, waarbij dichotome beslissingen worden genomen op basis van p-waarden. Tegenwoordig is bekend dat er meerdere problemen zijn met deze aanpak, waardoor de nadruk is verschoven naar de schatting van effectgroottes
Stappen voor procedure van NHST
- stel Alpha vast (bijvoorbeeld 0,05)
- Neem een steekproef van een gegeven omvang (n), meet de betreffende variabelen en bereken de correlatie.
- Construeer op basis van de nulhypothese (r=0) en de steekproefomvang (n) de steekproevenverdeling van Pearson’s R volgens de nulhypothese.
- Bereken de p-waarde, oftewel: de proportie van de steekproevenverdeling die correlaties betreft die even extreem of extremer zijn dan de correlatie die in de steekproef in stap 1 is gevonden.
- Vergelijk deze p-waarde met de gekozen waarde van de alpha. Als de gevonden p-waarde lager is dan alpha, verwerp dan de nulhypothese. Dit betekent dat er wordt geconcludeerd dat de twee variabelen samenhangen.
Als de gevonden p-waarde hoger is dan alpha, behoud dan de nulhypothese. Dit betekent dat er wordt geconcludeerd dat de twee variabelen niet samenhangen.
p-waarde:
de p-waarde is de kans dat een verband wordt gevonden dat minstens zo sterk is als het verband dat in een gegeven steekproef is gevonden, uitgaande van de aanname dat er in de populatie geen verband bestaat – dus onder aanname van de nulhypothese).
Pearson’s r:
deze lineaire correlatiecoëfficiënt, vaak gewoon ‘correlatie’ genoemd, is een effectmaat die het verband tussen twee continue variabelen weergeeft. Een correlatie kan een waarde tussen de −1 en de 1 hebben, waarbij een correlatie van 0 staat voor volledige onafhankelijkheid, en −1 en 1 voor volledige negatieve, respectievelijk positieve, afhankelijkheid/samenhang. De volgende tentatieve kwalitatieve labels worden gebruikt om de correlatie te duiden:
triviaal: tussen −.10 en .10
klein / zwak: tussen −.10 en −.30 of tussen .10 en .30
middelgroot / middelsterk: tussen −.30 en −.50 of tussen .30 en .50
groot / sterk: tussen −.50 en −.70 of tussen .50 en .70
zeer groot / zeer sterk: kleiner dan −.70 of groter dan .70