Thema 4 - Correlatie Flashcards
Wat is een scatterplot?
Een** scatterplot** of spreidingsdiagram geeft een indruk van de mate waarin twee verschillende variabelen aan elkaar gerelateerd zijn.
Elke deelnemer wordt gerepresenteerd in een stip op het diagram, de meetwaarden (variabelen) van die deelnemer op de X en Y as bepalen de positie van de stip.
Naarmate de punten meer homogeen binnen het X,Y-vlak verspreid liggen is het onwaarschijnlijker dat er een verband bestaat tussen de factoren.
Voor min of meer lineaire relaties is de correlatiecoëfficiënt een wiskundige maat voor een mogelijk verband.
Hoe kan je bepalen of een scatterplot een positief of negatief verband uitdrukt?
Om de bepalen of een scatterplot een positief of een negatief verband afbeeldt, kan het handig zijn om een ellips in te beelden die zo is getekend dat de meeste punten er binnen vallen, of om een lijn te tekenen die zo goed mogelijk door de puntenwolk loopt:
* Positief verband: de stipjes liggen in een wolk of rond een lijn van linksonder naar rechtsboven.
* Negatief verband: de stipjes liggen in een wolk of rond een lijn van linksboven naar rechtsonder.
* Geen verband: stipjes liggen in een ronde wolk en de lijn loopt horizontaal.
Wat is een correlatie?
Correlatie geeft de mate van samenhang tussen twee variabelen weer, oftewel in hoeverre twee variabelen elkaar beïnvloeden.
De correlatie wordt uitgedrukt in de correlatiecoëfficiënt. De
waarde van de correlatiecoëfficiënt ligt altijd tussen -1 en +1:
* Een waarde dicht bij 0 beschrijft de afwezigheid van samenhang
* een waarde dicht bij +1 geeft een positief verband weer
* een waarde dicht bij -1 een negatief verband.
Correlatie duidt slechts op een samenhang en niet op een oorzakelijk verband. Op basis van de correlatiecoëfficiënt is alleen te zeggen of twee
variabelen samenhangen, niet of het één het ander veroorzaakt. Het is ook mogelijk dat een andere variabele beide beïnvloedt.
Wat is Pearson’s r?
Pearson’s r is de meest gebruikte correlatiecoëfficiënt.
Pearson’s r meet lineaire correlatie en kan gebruikt worden wanneer de variabelen op een continue schaal (‘scale’) gemeten worden, bvb gewicht, lengte…
Wat is covariantie?
De covariantie is een maat voor de spreiding die twee datareeksen delen en drukt uit hoeveel variantie twee variabelen x en y met elkaar delen.
Elke variabele deelt 100% van de variantie met zichzelf. Dus de covariantie van x met x is de variantie. De formule voor de variantie en de covariantie zijn dus op zich hetzelfde (de variantie is ‘de covariantie van een variabele met zichzelf’).
Nadeel van deze maat: hij is afhankelijk van de meetschalen waarop de twee variabelen zijn gemeten. –> Dit maakt de covariantie onvergelijkbaar tussen studies.
Oplossing: Deling door de standaarddeviatie leidt tot verwijdering van schaal-informatie. –> Het resulterende getal is dus te vergelijken tussen verschillende studies = correlatiecoëfficient
Hoe dient men een correlatie interpreteren in termen van richting?
Correlatiecoëfficiënten liggen altijd tussen -1 en +1, waarbij:
* 0 staat voor gebrek aan samenhang
* -1 staat voor een perfecte negatieve samenhang
* +1 staat voor een perfecte positieve samenhang
De correlatie drukt het verband tussen 2 variabelen alleen goed uit als de variabelen lineair met elkaar samenhangen. Dit betekent dat het verband tussen de 2 variabelen over de hele schaal van de variabelen even sterk is. De stipjes moeten om een rechte lijn heen hangen.
Als het verband bijvoorbeeld curvilineair is en de stipjes op een gekromde lijn liggen, kan de correlatie het verband niet goed samenvatten. Dat geldt ook voor datareeksen met outliers.
Hoe dient men een correlatie interpreteren in termen van sterkte van het verband?
De correlatie is een maat voor de zogenaamde effectgrootte of effect size. Dit zijn statistische maten die de sterkte van een verband aangeven op een schaal die onafhankelijk is van de gebruikte operationalisaties.
Omdat ze altijd dezelfde schaalverdeling hebben, is het mogelijk om vuistregels te formuleren die kunnen helpen bij het interpreteren van deze correlaties:
* tussen -1 en -0.7 –> zeer sterk negatief
* tussen -0.7 en -0.5 –> sterk negatief
* tussen -0.5 en -0.3 –> middelsterk negatief
* tussen -0.3 en -0.1 –> zwak negatief
* tussen -0.1 en 0.1 –> triviaal
* tussen 0.1 en 0.3 –> zwak positief
* tussen 0.3 en 0.5 –> middelsterk positief
* tussen 0.5 en 0.7 –> sterk positief
* tussen 0.7 en 1 –> zeer sterk positief
Een verband van r = .5 is altijd even sterk, of het nu het verband tussen impulsiviteit en veilig vrijen is of het verband tussen neiging tot nadenken en cijfer op dit onderzoekspracticum.
Bij de interpretatie van de correlatiecoëfficiënt (en dus de effectgrootte) is belangrijk:
* Interpretatie van de samenhang is subjectief en informatie over de aard van de variabelen moet doorslaggevend zijn.
* Het bestaan van correlatie zegt niets causaliteit.
* Correlaties zijn altijd puntschattingen obv steekproeven. Correlaties kunnen dus verschillen per steekproef en zeggen nog niets over de populatie waarin we eigenlijk geïnteresseerd zijn.
Waarom zegt een correlatie niets over causaliteit?
Correlatie impliceert geen causaliteit (een verandering in de ene variabele een verandering in de andere variabele veroorzaakt).
Dit gezegde gaat in tegen de intuïtie van veel mensen dat als twee variabelen gecorreleerd zijn, dit komt doordat de ene variabele de andere beïnvloedt of
andersom. Maar dat is maar zelden echt het geval.
Beschrijf: elke steekproefcorrelatie komt uit een steekproevenverdeling
De correlatie is een maat voor hoe sterk 2 variabelen samenhangen. Maar een puntschatting is deels door toeval tot stand gekomen. In elke steekproef is elke puntschatting weer net wat anders en in een kleine steekproef kan de correlatie in de populatie zelfs heel ver van de steekproefcorrelatie afliggen.
–> De oplossing hiervoor is altijd hetzelfde: betrouwbaarheidsintervallen berekenen op basis van de steekproevenverdeling.
Correlatie: steekproevenverdeling van Pearson’s R.
De steekproevenverdeling is te beschouwen als de verdeling die we zouden krijgen als we onze steekproef oneindig vaak zouden herhalen, telkens de correlatie zouden berekenen en die correlaties zouden combineren in 1 verdeling. De steekproevenverdeling bevat dus per definitie alle mogelijke
correlaties die we zouden kunnen vinden.
De correlatie kan nooit buiten het interval van -1 tot 1 liggen. Als de populatiecorrelatie dichter bij -1of 1 ligt, is de kans dat door toeval de steekproefcorrelatie nog dichter bij 1 of -1 ligt een stuk kleiner dan dat de steekproefcorrelatie dichter bij 0 ligt. –> Daarom wordt de steekproevenverdeling asymmetrisch naarmate de populatiecorrelatie dichter in de buurt van -1 of 1 komt.
Hoe verandert de steekproevenverdeling als een steekproef groter wordt?
- Hoe kleiner de steekproef, hoe breder de steekproevenverdeling is. De steekproefcorrelaties, die namelijk uit deze steekproevenverdeling komen, liggen bij kleine steekproeven soms nog relatief ver van de populatiecorrelatie af.
- Als de steekproeven groter zijn, wordt de steekproevenverdeling smaller. Dit betekent dat de correlatie die in een willekeurige steekproef gevonden wordt vaker dichtbij de populatiecorrelatie ligt. Bij een steekproef van 500 deelnemers zijn forse afwijkingen al heel zeldzaam.
Waarom zijn puntschattingen voor correlaties uit kleine steekproeven weinig
informatief?
Steekproevenverdeling wordt steeds meer symmetrisch naarmate de steekproefomvang stijgt.
Kans op sterk afwijkende correlaties bij kleine steekproeven (100 of minder) is erg groot.
Wat is een betrouwbaarheidsinterval voor een correlatiecoëfficiënt?
De correlatiecoëfficiënt: drukt uit hoe sterk 2 continue variabelen – dus minimaal interval niveau – met elkaar samenhangen. Ook wel correlatie of Pearson’s R. Correlaties kunnen (bijna) nooit conclusies maken over de causaliteit tussen 2 variabelen (onthoud dit zeker bij vragen op het
examen).
Puntschattingen zijn op zichzelf weinig informatief, omdat ze allemaal verschillen van de populatiewaarde. Betrouwbaarheidsintervallen geven een indicatie van hoe accuraat de puntschattingen zijn en maken het daardoor mogelijk om op basis van steekproeven uitspraken te doen over populatiewaarden.
Betrouwbaarheidsintervallen hebben een betrouwbaarheid. Deze betrouwbaarheid geeft aan hoe vaak de corresponderende populatiewaarde in het interval zal liggen als de steekproef oneindig vaak herhaald zal worden.
- 100% betrouwbaarheidsinterval: bevat altijd de populatiewaarde en is daarom oneindig breed.
- 0% betrouwbaarheidsinterval: bevat nooit de populatiewaarde en heeft daarom een breedte van 0
- 95% betrouwbaarheidsinterval: als er 100 studies worden uitgevoerd, zal in 95% van die studies de populatiewaarde in dit betrouwbaarheidsinterval liggen.
Meestal 95% van de populatie valt binnen de betrouwbaarheidsinterval.
Formule betrouwbaarheidsinterval: steekproefwaarde +/- breedte index x standaardfout
- Steekproefwaarde: wat uit je steekproef komt
- Breedte index: hangt af van vorm steekproefverdeling en betrouwbaarheid van het interval.
Meestal 95% betrouwbaarheidsinterval. Breedte index = 1.96 (afgerond 2)
- Standaardfout: standaarddeviatie van een steekproevenverdeling
Met de betrouwbaarheidsintervallen voor correlaties kunnen we dus eigenlijk iets zeggen over het verband tussen 2 variabelen. Maar 1 studie is geen studie. Er kunnen verstorende factoren zijn geweest, dus ook dit betrouwbaarheidsinterval uit een willekeurige steekproef kan zomaar naast de populatiewaarde liggen. Om echt uitspraken te kunnen doen, is het nodig om meerdere studies te combineren.
Meta analyses
Literatuurstudies waarbij uitkomsten uit meerdere studies gecombineerd worden, om op die manier hele nauwkeurige betrouwbaarheidsintervallen te kunnen berekenen.
Meta analyses zijn uiteindelijk de manier waarop onderzoeksvragen beantwoord worden.
Omdat puntschattingen geen informatie bevatten over hoe accuraat ze zijn worden deze gecombineerd met zogenaamde p-waarden.
Wat is de P-waarde?
P=Propability.
De kans op gevonden resultaat indien nulhypothese juist is. Op basis van de p-waarde besluiten nulhypothese verwerpen of niet.
Meestal significantieniveau van 0,05.
Hoe worden P-waarden berekend?
Voordat je de p-waarde kunt bepalen, moet je bepalen welke aanname je wilt verwerpen = de nulhypothese.
Daarnaast kies je een significantieniveau, meestal 0,05.
Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de
nulhypothese waar is.
Als de p-waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het
resultaat van de toets statistisch significant is.
Tegenover de nulhypothese staat de alternatieve hypothese. Wanneer je de nulhypothese kunt verwerpen, is de alternatieve hypothese de conclusie die je trekt.
De p-waarde is gedefinieerd als de kans dat in de verdeling die volgt uit de nulhypothese, de waarde van de steekproefuitkomst wordt behaald of overschreden. Als deze kans klein genoeg is (kleiner dan het significantieniveau), is de uitkomst extreem en kun je de nulhypothese verwerpen.