Thema 4 - correlatie / 4.1 - 4.2 Flashcards
- waarover geeft een scatterplot informatie?
- wat hebben we nodig om op basis van een steekproef iets te zeggen over de populatie?
- een scatterplot geeft inzicht over de data uit een steekproef, maar het is moeilijk om hiermee iets te zeggen over de populatie -> daarvoor hebben we de steekproevenverdeling nodig
- steekproevenverdeling kunnen we genereren voor getallen maar niet voor plaatjes -> dus we moeten de scatterplot samenvatten in een getal -> correlatiecoëfficiënt!
wat representeert een staaf in een histogram?
elke staaf in een histogram representeert het aantal onderzoekseenheden met een bepaalde score -> de staven staan voor groepen onderzoekseenheden
wat representeert een stipje in een scatterplot?
- elk stipje representeert een onderzoekseenheid op basis van twee meetwaarden van die onderzoekseenheid op een variabele op de x-as en op een variabele op de y-as
wanneer is er in een scatterplot sprake van een positief verband?
een positief verband betekent dat naarmate de waarde van een variabele op de x-as toeneemt of afneemt, de waarde van de variabele op de y-as ook toeneemt of afneemt
wanneer is er in een scatterplot sprake van een negatief verband?
bij een negatief verband geldt dat de onderzoekseenheden die hoger scoren op de variabele op de x-as juist lager scoren op de y-as en andersom
hoe bepaal je of een scatterplot een positief of een negatief verband vertoont?
-> als je een ellips kan inbeelden die zo getekend is dat de meeste punten erbinnen vallen
- als een scatterplot een positief verband uitdrukt, liggen de stipjes grofweg in een wolk of rondom een lijn, die van linksonder naar rechtsboven loopt
- als een scatterplot een negatief verband uitdrukt, liggen de stipjes grofweg in een wolk of rondom een lijn, die van linksboven naar rechtsonder loopt
wat drukt een correlatiecoëfficiënt uit?
(ook genoemd correlatie of Pearson’s r)
een correlatiecoëfficiënt drukt uit hoe sterk twee continue variabelen (dus minimaal van intervalniveau) met elkaar samenhangen
welk punt in een scatterplot heeft meer invloed op het verband tussen twee variabelen?
- een punt dat verder afligt van het gemiddelde heeft meer invloed op het verband tussen twee variabelen dan punten die dichter bij het gemiddelde liggen
- => dus als we van elke onderzoekseenheid bepalen hoe ver de twee datapunten ieder van het gemiddelde van de betreffende datareeks afliggen -> door van elk datapunt het gemiddelde af te trekken -> dan krijgen we de afwijkingen per datapunt
hoe beïnvloeden onderzoekseenheden de positieve of negatieve verbanden tussen de twee variabelen?
- onderzoekseenheden met grote positieve afwijkingen op beide variabelen, of juist grote negatieve afwijkingen op beide variabelen dragen bij tot een POSITIEF verband tussen deze twee variabelen…
- maar een positieve afwijking op één variabele en een negatieve afwijking op de andere variabele (of vice versa) draagt bij aan een NEGATIEF verband tussen twee variabelen
wat is covariantie?
en wat drukt de covariantie uit?
= de som van het product van de afwijkingen van het gemiddelde** gedeeld door het aantal vrijheidsgraden** (n-1)
= de covariantie is een maat voor de spreiding die twee datareeksen delen -> de covariantie wordt op dezelfde manier berekend als de variantie
–> de covariantie drukt uit hoeveel variantie de twee variabelen x en y met elkaar delen
- (! een variabele deelt 100% van de variantie met zichzelf) - MS = mean of squares = variantie van x
de variantie is ‘de covariantie van een variabele’ met zichzelf
wat is een nadeel van covariantie?
- hoewel de covariantie handig uitdrukt hoe sterk variabelen samenhangen (covariëren) is een nadeel dat deze maat afhankelijk is van de meetschalen waarop de twee variabelen gemeten zijn.
- => of anders gezegd ‘de hoogte van de covariantie hangt af van de schaalverdelingen van de gekozen meetinstrumenten’ -> dus maakt dit de covariantie onvergelijkbaar tussen studies!
hoe kunnen we de schaalafhankelijkheid van de covariantie elimineren?
- oplossen door te delen door de standaardeviatie
- bij standaardisering van scores wordt van elk datapunt het gemiddelde afgetrokken, waarna het verschil wordt gedeeld door de standaarddeviatie
==> de nieuwe reeks datapunten heeft dan een gestandaardiseerde schaal, waarbij het gemiddelde 0 is en 1 staat voor 1 standaardeviatie
=> dit principe toepassen op de covariatie door de covariatie te delen door de standaardeviaties
! het resultaat is de correlatiecoëfficiënt r
voluit heet dit getal: Pearson product-moment correlatiecoëfficiënt -< r
wat drukkken correlatiecoëfficiënten uit?
- correlatiecoëfficiënten drukken uit hoe sterk twee continue variabelen samenhangen en liggen altijd tussen -1 en +1 waarbij 0 staat voor geen verband, -1 voor een negatieve samenhang en +1 voor een positieve samenhang
- als er een perfecte samenhang is dan liggen de punten in een scatterplot op een rechte lijn
- als er geen samenhang is dan vormen de punten in een scatterplot een wolk
! de correlatie drukt het verband tussen twee variabelen alleen goed uit als de variabelen LINEAIR met elkaar samenhangen ! => dwz dat het verband tussen de 2 variabelen over de hele schaal van de variabelen EVEN STERK is.!!
wanneer kunnen correlatiecoëfficiënten het verband NIET goed uitdrukken ?
- als het verband CURVILINEAIR is en de stipjes op een gekromde lijn liggen
- ook bij datareeksen met outliers
wat is een effectmaat?
- een groep statistische maten die aangeeft hoe sterk een verband is ope een schaalverdeling onafhankelijk van de gebruikte operationalisaties
- de sterkte van het verband word de effectgrootte of effect size genoemd