Thema 4 - steekproevenverdeling Pearson's r / 4.3 - 4.4 - 4.5 Flashcards
wat betekent een correlatie? En hoe hangt dit samen met de steekproevenverdeling van Pearson’s r?
-> de correlatie is een maat voor de samenhang tussen twee variabelen
-> de correlatie wordt berekend op basis van een steekproef + in elke steekproef is de puntschatting voor de correlatie net iets anders
-> net als andere puntschattingen geldt dat een correlatie weinig zegt als we niet weten hoe accuraat die schatting is
-> oplossing: betrouwbaarheidsintervallen berekenen op basis van de steekproevenverdeling
=> voor correlatie gebruiken we de steekproevenverdeling van Pearson’s r
wat bevat het steekproevengemiddelde van het gemiddelde?
idem voor de correlatie?
=> het steekproevengemiddelde van het gemiddelde bevat alle mogelijke gemiddelden die je in een steekproef van een gegeven omvang kan vinden
=> het steekproevengemiddelde van de correlatie bevat alle correlaties die je in een steekproef van een gegeven omvang kan vinden
! die steekproeven verdeling is afhankelijk van de populatiecorrelatie en het aantal datapunten (de steekproefomvang) –> dus de steekproevenverdeling kan alleen opgesteld worden met behulp van de aanname van de betreffende waarde in de populatie!
! - steekproevenverdeling van de correlatie kan nooit buiten het interval -1 en 1 liggen !!
! - steekproevenverdeling van de correlatie wordt asymmetrisch naarmate de populatiecorrelatie dichter bij -1 of 1 komt
wat gebeurt er met de steekproevenverdeling als de populatiecorrelatie dichter bij -1 of 1 ligt?
- de steekproevenverdeling wordt asymmetrisch naarmate de populatiecorrelatie dichter bij -1 of 1 komt
- de steekproevenverdeling van de correlatie kan van vorm veranderen afhankelijk van de grootte van de populatiecorrelatie
–> ook hier is de breedte van de verdeling afhankelijk van de standaardfout en dus van de steekproefomvang
waarom is er een betrouwbaarheidsinterval nodig van een correlatie?
- omdat een correlatie berekend wordt uit de data verkregen met een steekproef -> dan is de puntschatting onderhevig aan toeval en dus anders van steekproef tot steekproef
- om op een efficiënte manier een indicatie te geven van de accuraatheid van de correlatieschatting wordt het betrouwbaarheidsinterval gebruikt
- een betrouwbaarheidsinterval kan berekend worden met de gegevens uit een steekproef en omvat, voor een gegeven percentage vd steekproeven, de geschatte populatiewaarde
- bij BI 95% zal dus in 95% vd steekproeven de populatiecorrelatie in het BI van de steekproeven liggen
- ++++ de steekproevenverdeling van correlaties is NIET SYMMETRISCH ==> via standaardfout van Pearson’s r
omdat steekproevenverdelingen vaak normaal verdeeld zijn, kan het BI berekend worden door een bepaalde symmetrische onzekerheidsmarge om de puntschatting van de steekproef te leggen
wat is de proportie verklaarde variantie?
- het kwadraat van de correlatiecoëfficiënt is de proportie verklaarde variantie -> het percentage variantie in de ene variabele die verklaard wordt door de andere variabele
- ! dit is geen causale verklaring, het betekent alleen dat de variabelen dezelfde informatie leveren
wat is het algemene belang van het berekenen van betrouwbaarheidsintervallen?
- Alle steekproefwaarden die met de datapunten in een steekproef worden berekend, zijn deels door toeval tot stand gekomen. Deze puntschattingen zijn daarom op zichzelf weinig informatief.
- Betrouwbaarheidsintervallen geven een indicatie van hoe accuraat de puntschattingen zijn en maken het daardoor mogelijk om op basis van steekproeven uitspraken te doen over populatiewaarden.
- Betrouwbaarheidsintervallen hebben een betrouwbaarheid. Deze betrouwbaarheid geeft aan hoe vaak de corresponderende populatiewaarde in het interval zal liggen als de steekproef oneindig vaak herhaald zou worden.
- Voor 95% -betrouwbaarheidsintervallen geldt dat, als er 100 studies worden uitgevoerd, in 95 van die 100 studies de populatiewaarde in dit betrouwbaarheidsinterval zal liggen. Het betrouwbaarheidsinterval ligt altijd om de puntschatting uit de steekproef heen.
geef de algemene formule voor een betrouwbaarheidsinterval
BI = gemiddelde +/- breedte-index x standaardfout
breedte-index -> 0,68 / 1,98 / 2,58
waarmee moeten we rekening houden bij de BI voor correlaties?
- de steekproevenverdeling voor correlaties is niet symmetrisch -> zulk een formule zou alleen correct zijn voor correlaties die dicht bij 0 liggen of wanneer de steekproefomvang heel groot is
- met de BI van correlaties kunnen we eindelijk iets zeggen over het verband tussen twee variabelen in de populatie
- maar één studie is geen studie -> want het BI uit een willekeurige steekproef kan zomaar naast het populatiecorrelatie liggen
- ## voor echte uitspraken zijn er meta-analyses nodig -> op zo heel nauwe BI te berekenen
wat kunnen we besluiten op basis van de vergelijking van enkel de correlaties van steekproeven?
- correlaties uit de steekproeven zijn enkel puntschattingen -> we kunnen hiermee niets zeggen over de populatie
- een steekproef is een middel om iets te kunnen zeggen over de populatie en daarvoor hebben we de BI nodig!!
in welke mate kan je op basis van correlaties een uitspraak doen over causaliteit?
- Je kunt geen conclusies trekken over de invloed van de ene variabele op de andere op basis van correlaties.
- uitspraken kunnen op basis van correlaties geen suggestie doen over causaliteit (oorzaak-gevolg relatie)
- voor causale uitspraken moeten experimenten worden opgezet
- waarvoor wordt een NHST (nulhypothese significantie toetsing) gebruikt?
- en wat drukt de NHST uit?
- dat is een andere methode dan de BI over de accuraatheid van de puntschatting
- de NHST drukt uit wat je verwacht te vinden als de theoretische voorspelling niet klopt -> de nulhypothese beschrijft dan dat er in een situatie GEEN verband is -> als correlaties worden onderzocht is bij de nulhypothese r = 0, oftewel de twee variabelen hangen niet met elkaar samen
wat is de p-waarde?
- de p-waarde is de kans op een gegeven puntschatting als die uit een gegeven steekproevenverdeling afkomstig zou zijn
- de p-waarde is de kans op een gegeven puntschatting of een extremere waarde terwijl er in de populaite geen effect is voor wat je onderzoekt. Met extreme waarde wordt bedoeld een waarde die verder van de nulhypothese afligt
- als de nulhypothese waar is (en je berekent de p-waarde altijd onder de aanname dat dat zo is), dan zijn alle afwijkingen van r=0 altijd een gevolg van toeval
- de p-waarde kunnen we alleen uitrekenen onder de aanname dat de nulhypothese waar is. De populatiewaarde van de de correlatie is dan gelijk aan de waarde van de correlatie volgens de nulhypothese: r=0 !
wat houdt de nulhypothese-significantietoetsingsprocedure in?
- de nulhypothese-significantiethoetsingsprocedure houdt in dat de gevonden p-waarde wordt vergeleken met een vooral bepaalde grenswaarde –> deze grenswaarde wordt alpha genoemde = de kritische p-waarde of het significantieniveau
- de logica is de volgende: als de p-waarde van de puntschatting uit de steekproef erg klein is (p< alpha), dan zou het wel héél toevallig zijn dat deze puntschatting gevonden wordt onder de aannames op basis waarvan de nulhypothese-steekproevenverdeling is geconstrueerd. Zo toevallig dat één van de aannames niet klopt:
—> eerste aanname = betreft de waarde van de populatie, volgens de nulhypothese r=0
—> tweede aanname = betreft de breedte en de vorm vd verdeling -> volgt uit de steekproefomvang (n)
=> n (steekproefomvang) is gegeven => dus enige fout is de waarde van de correlatie in de populatie => die dan r is niet gelijk aan 0
de gekozen alpha-waarde (de waarde waaronder p-waarde moet liggen om de nulhypothese te verwerpen) staat centraal ==> wanneer p<alpha noemen we de uitkomsten statistisch significant (met hoge alpha verwerp je de nulhypothese makkelijk) - - - gangbare alpha .05