Korrelation Flashcards
Vad anger ett korrelationsvärde?
- Riktningen samt styrkan i det linjära sambandet mellan två kontinuerliga variabler
- Kan variera mellan -1 och +1. Ett positivt värde betyder att ett högt värde på den ena variabeln tenderar att sammanfalla med ett högt värde på den andra variabeln medan ett negativt värde betyder att ett högt värde på den ena variabeln tenderar att sammanfalla med ett lågt värde på en andra variabeln.
- Ju mer korrelationen avviker från noll, desto starkare är det linjära sambandet mellan de två variablerna, vilket innebär att man utifrån värdet på den ena variabeln med hög precision kan predicera värdet på den andra variabeln.
Vad anger Z-poängen?
Hur många standardavvikelser ett värde avviker från medelvärdet. En positiv Z-poäng betyder att värdet ligger över medelvärdet medan en negativ Z-poäng betyder att värdet ligger under medelvärdet.
Redogör för tredjevariabelproblemet vid tolkning av korrelationer
Korrelation betyder nödvändigtvis inte kausalitet. Med andra ord, när man har hittat en korrelation mellna en BV och en OV så kan man på basen av detta inte utesluta förkomsten av en tredje variabel som orsakar variationen i både den BV och den OV.
Ex: byglängd korrelerar positivt med IQ, men något som är mer sannolikt är att det är en tredje variabel som påverkar både byxlängd och IQ dvs ålder.
Med hjälp av partiell korrelation kan man konstanthålla den bakomliggande variabeln (ex ålder). Ett annat exempel är oljeförbrukning och jackförsälning där temperatur föreligger ligga bakom variationen i båda variablerna. Ett sätt att visa detta på vore att dela in året i 4 grupper och korrelationer. Om temp är bakomliggande variabel kommer dessa 4 korrelationer att bli avsevärt mycket lägre än korrelationen beräknad över hela året. Om korrelationen inte blir mindre så var troligen inte temp en bakomliggande variabel. Dock inte optimalt. Att konstanhålla temp vore det bästa och där kommer partiella korrelationer in i bilden.
Kovarians
är ett mått på samvariationer mellan två variabler och kan ses som en ostandariserad korrelationskoefficient.
- kav vara både positiv och negativ
- medan den vanliga korrelationskoefficienten endast kan anta värden mellan -1 och +1 kan kovariansen anta vilka värden som helst, beroende på vilka enheter man har på sin variabel.
Kravet på en bivariat normalfördelning
att antagande som förutsätts vara uppfyllt då r beräknas och signifikansprövas är att de två variablerna x och y är hämtade från en bivariat normalfördelning.
Den korrigerade korrelationskoefficienten
en liten överraskning - r är fakstiskt inte ett väntesvärdesriktigt estimat av p.
I själva verket ger korrelationen i stickprovet, särskilt vid små stickprov, en liten överskattning av hur stor korrelationen i populationen är.
Räddningen är den korrigerade korrelationskoefficienten (adjusted r)
formel finns
Determinationskoefficienten
Om man kvadrerar korrelationskoefficienten r, får man determinationskoefficienten r^2, som anger proportion förklarad varians.
- genom att kvadrera r
r = 0,7
r^2 = 0.49, det vill säga 49% förklarad varians
Spearman rangkorrelationskoefficient
är lämplig då man vill beräkna korrelationen mellan snedfördelade variabler, särskilt om stickprovet är litet.
- Används vid variabler på ordinalskala (rangordning)
- snedfördelade variabler menas med extramvärden. Pearsons produktmomentkoefficient är känslig för ourliers (påverkas mycket av extremvärden). Därför kan man omvandla kvotskala till ordinalskala (rangtal.
- Om två variabler har samma värde, tas genomsnittliga medelvärdet av omkringliggande rangtal.
- samma formel används vid rang- och produktmomentkoefficient
Korrelationskoefficienten vid “restriction of range”
En korrelation som både är stor och signifikant för hela stickprovet näst intill kan försvinna när man tittar närmare på olika undergrupper ex män/kvinnor, unga/gamla, sjuka/friska.
Boken tar upp exempel om det föreligger något samband mellan intelligens och kreativitet. Tar med författar då hypotesen är att de både är kreativa och intelligenta. Mycket riktigt hamnade de längst upp till höger i punktdiagrammet men vid närmare inzoom finns ingen korrelation bland författare.
Summa summarum: man behöver variation för att upptäcka samvariation. Om man då misstänker att man har en för liten variation i den ena variabeln finns ett sätt att korrigera för detta. Detta förutsätter dock att man har möjlighet att uppskatta ungefär hur begränsad den fördelningen är - uppskattat genom relationen mellan standardavvikelserna för den begränsade och den obegränsade fördelningen.
Formel finns
Partiell korrelation
är ett sambandsmått som tar hänsyn till bakomliggande variabler där man konstanthåller den variabel man tror orsakar variationen i både OV och BV.
ex: IQ och byxlängd korrelerar positivt men ålder kan vara den bakomliggande variabeln.
Formel finns för att ta reda på om så är fallet eller ej. Tredje variabel konstanshålls.
Ex: mjölk och godis (antal barn) tar korrelationen för…
mjölk - antal barn
godis - antal barn
olika samband riktningar
Enkelriktat - ökad längd, ökad vikt
Dubbelriktat - studieresultat och hälsa
Samband med mellanliggande variabel (M) - reklam - löning - konsumtion
Skensamband - orsakat av en bakomliggande variabel (z)
Ålder (z)
byxlängd (x) IQ (y)
oberoende variabel
den variabeln som manipuleras eller betraktas som orsaksvariabel. OV
Betecknas ofta med X
Beroende variabel
den variabel som mäts som en effekt av den oberoende variabeln. BV
betecknas ofta Y