Föreläsning 2 - Korrelation och Regression Flashcards
Bivariat korrelation
Samband mellan två variabler (t.ex. längd och vikt). Ingen aktiv åtgärd utan deltagare observeras under rådande förutsättningar. Förutsätter linjärt samband. Hur stark kopplingen är mäts i Pearson’s r (eller Spearman’s rho)
Varians
Variation runt medelvärdet. Konceptualiseras som medelkvadratens yta, dvs standardavvikelsen i kvadrat.
Kovarians
Mått på grad av samvariation mellan variabler, ett sambandsmått. Är en viktig komponent vid uträkning av korrelation som är ett bättre sambandsmått. Handlar om samvariation mellan datapunkter på x och y axlarna.
Problem med kovarians
Påverkas av måttenheter. Olika kovariansmått är ej jämförbara. Därför vill man göra om det till korrelationer (Pearsons r).
Delad varians
Andel förklarad varians. Utgörs av den kvadrerade korrelationskoefficienten. Anger hur stor del av variationen i den ena variabeln som kan förklaras av variationen i den andra variabeln. Kan illustreras med venndiagram.
Meehl’s 6th law
Allting korrelerar i någon grad med allt annat. Om tillräckligt stora stickprovsstorlekar finns alltid en korrelation.
Enkel regression
Vill kunna predicera något. Har en prediktor och en kriterievariabel. Regression visar HUR sambandet ser ut. Tillåter prediktion via regressionsekvationen. Två antaganden bör vara uppfyllda:
- Homoscedasticitet (variansen för y är homogen, dvs spridningen för y är ungefär lika stor för varje x).
- Approximativt normalfördelade residualer (y-värdena för varje x-värde bör vara normalfördelade).
Multipel korrelation (R):
R används då vi har fler än 2 variabler. R uttrycker den sammanlagda korrelationen mellan prediktorvariablerna P1, P2 och kriterievariabeln K. När R kvadreras får vi den delade variansen.
Partiell korrelation
Behövs för att kontrollera för andra variablers inverkan på ett bivariat samband. Justerar bort en variabels (z) påverkan på de BÅDA övriga två (x och y).
Semipartiell korrelation
Likt partiell korrelation men Zs påverkan har justerats bort vad gäller ENBART X. Dvs den delade variansen mellan X och Z partialiseras bort. Utnyttjas i hierarkisk regression.
Multipel regression:
Tillhör gruppen multivariata metoder. Då flera prediktorer (OBV) antas påverka en kriterievariabel. Spelar roll vilken ordning man lägger in prediktorer, ger olika resultat.
R^2 och adjusted R^2
R^2 beskriver andelen förklarad varians vid multipel regression. R^2 ökar automatiskt med antalet prediktorer. Adjusted R^2 kompenserar för antalet prediktorer, tillåter mer rättvis jämförelse mellan metoder.
Vanliga metoder vid multipel regression:
- Standard multipel regression:
o Alla prediktorer läggs in samtidigt
o Används för att förklara så mycket varians i data som möjligt. - Hierarkisk multipel regression:
o Metod för modelljämförelse, möjligt att testa explicita modeller/hypoteser
o Din modell bestämmer vilken ordning du lägger in prediktorerna i regressionsanalysen
o Sekvensen är bestämd av prediktorernas inbördes hierarki enl. dig.
o Ekvivalent med semi-partiella korrelationer. De predikorer du vill kontrollera för läggs in först (t.ex. sådant man känner till sedan innan från tidigare forskning) - Forward regression
o Datorn lägger sekventiellt till en prediktor i taget. - Backward regression
o Datorn börjar med alla prediktorer, tar sedan bort den sekventiellt en och en.
o Den som förklarar minst varians plockas bort i varje steg. - Stepwise regression
o Kombination av backward och forward.
Att se upp med då datorn väljer (multipel regression)
- Kontroversiellt pga maximalt utnyttjande av rådande samband, risk för overfitting, dvs att resultatet ej kan replikeras med nytt stickprov.
- Rekomenderar att göra korsvalidering med ett nytt stickprov.
- Kan vara bra i explorativt syfte – hitta nya hypoteser och utesluta onödiga OBV.
Andra former av regression
- Polynomregression: då punkterna ej ligger längs en rät linje
- Logistisk regression: Vid kategorisk beorende variabel.