Korrelation & regression Flashcards

1
Q

Bivariat

A

Att man observerar 2 variabler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Korrelation

A

Ett sambandsmått. Finns det någon koppling mellan 2 variabler?

Styrkan i denna koppling mäts med Pearsons r eller Spearmans p

Kan ses som standardiserad samvariation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kovarians

A

Mått på grad av samvariation mellan variabler. Hur påverkas y av en förändring i x?

Kan ses som en ostandardiserad korrelationskoefficient, dvs påverkas av vilka enheter man har i sina mätningar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Varians

A

Sammanfattar mätvärdenas avstånd från medelvärdet.

= summan av alla kvadrerade avvikelser mellan enskilda observationer och deras gemensamma medelvärde, dividerat med antalet observationer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Standardavvikelse

A

Roten ur variansen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Delad varians/andel förklarad varians

A

Den kvadrerade korrelationskoefficienten, r^2

Kallas även determinationskoefficienten

Anger: Andel förklarad varians.

= hur stor andel av variationen (spridningen) i den ena variabeln som kan förklaras av variationen i den andra

Ex. om r=0.70 så är r^2=0.49. Innebär att vi har 49% förklarad varians. Innebär att 49% av spridningen i ena variabeln kan förklaras av den andra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Situationer där korrelationen blir missvisande

A
  • Ej linjärt samband (använd icke-linjär regression i stället)
  • Det finns en outlier. Korrelationen kan bli signfikant positiv fastän det inte stämmer. Ta bort den alt. gör ett icke-parametriskt test i stället
  • Variationsvidden är för begränsad
  • Separata populationer
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Regression

A

En korrelation beskriver hur starkt ett samband är, regression beskriver hur sambandet ser ut.

Med en regressionsanalys får vi fram regressionslinjen, som beskriver hur sambandet ser ut. Den är bra inte bara för att beskriva utan även för att PREDICERA.

Vid regressionsanalys har man vanligtvis data på intervall- eller kvotnivå

regressionslinjen: y = a + bx

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Regressionsanalys - antaganden

A
  • Det ska finnas ett samband och det ska vara linjärt
  • Variansen för Y ska vara homogen
  • Normalfördelade residualer. Y-värdet för varje x-värde bör vara normalfördelade
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Totalvarians, felvarians, förklarad varians

A

Total varians = förklarad varians + felvarians

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Multipel korrelation

A

När vi vill undersöka sambandet mellan en BV och 2 eller fler OBV.

Används inom regressionsanalys för att mäta hur väl en grupp av variabler förutsäger en annan grupp av variabler.

Då använder man den multipla korrelationskoefficienten, R.

R^2 = förklaringsgrad; förklarad/delad varians. Hur stor del av variansen i BV beror på variansen i våra OBV?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

beräkna multipel korrelation

A

addera alla de enskilda korrelationerna i kvadrat. då får vi R^2.

Men man behöver en krångligare formel om prediktorerna (OBV) överlappar med varandra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

partiell korrelation

A

Vid bivariat korrelation kan det finnas problem med inverkan av en tredje variabel. Ex att vi har ett samband mellan studietid och provresultat, men det kan finns bakomliggande faktorer som påverkar sambandet. Ex intelligens som kan antas ha påverkan på både studietid och provresultat.

Mha partiell korrelation kan vi kontrollera för effekten av andra variabler, och därmed isolera korrelationen mellan två variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

semipartiell korrelation

A

utnyttjas vid hierarkisk regression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

hierarkisk regression

A

En regressionsanalys där oberoende variabler läggs till i modellen i flera steg. Detta gör man för att undersöka hur mycket varje variabel bidrar till förklaring av varians i BV.

Genom att lägga till variabler i steg kan man isolera effekten av specifika variabler. Sedan tittar man på om förklaringsgraden ökar mellan olika modeller, i så fall kan man anta att den nya variabeln är betydelsefull i att förklara variansen i BV.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Multipel regression

A

När vi vill undersöka sambandet mellan 1 BV och 2/flera OBV. Att förstå hur förändringar i OBV påverkar BV och att predicera värden på BV utifrån värden i OBV.

Syften:
* Förklaring - att förstå hur (mycket) OBV påverkar BV
* Predicera - förutsäga värden på BV
* Kontrollera - för bakomliggande variabler. Isolera effekten för specifik OBV genom att kontrollera för andra variabler

Man får olika resultat beroende på i vilken ordning man lägger in prediktorerna

Olika typer av multipel regression:
* Standard: Lägg in alla prediktorer samtidigt. Görs när man inte har en modell i bakhuvudet
* Hierarkisk: När man vill testa explicita modeller/hypoteser. Den vanligaste sorten. Lägg in de prediktorer man vill kontrollera för först, sedan den man tror har störst betydelse.

17
Q

Goodness of fit

A

Ett mått på hur väl en statistisk modell passar till våra observerade data. Hur bra fångar modellen datafördelningen? Är modellen tillräckligt bra för att användas för prediktioner?

R^2 = andel förklarad varians vid multipel regression.

R^2 blir automatiskt större när vi lägger in fler prediktorer.

För att kunna jämföra modeller med olika antal prediktorer behöver vi ett mer rättvist mått, och kan då använda adjusted R^2 = justerat R^2 utifrån antal frihetsgrader. Då tar man hänsyn till antal OBV. Kan då jämföra modeller med olika antal OBV.

18
Q

Dummyvariabel

A

När man gör regressionsanalys har man samma skalnivåkrav som vid övriga parametriska metoder.

Men man kan skapa en dummyvariabel för lägre skalnivådata ex kön. Att man sätter en siffra på de olika kategorierna.