korrelasjon og regresjon Flashcards

1
Q

Hva er konfidensintervall?

A

: En rekkevidde av verdier rundt en testobservator som er antatt å inneholde, i x % av utvalgene, den sanne verdien til observatoren.
kan si oss noe om nøyaktighet

  • Høres det kjent ut? * Signifikansnivået er andelen type I-feil vi godtar på lang sikt.
  • 95 % CI = signifikansnivå på .05.
  • Signifikansverdien er én verdi. Konfidensintervallet er en rekkevidde som inkluderer alle verdier mellom endepunktene.
  • Konfidensintervallet er «mer ærlig» fordi det anerkjenner variasjonen i estimatet vårt.

Bruksområder
* Konfidensintervaller kan brukes som et alternativ til p-verdier
* Konfidensintervaller indikerer usikkerheten i estimatet
* r = 0.74, p < .001
* Eller * r = 0.74, 95% CI[0.51, 0.86]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er korrelasjon?

A

Sammenhengen mellom to eller flere kontinuerlige variabler

  • Korrelasjon er egentlig bare regresjon
  • Korrelasjonsanalysen gir oss et tall, en koeffisient, som representerer sammenhengen. Dette er korrelasjonskoeffisienten, som er testobservatoren til korrelasjonsanalysen
  • Hva er verdien av y, gitt x?
    y = ax + c + FEIL
    a = stigningstall = korrelasjon
    c= skjæringspunkt/startpunkt v x = 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er eksempler på korrelasjonskoeffisienter og hva sier de?

A
  • Pearsons produkt-moment korrelasjonskoeffisient, r.
  • Spearmans rekkefølgekorrelasjonskoeffisient, ⍴ * Går fra ±1 til 0
  • 1: Perfekt sammenheng
  • 0: Ingen sammenheng
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Kom med et eksempel på hvordan man kan rapprotere pearsons r?

A

Det var en signifikant, positiv sammenheng mellom klokkenes alder og pris, r(30) = .73, p < .001

der n=32. husk kursiv r og p.

r([df]) = [r], p = [p] df = n – (antall variabler i analysen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

HVordan finner man signifikans i en korrelasjonsanalyse?

A

r regnes om til en t
kan sammenligne t med t-fordeling
gir signigikansnivå

t= r * sqrt(N-2)/sqrt(1-r^2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

hva kan forklare en korrelasjon?

A
  • En faktisk årsak (kausalitet)
  • Tilfeldigheter (spuriøs korrelasjon)
  • Omvendt kausalitet
  • Tredje variabel
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva er partiell korrelasjon?

A

Modellert med mer enn to variabler

y = a1x1 + a2x2 + … + anxn + c + E

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er regresjonskoeffisienter?

A

Regresjonskoeffisienter: Testobservatoren til regresjonsanalysen

Altså stigningstallet

Finnes under coefficents-tabell i JASP under Unstandardized for M0, M1 osv.

I regresjon kaller vi ofte de uavhengige variablene for prediktorer, og den avhengige variabelen for utfallet (merk at dette impliserer kausalitet)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er GLM og hvordan kommer man frem til den?

A

Y_i =b_0 + b_1X_1i + E_i
= den generelle lineære modellen

Linja kommer man fram til ved en algoritme som kalles ordinary least squares (OLS). Den finner linja som skaper minst residualer

altså minst kvadrater mellom punkter og linja

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

hvor finner man om de ulike relevante resultatene for enkel GLM regresjon i JASP med to variabler?

A

Under koeffisient tabell:
b_0 = c = skjæringspunkt = kolonne unstandardized, rad M1, intercept

b_1 = a1 = stigningstall = kolonne unstandardized, rad M1, variabel man ser på

p = signifikansniv = kolonne p, rad M1, intercept
(sier om det er signifikant smhng mel. 2 variabeler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

kan vi undersøke kausalitet med regresjon?

A

ja, men avh. av forskningsdesign
og praktisk:
- hvor god er modell
kan vi si noe om populasjon
hva er effektstr.?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er multippel regresjon?

A

Når vi har flere prediktorer i modellen, får vi en multippel regresjonsmodell

I det virkelige liv finner vi sjeldent forhold som er så enkle som X-> Y
- flere ting kan tenkes å påvirke y

y = a1x1 + a2x2 + … + anxn + c + E

Fra enkel lineær regresjon kan vi nå:
Vi kan nå snakke om modellens effekt og prediktorenes effekt.
* Vi kansammenlikne effekten av de to prediktorene

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvordan kan man sammenligne effektstørrelse i multippel regresjon?

A

Vi lurer på: * Hvilken prediktor har sterkest effekt?
* Hvis prediktorene har samme skala, kan vi sammenlikne dem direkte.

ellers kan man sammenligne gj. standardisering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvordan kan man sammenligne regresjonskokeffisienter?

A
  • Vi kan transformere variablene slik at de er på samme skala
  • Vi kan gjøre dem om til z-skårer.
  • Tidligere: Y endres med b1enheter for hver enhets økning i X1
  • Nå: Y endres med β1enheter for hver standardavviks økning i X1
  • Standardiserte regresjonskoeffisienter kan sammenliknes med hverandre for de har samme variasjonsbredde. En enhet = 1 SD.
  • Standardiserte regresjonskoeffisienter representeres ofte med β (beta)
  • Merk at konstantleddet b0 forsvinner fra likninga
  • Standardiserte regresjonskoeffisienter kan brukes som effektstørrelser siden de er standardiserte (har kjente egenskaper).

Akkurat som for korrelasjon blir pverdien regna ut ved å gjøre om β til t.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvor i JASP finner man de aktuelle resultatene:
Vi undersøkte effekten av trening og bruk av sosiale medier på opplevd glede. Modellen var signifikant, F(92, 2) = 8.96, p < .001, R2 = .16. Bruk av sosiale medier hadde sterkest effekt, β = -.31, p = .001, men også trening hadde en signifikant effekt, β = .21, p = .03

A

F(dfresidual, dfregression) = F-verdien, p = p-verdien, R2 = R2-verdien

F(92,2) = 8.96, p < .001, R2 = .16.
92 = Tabell ANOVA, kolonne df, rad M1, residual
2 =Tabell ANOVA, kolonne df, rad regression
8.96 = Tabell ANOVA, kolonne F, rad M1 øvserst
p = tabell ANOVA, kolonne p, rad M1
R2 = Tabell model summary for avhengig variabel, Kolonne R2, rad M1, bare gjør om fra 0.16 til 16
BETYR
* Modellen forklarer 16 % av variansen i glede, p < .001

Bruk av sosiale medier hadde sterkest effekt, β = -.31, p = .001,
-.31 = tabell coefficients, kolonne standardized, rad M1 sosmed
p = .001: tabell coefficients, kolonne p, rad M1 sosmed

men også trening hadde en signifikant effekt, β = .21, p = .03
.21 = tabell coefficients, kolonne standardized, rad M1 trening
p = tabell coefficients, kolonne p, rad M1 trening

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er poenget med regresjonsmodeller?

A
  • Regresjonsmodeller lar oss
  • Si noe om sammenhengen mellom variabler
  • Predikere hva enkeltpersoner skårer
  • Lage modeller hvor flere prediktorvariabler forsøker forklare en utfallsvariabel
17
Q

Hva er forutsetningene for OLS regresjon?

A
  • Modellen er korrekt spesifisert
    • Lineær sammenheng
    • Modellen er additiv
  • Variabelene varierer
    • Prediktorere er ukorrelert med eksterne variabler
    • Rett variabeltype
  • Ingen statistiske utliggere (ekstremverdier)
  • Homoskedastisitet
  • Uavhengige errors
  • [X] er normalfordelt
    1. Residualene 2. Utvalgsfordelinga til parameterestimatet
  • Ikke perfekt multikollinearitet

Hvis forutsetningene er brutt
* Avhenger av hvilke forutsetninger det gjelder
* Kan (vanligvis) fortsatt bruke regresjonskoeffisientene, med mindre estimatene er biased
*Signifikanstesting/konfidensintervaller påvirkes: kan dermed ikke generalisere

18
Q

Hvordan vet man at modellen er korrekt spesifisert

A

= forutsetning for OLS regresjon

Variablene varierer. Ingen variabel har 0 i varians

  • Variabeltype: Prediktorene må være kontinuerlig eller binær. Utfallet må være kontinuerlig
  • Vi kan modellere polytomeprediktorer– men vi går ikke inn på hvordan her.
  • Vi kan modellere ikke-kontinuerlige utfall – men vi må da bruke en annen regresjonstilnærming
  • Ingen eksterne variabler forklarer modellens variabler
    • Tredje variabel-problemet
19
Q

Hva er polytom?

A

Polytom: kategorisk variabel med flere enn to kategorier

20
Q

Hva betyr det at modellen er additiv og lineær?

A

= forutsetning for OLS modell

  • Additiv: leddene adderes
  • Lineær: ei (rett) linje er det som best oppsummerer forholdet

Håndtere brudd: * Bruk en annen modell
Undersøke: * Se på grafer med variablene

21
Q

Hva er problemene med statistiske uteliggere?

A

Forutsetning for OLS: Ingen statistiske utliggere (ekstremverdier)

  • Fører til biased estimater
  • Ergo vil ikke modellen være representativ for populasjonen den er ment å generaliseres til
  • Men fjerning av en observasjon vil også påvirke modellen …

Undersøke:
Frekvensfordeling
Boxplot:
* Median er midten
* Boksen omfatter ca 50 % av skårene rundt midten
* «Bartene» omfatter topp og bunn ca25 % av skårene (foruten utliggere og ekstremskårer).

Håndtere:
* Fjerne utliggerne (trim)
* Transformere utliggerne (Windsorising)
* Transformere variablene (log-transform)
* Gjøre sensitivitetsanalyser uten utliggerne

22
Q

Hva er innflytelsesrike tilfeller?

A

Relatert til statistiske uteliggere
* Influential cases.
* Modellen blir påvirka i stor grad av enkeltobservasjoner
* Fører til biased estimater

  • Undersøke
  • Cook’sdistance: observasjonens påvirkning på modellen c >1 er problematisk)
  • Leverage/hat values (kan krysses av for i JASP)
  • Og mange flere
23
Q

Hva er homoskedasitet?

A

Forutsetning for OLS
Homoskedastisitet: lik varians
* Heteroskedastisitet: ulik varians
* Blir Y påvirka av variasjonen i X?
* Hvis det er ulik variasjon i Y på de forskjellige nivåene av X, er forutsetninga brutt

Undersøke
* Levenestest
* H0: Det er lik varians
* H1: Det er ulik varians
* Signifikant Levenes test indikerer homoskedastisitet
* Plots: Standardiserte residualer vs. predikerte, standardiserte, verdier av Y.
-«Firkanta» grafer indikerer homoskedastisitet

24
Q

Hva mener vi med at det må være normalfordeling i forutsetning for OLS?

A
  • «Dataene må være normalfordelt» * Vanlig feil observert i (for mange) bøker
  • Forutsetninga går på at
  • For minst biased regresjonskoeffisienter: Residualene må være normalfordelt * For minst påvirka CI/signifikansverdier: Utvalgsfordelinga til parameterestimatet må være normalfordelt

Residual: Differansen mellom predikert (ut fra modellen) Y og observert Y. *
Dersom observasjonene er normalfordelte, er også residualene det.
* Antakelsen derfor ofte misforstått som «dataene må være normalfordelt»
* Ofte blir residualene standardisert for å lettere tolkes: via z-skårer

Undersøke :
* Kolmogorov-Smirnov og Shapiro-Wilker tester som sammenlikner observasjonene med en normalfordeling med samme snitt og standardavvik
* p> .05: Variablene er ikke normal-fordelte
* Om variablene er normalfordelte, er det sannsynlig at residualene også er det (men ikke motsatt).
* P-P plot (probability-probability): Den kumulative fordelinga til en variabel plottes mot en ideell fordeling (her: normalfordelinga). Begge gjøres om til z-skårer (standardiseres).
* Q-Q plot (quantile-quantile): P-P plot, men med fraktiler (quantiles)
* Fordelingen til alle residualene

Normalfordelt utvalgsfordeling
Utvalgsfordelinga: Vi trekker mange utvalg, regner ut en parameter per utvalg, og viser fordelinga til alle parameterne.

  • Sentralgrenseteoremet forteller oss at utvalgsfordelinga blir normalfordelt uavhengig av populasjonsfordelinga, gitt stort nok utvalg
  • SGT sørger dermed for at denne forutsetninga er oppfylt i store nok utvalg * N > 20-100
25
Q

Hva er multikollinearitet?

A

Forutsenting for OLS: ikke perfekt multikollinearitet

Multikollinearitet: korrelasjon mellom prediktorene i en modell
* Forutsetninga går på at det ikke skal være høy multikollinearitet mellom to eller flere av prediktorene
* Altså at prediktorene forklarer hverandre.

  • Multikollinearitet fører til
    • Biased regresjonskoeffisienter
    • Lavere R2
    • Vanskeligere å vurdere prediktorenes effekt

Undersøke:
Kan se på en korrelasjonsmatrise med alle prediktorene
VIF (Variance inflaction factor, egen kolonne i koeffisienttabell JASP), Tolerance = 1/VIF
* En serie tommelfingerregler (se Field for kilder)
* Om den største VIF er større enn 10 (eller tolerance < 0.1), indikerer det et brudd på antakelsen
* Om snitt-VIF er mye større enn 1 er regresjonen kanskje biased
* Tolerance under 0.2 indikerer et mulig problem

26
Q

Hva er uavhengige errors?

A

Autokorrelasjon: sammenheng mellom to observasjoners error.
* OLS Modellen forutsetter at det ikke er autokorrelasjon

  • Kan testes med Durbin-Watson
  • Verdier under 1 eller over 3 indikerer mulig autokorrelasjon
  • Men verdien er avhengig av N
27
Q

Hva gjør man hvis forutsetningene for OLS-modellen er brutt?

A
  • Kommer an på hva som er konsekvensen
  • Om du bare trenger regresjonskoeffisientene er ikke alle forutsetningene like viktige
  • Noen transformasjoner av utvalget kan bøte på problemet
  • Det finnes robuste metoder som kan håndtere bruddene
    * F.eks. Weighted least squares (WLS) regresjon heller enn ordinary least squares (OLS)
28
Q

Hva er hierarkisk regresjon?

A
  • Husk hva vi introduserte i multippel regresjon: flere prediktorer
  • I forskning er det vanlig å teste regresjonsmodeller med mange prediktorer
  • En vanlig strategi er å bruke en hierarkisk regresjonsmodell
  • Prediktorer settes inn i modellen stegvis for å undersøke deres evne til å forklare mer varians i utfallet.
  • Brukes for å undersøke ytterligere effekten nye prediktorer over kjente variabler

Eks. * Simple effects: modeller med kun én prediktor (enkel regresjon)

Hver ledd inkluderer variablene fra forrige steg og nye variabler
* Modell 1: Y = X1+ X2 + X3
* Modell 2: Modell 1 + X4+ X5
* Modell 3: Modell 2 + X6+ X7+ X8

  • 2 metoder for Rekkefølge prediktorene går inn i modellen på:
    1. Kjente konfunderende variabler først, så prediktorer man er interessert i å teste den ytterligere effekten av
    2. Først prediktorene man er interessert i, deretter alle variablene som er kjent å påvirke utfallet
  • Det finnes algoritmer som putter variablene inn i modellen i steg for å maksimere deres forklaringsevne (og dermed modellens pverdi).
  • De er ikke basert på teoretiske betraktninger eller velgjennomtenkte valg, og bør unngås
  • Eks:
  • Stepwiseregresion
  • Automatic linear modeling
  • NB: Ikke forveksle hierarkisk regresjon med multilevel modelling.
29
Q

Hva er interaksjon?

A
  • Konseptuelt: moderering
  • Statistisk: interaksjon
    Altså de samme på en måte!
  • Vi modellerer to prediktorers kombinerte effekt
  • Vi legger til et interaksjonsledd i regresjonslikninga vår eks:
    y= b0 + b1x1 + b2x2 + b3x1x2 + E
    lager først laveregrads-ledd, deretter interaksjonsleddet i tillegg etterpå
  • Nå kan vi se på en variabels (X2) effekt på forholdet mellom to andre variabler (Y og X1)
  • Moderatoren: variabelen som endrer forholdet mellom to andre
  • Tolkningen av koeffisientene på lavere grad endres
  • Y endres i snitt med b1 enheter for hver enhets økning i X når de andre prediktorene holdes til 0.
  • Her: alder er en av prediktorene. Y endres altså i snitt med b2 enheter for hver enhets økning i X2 når alder = 0.
30
Q

Hva er simple slopes?

A

Enkle regresjonsmodeller som viser sammenhengen mellom prediktor og utfall ved ulike verdier av moderatoren.
1. y = b0 + b1x1 når x2=0
2. y = b0 + b1x1 når x2 =1