korrelasjon og regresjon Flashcards
Hva er konfidensintervall?
: En rekkevidde av verdier rundt en testobservator som er antatt å inneholde, i x % av utvalgene, den sanne verdien til observatoren.
kan si oss noe om nøyaktighet
- Høres det kjent ut? * Signifikansnivået er andelen type I-feil vi godtar på lang sikt.
- 95 % CI = signifikansnivå på .05.
- Signifikansverdien er én verdi. Konfidensintervallet er en rekkevidde som inkluderer alle verdier mellom endepunktene.
- Konfidensintervallet er «mer ærlig» fordi det anerkjenner variasjonen i estimatet vårt.
Bruksområder
* Konfidensintervaller kan brukes som et alternativ til p-verdier
* Konfidensintervaller indikerer usikkerheten i estimatet
* r = 0.74, p < .001
* Eller * r = 0.74, 95% CI[0.51, 0.86]
Hva er korrelasjon?
Sammenhengen mellom to eller flere kontinuerlige variabler
- Korrelasjon er egentlig bare regresjon
- Korrelasjonsanalysen gir oss et tall, en koeffisient, som representerer sammenhengen. Dette er korrelasjonskoeffisienten, som er testobservatoren til korrelasjonsanalysen
- Hva er verdien av y, gitt x?
y = ax + c + FEIL
a = stigningstall = korrelasjon
c= skjæringspunkt/startpunkt v x = 0
Hva er eksempler på korrelasjonskoeffisienter og hva sier de?
- Pearsons produkt-moment korrelasjonskoeffisient, r.
- Spearmans rekkefølgekorrelasjonskoeffisient, ⍴ * Går fra ±1 til 0
- 1: Perfekt sammenheng
- 0: Ingen sammenheng
Kom med et eksempel på hvordan man kan rapprotere pearsons r?
Det var en signifikant, positiv sammenheng mellom klokkenes alder og pris, r(30) = .73, p < .001
der n=32. husk kursiv r og p.
r([df]) = [r], p = [p] df = n – (antall variabler i analysen)
HVordan finner man signifikans i en korrelasjonsanalyse?
r regnes om til en t
kan sammenligne t med t-fordeling
gir signigikansnivå
t= r * sqrt(N-2)/sqrt(1-r^2)
hva kan forklare en korrelasjon?
- En faktisk årsak (kausalitet)
- Tilfeldigheter (spuriøs korrelasjon)
- Omvendt kausalitet
- Tredje variabel
Hva er partiell korrelasjon?
Modellert med mer enn to variabler
y = a1x1 + a2x2 + … + anxn + c + E
Hva er regresjonskoeffisienter?
Regresjonskoeffisienter: Testobservatoren til regresjonsanalysen
Altså stigningstallet
Finnes under coefficents-tabell i JASP under Unstandardized for M0, M1 osv.
I regresjon kaller vi ofte de uavhengige variablene for prediktorer, og den avhengige variabelen for utfallet (merk at dette impliserer kausalitet)
Hva er GLM og hvordan kommer man frem til den?
Y_i =b_0 + b_1X_1i + E_i
= den generelle lineære modellen
Linja kommer man fram til ved en algoritme som kalles ordinary least squares (OLS). Den finner linja som skaper minst residualer
altså minst kvadrater mellom punkter og linja
hvor finner man om de ulike relevante resultatene for enkel GLM regresjon i JASP med to variabler?
Under koeffisient tabell:
b_0 = c = skjæringspunkt = kolonne unstandardized, rad M1, intercept
b_1 = a1 = stigningstall = kolonne unstandardized, rad M1, variabel man ser på
p = signifikansniv = kolonne p, rad M1, intercept
(sier om det er signifikant smhng mel. 2 variabeler
kan vi undersøke kausalitet med regresjon?
ja, men avh. av forskningsdesign
og praktisk:
- hvor god er modell
kan vi si noe om populasjon
hva er effektstr.?
Hva er multippel regresjon?
Når vi har flere prediktorer i modellen, får vi en multippel regresjonsmodell
I det virkelige liv finner vi sjeldent forhold som er så enkle som X-> Y
- flere ting kan tenkes å påvirke y
y = a1x1 + a2x2 + … + anxn + c + E
Fra enkel lineær regresjon kan vi nå:
Vi kan nå snakke om modellens effekt og prediktorenes effekt.
* Vi kansammenlikne effekten av de to prediktorene
Hvordan kan man sammenligne effektstørrelse i multippel regresjon?
Vi lurer på: * Hvilken prediktor har sterkest effekt?
* Hvis prediktorene har samme skala, kan vi sammenlikne dem direkte.
ellers kan man sammenligne gj. standardisering
Hvordan kan man sammenligne regresjonskokeffisienter?
- Vi kan transformere variablene slik at de er på samme skala
- Vi kan gjøre dem om til z-skårer.
- Tidligere: Y endres med b1enheter for hver enhets økning i X1
- Nå: Y endres med β1enheter for hver standardavviks økning i X1
- Standardiserte regresjonskoeffisienter kan sammenliknes med hverandre for de har samme variasjonsbredde. En enhet = 1 SD.
- Standardiserte regresjonskoeffisienter representeres ofte med β (beta)
- Merk at konstantleddet b0 forsvinner fra likninga
- Standardiserte regresjonskoeffisienter kan brukes som effektstørrelser siden de er standardiserte (har kjente egenskaper).
Akkurat som for korrelasjon blir pverdien regna ut ved å gjøre om β til t.
Hvor i JASP finner man de aktuelle resultatene:
Vi undersøkte effekten av trening og bruk av sosiale medier på opplevd glede. Modellen var signifikant, F(92, 2) = 8.96, p < .001, R2 = .16. Bruk av sosiale medier hadde sterkest effekt, β = -.31, p = .001, men også trening hadde en signifikant effekt, β = .21, p = .03
F(dfresidual, dfregression) = F-verdien, p = p-verdien, R2 = R2-verdien
F(92,2) = 8.96, p < .001, R2 = .16.
92 = Tabell ANOVA, kolonne df, rad M1, residual
2 =Tabell ANOVA, kolonne df, rad regression
8.96 = Tabell ANOVA, kolonne F, rad M1 øvserst
p = tabell ANOVA, kolonne p, rad M1
R2 = Tabell model summary for avhengig variabel, Kolonne R2, rad M1, bare gjør om fra 0.16 til 16
BETYR
* Modellen forklarer 16 % av variansen i glede, p < .001
Bruk av sosiale medier hadde sterkest effekt, β = -.31, p = .001,
-.31 = tabell coefficients, kolonne standardized, rad M1 sosmed
p = .001: tabell coefficients, kolonne p, rad M1 sosmed
men også trening hadde en signifikant effekt, β = .21, p = .03
.21 = tabell coefficients, kolonne standardized, rad M1 trening
p = tabell coefficients, kolonne p, rad M1 trening
Hva er poenget med regresjonsmodeller?
- Regresjonsmodeller lar oss
- Si noe om sammenhengen mellom variabler
- Predikere hva enkeltpersoner skårer
- Lage modeller hvor flere prediktorvariabler forsøker forklare en utfallsvariabel
Hva er forutsetningene for OLS regresjon?
- Modellen er korrekt spesifisert
- Lineær sammenheng
- Modellen er additiv
- Variabelene varierer
- Prediktorere er ukorrelert med eksterne variabler
- Rett variabeltype
- Ingen statistiske utliggere (ekstremverdier)
- Homoskedastisitet
- Uavhengige errors
- [X] er normalfordelt
- Residualene 2. Utvalgsfordelinga til parameterestimatet
- Ikke perfekt multikollinearitet
Hvis forutsetningene er brutt
* Avhenger av hvilke forutsetninger det gjelder
* Kan (vanligvis) fortsatt bruke regresjonskoeffisientene, med mindre estimatene er biased
*Signifikanstesting/konfidensintervaller påvirkes: kan dermed ikke generalisere
Hvordan vet man at modellen er korrekt spesifisert
= forutsetning for OLS regresjon
Variablene varierer. Ingen variabel har 0 i varians
- Variabeltype: Prediktorene må være kontinuerlig eller binær. Utfallet må være kontinuerlig
- Vi kan modellere polytomeprediktorer– men vi går ikke inn på hvordan her.
- Vi kan modellere ikke-kontinuerlige utfall – men vi må da bruke en annen regresjonstilnærming
- Ingen eksterne variabler forklarer modellens variabler
- Tredje variabel-problemet
Hva er polytom?
Polytom: kategorisk variabel med flere enn to kategorier
Hva betyr det at modellen er additiv og lineær?
= forutsetning for OLS modell
- Additiv: leddene adderes
- Lineær: ei (rett) linje er det som best oppsummerer forholdet
Håndtere brudd: * Bruk en annen modell
Undersøke: * Se på grafer med variablene
Hva er problemene med statistiske uteliggere?
Forutsetning for OLS: Ingen statistiske utliggere (ekstremverdier)
- Fører til biased estimater
- Ergo vil ikke modellen være representativ for populasjonen den er ment å generaliseres til
- Men fjerning av en observasjon vil også påvirke modellen …
Undersøke:
Frekvensfordeling
Boxplot:
* Median er midten
* Boksen omfatter ca 50 % av skårene rundt midten
* «Bartene» omfatter topp og bunn ca25 % av skårene (foruten utliggere og ekstremskårer).
Håndtere:
* Fjerne utliggerne (trim)
* Transformere utliggerne (Windsorising)
* Transformere variablene (log-transform)
* Gjøre sensitivitetsanalyser uten utliggerne
Hva er innflytelsesrike tilfeller?
Relatert til statistiske uteliggere
* Influential cases.
* Modellen blir påvirka i stor grad av enkeltobservasjoner
* Fører til biased estimater
- Undersøke
- Cook’sdistance: observasjonens påvirkning på modellen c >1 er problematisk)
- Leverage/hat values (kan krysses av for i JASP)
- Og mange flere
Hva er homoskedasitet?
Forutsetning for OLS
Homoskedastisitet: lik varians
* Heteroskedastisitet: ulik varians
* Blir Y påvirka av variasjonen i X?
* Hvis det er ulik variasjon i Y på de forskjellige nivåene av X, er forutsetninga brutt
Undersøke
* Levenestest
* H0: Det er lik varians
* H1: Det er ulik varians
* Signifikant Levenes test indikerer homoskedastisitet
* Plots: Standardiserte residualer vs. predikerte, standardiserte, verdier av Y.
-«Firkanta» grafer indikerer homoskedastisitet
Hva mener vi med at det må være normalfordeling i forutsetning for OLS?
- «Dataene må være normalfordelt» * Vanlig feil observert i (for mange) bøker
- Forutsetninga går på at
- For minst biased regresjonskoeffisienter: Residualene må være normalfordelt * For minst påvirka CI/signifikansverdier: Utvalgsfordelinga til parameterestimatet må være normalfordelt
Residual: Differansen mellom predikert (ut fra modellen) Y og observert Y. *
Dersom observasjonene er normalfordelte, er også residualene det.
* Antakelsen derfor ofte misforstått som «dataene må være normalfordelt»
* Ofte blir residualene standardisert for å lettere tolkes: via z-skårer
Undersøke :
* Kolmogorov-Smirnov og Shapiro-Wilker tester som sammenlikner observasjonene med en normalfordeling med samme snitt og standardavvik
* p> .05: Variablene er ikke normal-fordelte
* Om variablene er normalfordelte, er det sannsynlig at residualene også er det (men ikke motsatt).
* P-P plot (probability-probability): Den kumulative fordelinga til en variabel plottes mot en ideell fordeling (her: normalfordelinga). Begge gjøres om til z-skårer (standardiseres).
* Q-Q plot (quantile-quantile): P-P plot, men med fraktiler (quantiles)
* Fordelingen til alle residualene
Normalfordelt utvalgsfordeling
Utvalgsfordelinga: Vi trekker mange utvalg, regner ut en parameter per utvalg, og viser fordelinga til alle parameterne.
- Sentralgrenseteoremet forteller oss at utvalgsfordelinga blir normalfordelt uavhengig av populasjonsfordelinga, gitt stort nok utvalg
- SGT sørger dermed for at denne forutsetninga er oppfylt i store nok utvalg * N > 20-100