2 Regression Flashcards
Hva brukes regression analysis til?
Regression analysis brukes for å finne en lineær sammenheng (assosiasjon) mellom to variabler. Vanligvis continous variables, men kan også være ordinal categorical (eks liten, større, størst blir da 1, 2, 3).
Hva er hypotesetesting?
Hypotesetesting om man ser etter om y øker/minsker med økende x
Hva er predikering?
Predikering om man anslår fremtidige data/unseen data basert på data man har (eks predikere vêret)
Hva er estimering?
Estimering om man ser på data fra utvalget og prøver å predikere hvordan det er i populasjonen (eks prevalens av sykdom)
Ordinal explanatory variabel kan ikke estimeres for andre enn slope=0
Hvordan lages regresjonslinjen?
- Plott punktene
- Least squares
a. Grand mean (gm) og merk x,y punkter for det. SSY brukes til å kvantifisere spredningen rundt grand mean.
b. Ha linjen i x(gm),y(gm) og vend på den for å få minst mulig avstand mellom de andre punktene
- Least squares
Hva er SSE?
Error sum of squares: kvadratene som kan lages av avstanden fra linjen til punktene.
Hva er SSR?
Residuals sum of squares: kvadratene som kan lages av avstanden mellom linjen som treffer punktene og den horisontale linjen som representerer grand mean.
Hva er SSY?
SSY = SSR + SSE og er totale sum of squres.
y = ax + b Hva kalles a og b?
Regresjonskoeffisienter
Hva er fitted value?
Fitted value en verdi for Y man predikerer for en gitt verdi av X (uten å ta hensyn til error, altså man går utifra at punktet ligger nøyaktig på regresjonslinjen)
Hva er “to interpolate”?
Interpolate man kan finne Y verdier for X-verdier mellom to oppgitte X-verdier
Hva er extrapolate?
Extrapolate man kan finne Y verdier for X-verdier utover datasettet. OBS det er ingen garanti for at forholdet fortsetter å være lineært, så kan være unøyaktig.
Hvilken informasjon finner man i ANOVA-tabellen i JMP?
F-ratio og p-verdi som sier om modellen som helhet er signifikant, eller om sammenhengen bare er tilfeldig.
Hvilken informasjon gir coefficient-tabellen?
Denne gir estimatet på slope og hvor sikker vi er på det estimatet.
Hva er nullhypotesen for slope?
Nullhypotesen er at slope = 0, da er det ingen korrelasjon. Det testes derfor ved bruk av f.eks t-verdier til å finne standard error avstanden fra mean 0. Ligger slopen langt nok unna 0, så er nullhypotesen motbevist.
Hva er SECoef?
Standard error of the coefficient (SECoef) (anna formel enn for SEM) er graden av usikkerhet vi har angående estimatet.
Hvilke andre enn nullhypotesen kan testes i coefficient-tabellen?
Andre hypoteser som kan testes er f.eks om slope er forskjellig fra 1.
Hvordan er sammenhengen mellom F-ratio i ANOVA-tabellen og t-ration i coefficient-tabellen?
Hvis F-ration fra ANOVA-tabellen er signifikant, så er også t-ratioen fra coefficient-tabellen signifikant og motsatt
Hva er R-squared?
Andelen eller prosenten av variability (indikert av sum of squares) forklart av fitted line.
Hvilke tall ligger R mellom? Og hva betyr en høy R?
R er mellom 0 og 1 eller 0 og 100%.
Høy R vil si at linjen har forklart mye av variabiliteten
Hva er formelen for R^2?
R^2 = regression sum of squares/total sum of squares = (SSY-SSE)/SSY
Hvilke output er viktig for å beskrive regresjonslinjen?
ANOVA-tabell
Coefficient-tabell
R-squared
Hva er formelen for konfidensintervaller?
Estimate +/-tcrit *standard error of the estimate
○ Df for t-verdien er alltid samme som error df.
Hva er prediction intervals?
Faktorer som bidrar til usikkerhet rundt predikering av y-verdi
Hvilke to estimater regner man usikkerhet på i et prediksjonsintevall?
slope og intercept
Hva skal til for at vi forkaster nullhypotesen i en regresjonsanalyse?
Høy t- og F-verdi
Hva kan gi large residuals?
Outliers, mangel på forklaringsvariabel
Hvordan avgjøres hvor skillet går for outliers?
○ Standardised residuals brukes for å avgjøre hvor skillet til outliers går
§ Hver residual deles på egen standard deviation som er ca kvadratroten av EMS
§ 95% av residuals forventes å ligge innenfor +/- 2 standardavvik.
Et punkt som ligger akkurat på linjen vil ha standardized residual på 0.
Hva er influential points?
○ Punkt på grensen av x-verdiene har større innflytelse enn hvis det hadde ligget nærmere midten
§ Gjør analysen på nytt uten dette punktet for å vurdere påvirkningskraften
Hvordan kan enkeltpunkt påvirke en modell?
Hvis de er outliers og influential punkt, spesielt kombinasjonen av disse