2 Regression Flashcards
Hva brukes regression analysis til?
Regression analysis brukes for å finne en lineær sammenheng (assosiasjon) mellom to variabler. Vanligvis continous variables, men kan også være ordinal categorical (eks liten, større, størst blir da 1, 2, 3).
Hva er hypotesetesting?
Hypotesetesting om man ser etter om y øker/minsker med økende x
Hva er predikering?
Predikering om man anslår fremtidige data/unseen data basert på data man har (eks predikere vêret)
Hva er estimering?
Estimering om man ser på data fra utvalget og prøver å predikere hvordan det er i populasjonen (eks prevalens av sykdom)
Ordinal explanatory variabel kan ikke estimeres for andre enn slope=0
Hvordan lages regresjonslinjen?
- Plott punktene
- Least squares
a. Grand mean (gm) og merk x,y punkter for det. SSY brukes til å kvantifisere spredningen rundt grand mean.
b. Ha linjen i x(gm),y(gm) og vend på den for å få minst mulig avstand mellom de andre punktene
- Least squares
Hva er SSE?
Error sum of squares: kvadratene som kan lages av avstanden fra linjen til punktene.
Hva er SSR?
Residuals sum of squares: kvadratene som kan lages av avstanden mellom linjen som treffer punktene og den horisontale linjen som representerer grand mean.
Hva er SSY?
SSY = SSR + SSE og er totale sum of squres.
y = ax + b Hva kalles a og b?
Regresjonskoeffisienter
Hva er fitted value?
Fitted value en verdi for Y man predikerer for en gitt verdi av X (uten å ta hensyn til error, altså man går utifra at punktet ligger nøyaktig på regresjonslinjen)
Hva er “to interpolate”?
Interpolate man kan finne Y verdier for X-verdier mellom to oppgitte X-verdier
Hva er extrapolate?
Extrapolate man kan finne Y verdier for X-verdier utover datasettet. OBS det er ingen garanti for at forholdet fortsetter å være lineært, så kan være unøyaktig.
Hvilken informasjon finner man i ANOVA-tabellen i JMP?
F-ratio og p-verdi som sier om modellen som helhet er signifikant, eller om sammenhengen bare er tilfeldig.
Hvilken informasjon gir coefficient-tabellen?
Denne gir estimatet på slope og hvor sikker vi er på det estimatet.
Hva er nullhypotesen for slope?
Nullhypotesen er at slope = 0, da er det ingen korrelasjon. Det testes derfor ved bruk av f.eks t-verdier til å finne standard error avstanden fra mean 0. Ligger slopen langt nok unna 0, så er nullhypotesen motbevist.