2 Regression Flashcards

1
Q

Hva brukes regression analysis til?

A

Regression analysis brukes for å finne en lineær sammenheng (assosiasjon) mellom to variabler. Vanligvis continous variables, men kan også være ordinal categorical (eks liten, større, størst blir da 1, 2, 3).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er hypotesetesting?

A

Hypotesetesting om man ser etter om y øker/minsker med økende x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er predikering?

A

Predikering om man anslår fremtidige data/unseen data basert på data man har (eks predikere vêret)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er estimering?

A

Estimering om man ser på data fra utvalget og prøver å predikere hvordan det er i populasjonen (eks prevalens av sykdom)
Ordinal explanatory variabel kan ikke estimeres for andre enn slope=0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvordan lages regresjonslinjen?

A
  1. Plott punktene
    1. Least squares
      a. Grand mean (gm) og merk x,y punkter for det. SSY brukes til å kvantifisere spredningen rundt grand mean.
      b. Ha linjen i x(gm),y(gm) og vend på den for å få minst mulig avstand mellom de andre punktene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er SSE?

A

Error sum of squares: kvadratene som kan lages av avstanden fra linjen til punktene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva er SSR?

A

Residuals sum of squares: kvadratene som kan lages av avstanden mellom linjen som treffer punktene og den horisontale linjen som representerer grand mean.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er SSY?

A

SSY = SSR + SSE og er totale sum of squres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

y = ax + b Hva kalles a og b?

A

Regresjonskoeffisienter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er fitted value?

A

Fitted value en verdi for Y man predikerer for en gitt verdi av X (uten å ta hensyn til error, altså man går utifra at punktet ligger nøyaktig på regresjonslinjen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er “to interpolate”?

A

Interpolate man kan finne Y verdier for X-verdier mellom to oppgitte X-verdier

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er extrapolate?

A

Extrapolate man kan finne Y verdier for X-verdier utover datasettet. OBS det er ingen garanti for at forholdet fortsetter å være lineært, så kan være unøyaktig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvilken informasjon finner man i ANOVA-tabellen i JMP?

A

F-ratio og p-verdi som sier om modellen som helhet er signifikant, eller om sammenhengen bare er tilfeldig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvilken informasjon gir coefficient-tabellen?

A

Denne gir estimatet på slope og hvor sikker vi er på det estimatet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva er nullhypotesen for slope?

A

Nullhypotesen er at slope = 0, da er det ingen korrelasjon. Det testes derfor ved bruk av f.eks t-verdier til å finne standard error avstanden fra mean 0. Ligger slopen langt nok unna 0, så er nullhypotesen motbevist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er SECoef?

A

Standard error of the coefficient (SECoef) (anna formel enn for SEM) er graden av usikkerhet vi har angående estimatet.

17
Q

Hvilke andre enn nullhypotesen kan testes i coefficient-tabellen?

A

Andre hypoteser som kan testes er f.eks om slope er forskjellig fra 1.

18
Q

Hvordan er sammenhengen mellom F-ratio i ANOVA-tabellen og t-ration i coefficient-tabellen?

A

Hvis F-ration fra ANOVA-tabellen er signifikant, så er også t-ratioen fra coefficient-tabellen signifikant og motsatt

19
Q

Hva er R-squared?

A

Andelen eller prosenten av variability (indikert av sum of squares) forklart av fitted line.

20
Q

Hvilke tall ligger R mellom? Og hva betyr en høy R?

A

R er mellom 0 og 1 eller 0 og 100%.
Høy R vil si at linjen har forklart mye av variabiliteten

21
Q

Hva er formelen for R^2?

A

R^2 = regression sum of squares/total sum of squares = (SSY-SSE)/SSY

22
Q

Hvilke output er viktig for å beskrive regresjonslinjen?

A

ANOVA-tabell
Coefficient-tabell
R-squared

23
Q

Hva er formelen for konfidensintervaller?

A

Estimate +/-tcrit *standard error of the estimate
○ Df for t-verdien er alltid samme som error df.

24
Q

Hva er prediction intervals?

A

Faktorer som bidrar til usikkerhet rundt predikering av y-verdi

25
Q

Hvilke to estimater regner man usikkerhet på i et prediksjonsintevall?

A

slope og intercept

26
Q

Hva skal til for at vi forkaster nullhypotesen i en regresjonsanalyse?

A

Høy t- og F-verdi

27
Q

Hva kan gi large residuals?

A

Outliers, mangel på forklaringsvariabel

28
Q

Hvordan avgjøres hvor skillet går for outliers?

A

○ Standardised residuals brukes for å avgjøre hvor skillet til outliers går
§ Hver residual deles på egen standard deviation som er ca kvadratroten av EMS
§ 95% av residuals forventes å ligge innenfor +/- 2 standardavvik.
Et punkt som ligger akkurat på linjen vil ha standardized residual på 0.

29
Q

Hva er influential points?

A

○ Punkt på grensen av x-verdiene har større innflytelse enn hvis det hadde ligget nærmere midten
§ Gjør analysen på nytt uten dette punktet for å vurdere påvirkningskraften

30
Q

Hvordan kan enkeltpunkt påvirke en modell?

A

Hvis de er outliers og influential punkt, spesielt kombinasjonen av disse