L6 Simpel lineær regression Flashcards
Hvad er antagelserne for simpel lineær regression? Hvordan undersøges de?
Antagelser omkring design:
- uafhængige observationer
- fravær af selektionsbias eller E(UlX)=0
Antagelser der undersøges grafisk:
- linearitet: scatterplot (eller ACPR ved MLR)
- outliers: scatterplot (eller ACPR ved MLR)
- fravær af heteroskedasticitet: RVP plpot (robust SE)
Hvornår er en observation en outlier?
Når den er en indflydelsesrig observation. Når den ligger langt fra gennemsnittet og fra regressionslinjen (leverage og..)
Hvad er et RVP plot
Bruges til at undersøges homoskedasticitet. Plotter residualerne altså afvigelserne fra regressionslinjen.
Hvad er heteroskedasticitet? Hvordan løser man problemer med det?
Omhandler variansen i residualerne på tværs af vores regressionslinje. Hvis der er heteroskedasticitet, så er der et ikke homogent mønster (eks. en sommerfugl) i residualerne.
Løsning: robuste standardfejl (altid i store stikprøver)
Er hældningskoefficienten udtryk for den lineære sammenhæng mellem x og y?
Ja, altid (deskriptiv sammenhæng)
Er hældningskoefficienten udtryk for den lineære effekt af x på y?
Nej, kun i det sjældne tilfælde at antagelsen om fravær af selektion er overholdt, E(U l X)=0.
Tegn sammenhængen mellem population og stikprøve ift. parametre/estimater
hat på beta-koefficienter og på fejlledet u
Hvad er forskellen på hat og streg?
Hat: et estimat af en parameter (eks. beta1-hat)
Streg: et gennemsnit i stikprøven (ystreg)
Er residualerne altid ukorrelerede med x i lineær regression?
JA! Pr. definition, da B0 og B1 udregnes efter at minimere residualerne (SSR).
Vi kan diskutere, om fejlledet (parameteren i population), er ukorreleret med x.
Hvordan måler man modellens fit?
R^2 og RMSE
Kan Frederik li R^2?
Fucking NEJ!
Hvad står TSS, ESS og SSR for?
TSS: total sum of squares (gns. afstand fra gns.: yi-ystreg kvadret)
SSR: total sum of squared residuals (gns afstand fra yi-forudsagt kvadret, altså residual).
ESS: explained sum of squares (differensen mellem TSS og SSR).
Hvad sker der, hvis uheldet er ude for:
- linearitet
- fravær af selektion
- uafhængige obs
- outliers
Løsning
- stadig ok approksimation (ellers transformation). Mindre betydeligt hvis der er afvigelser i enderne, hvor der er få observationer.
- du laver bare deskriptiv inferens
- konsekvens for inferentiel stat (klyngerobuste!)
- kode dem ud for fanden
Hvad er parametrene β0 og β1 i den lineære regressionsmodel og hvordan fortolkes de?
β0: skæring med y-aksen altså E(Y l X=0)
β1: hældningskoefficienten. Ændring i y ved x+1. Konstant på tværs af x (derfor lineær)
Hvilke ting påvirker R^2, som kan gøre at den måske er lidt shady (ifølge Frederik)?
Tit er vi ikke rigtig interesseret i al variation i y, men mest om x påvirker y
- Ekstreme outliers påvirker meget (fordi TSS - altså den gennemsnitlige afvigelse fra gennemsnittet)
- Afhænger af trivielle faktorer såsom målefejl
- Tilfældig støj