L6 Simpel lineær regression Flashcards
Hvad er antagelserne for simpel lineær regression? Hvordan undersøges de?
Antagelser omkring design:
- uafhængige observationer
- fravær af selektionsbias eller E(UlX)=0
Antagelser der undersøges grafisk:
- linearitet: scatterplot (eller ACPR ved MLR)
- outliers: scatterplot (eller ACPR ved MLR)
- fravær af heteroskedasticitet: RVP plpot (robust SE)
Hvornår er en observation en outlier?
Når den er en indflydelsesrig observation. Når den ligger langt fra gennemsnittet og fra regressionslinjen (leverage og..)
Hvad er et RVP plot
Bruges til at undersøges homoskedasticitet. Plotter residualerne altså afvigelserne fra regressionslinjen.
Hvad er heteroskedasticitet? Hvordan løser man problemer med det?
Omhandler variansen i residualerne på tværs af vores regressionslinje. Hvis der er heteroskedasticitet, så er der et ikke homogent mønster (eks. en sommerfugl) i residualerne.
Løsning: robuste standardfejl (altid i store stikprøver)
Er hældningskoefficienten udtryk for den lineære sammenhæng mellem x og y?
Ja, altid (deskriptiv sammenhæng)
Er hældningskoefficienten udtryk for den lineære effekt af x på y?
Nej, kun i det sjældne tilfælde at antagelsen om fravær af selektion er overholdt, E(U l X)=0.
Tegn sammenhængen mellem population og stikprøve ift. parametre/estimater
hat på beta-koefficienter og på fejlledet u
Hvad er forskellen på hat og streg?
Hat: et estimat af en parameter (eks. beta1-hat)
Streg: et gennemsnit i stikprøven (ystreg)
Er residualerne altid ukorrelerede med x i lineær regression?
JA! Pr. definition, da B0 og B1 udregnes efter at minimere residualerne (SSR).
Vi kan diskutere, om fejlledet (parameteren i population), er ukorreleret med x.
Hvordan måler man modellens fit?
R^2 og RMSE
Kan Frederik li R^2?
Fucking NEJ!
Hvad står TSS, ESS og SSR for?
TSS: total sum of squares (gns. afstand fra gns.: yi-ystreg kvadret)
SSR: total sum of squared residuals (gns afstand fra yi-forudsagt kvadret, altså residual).
ESS: explained sum of squares (differensen mellem TSS og SSR).
Hvad sker der, hvis uheldet er ude for:
- linearitet
- fravær af selektion
- uafhængige obs
- outliers
Løsning
- stadig ok approksimation (ellers transformation). Mindre betydeligt hvis der er afvigelser i enderne, hvor der er få observationer.
- du laver bare deskriptiv inferens
- konsekvens for inferentiel stat (klyngerobuste!)
- kode dem ud for fanden
Hvad er parametrene β0 og β1 i den lineære regressionsmodel og hvordan fortolkes de?
β0: skæring med y-aksen altså E(Y l X=0)
β1: hældningskoefficienten. Ændring i y ved x+1. Konstant på tværs af x (derfor lineær)
Hvilke ting påvirker R^2, som kan gøre at den måske er lidt shady (ifølge Frederik)?
Tit er vi ikke rigtig interesseret i al variation i y, men mest om x påvirker y
- Ekstreme outliers påvirker meget (fordi TSS - altså den gennemsnitlige afvigelse fra gennemsnittet)
- Afhænger af trivielle faktorer såsom målefejl
- Tilfældig støj
Hvordan estimeres parametrene β0 og β1 ?
Parameterne estimeres ved at minimere SSR (summen af kvadret residualer). Differentiere SSR og finde lokalt minimum.
β1-hat: cov(x,y)/var(x)
β0-hat: ystreg - β1-hat*xstreg
Cov(x,y) angiver retningen for hældningskoefficienten, mens større var(x) alt andet lige giver en mindre koefficient.
Hvad er forskellen på residualer og fejlled?
Residualerne er estimatet af fejlledet.
Når jeg minimerer residualerne for at finde betakoefficienterne vil residualerne altid være ukorreleret med x, men det er ikke givet at fejlledet er det.
Fravær af selektionsbias: estimatet er i overensstemmelse med den sande parameter.
Hvordan estimeres modellens forventede værdier og residualer?
Yihat = B0hat + B1hat*Xi + uihat er estimatet for et punkt i regressionen, hvor:
uihat = yihat-yi.
Residualet er afstanden fra regressionlinjen (den forudsagte værdi) til observationen.
Hvad er RMSE?
Root mean squared error
“Standardafvigelsen” fra regressionslinjen - giver et konkret bud på, hvor langt vores observationer falder fra regressionslinjen
RMSE = kvadratrod (SSR/n-k)
Hvad er modellens R2 hvordan fortolkes de?
Prooortional reduction in error. Hvor stor en del af variationen i Y forklarer X.
ESS/TSS
0 < R2 < 1 og kan tolkes som, hvor mange procent af variationen i Y x kan forklare
Man sammenholder forudsigelsesevnen uden regression (afstand til gennemsnittet, kvadret fejl: TSS) med forudsigelsesevnen med regres-sion (afstand til forudsagt værdi, kvadret fejl: SSR)
Altså et forhold mellem hvad vi gætter på med gennemsnittet (den naive, bedste gæt) og så vores forklaring med regressionslinje med TSS som benchmark altså hvor meget bedre bliver vi? (relativ forbedring).
Hvad betyder antagelsen om, at E(u|x) = 0 og hvilket forhold har antagelsen til selektionsbias?
Fejlledet skal være ukorreleret med x. Den forventede værdi af fejlledet givet x, skal være =0.
E(U l X)=0.
Præcis samme antagelse som fravær af selektionsbias. Altså vi vil gerne vide om forskellen skyldes treatment og IKKE selektion ind i treatment.
Der må ikke være andre faktorer, der driver sammenhængen
Hvad går regression ud på og hvorfor er det fed?
Vi prøver at estimere det betingede gennemsnit ved en lineær funktion. Vi prøver at beskrive sammenhængen mere generelt.
Vi estimerer altså den forventede værdi af y givet en bestemt værdi af x. E(Y l X)= B0 + B1X
Regression er simpel, der er mulighed for statistisk kontrol og modellen er flexibel (non-lineariteter)
Hvad er forskellen på SE og robuste SE rent substantielt?
SE antager homoskedasticitet; fordi SE er den gennemsnitlige afvigelse. Så dur det jo ikke, hvis der er meget variation.
Robuste SE tager højde for at variansen er heterogen langs regressionslinjen.