Introduktion til regression begreber Flashcards
Fejlled
Findes i populationen (et populationsparameter) og forsøges estimeret med residualer. Det er alt ved observationen y, som er forklaret af andre faktorer end x.
Afstand fra forventede værdi i population til hvad den rent faktisk er. Grafisk er det forskellen mellem observationen og den lineære model.
Lineær regressions model
Y = β_0+β_1 X_i+u_i
Populationsregressionslinjen kan estimeres ved hjælp af stikprøveobservationer
(Y_i. X_i ), i=1,…,n , ved almindelige mindste kvadraters (OLS)
Residual
Estimation af fejlled fra stikprøven.
Afvigelsen fra regressionslinjen. Afstanden fra den faktiske observation til modellens forudsagte værdi.
Residual = forudsagt Værdi - faktisk værdi.
OLS
Mindste kvadraters linje: Linjen, hvor vores model tager mindst muligt fejl - linjen med de mindst mulige residualer.
R^2
Et mål for modellens fit, der angiver hvor stor en del i variationen i Y som X forklare.
Har IKKE noget med kausalitet at gøre men med sammenhængen mellem x og y.
Antagelsen: E(u|x)=0
Antagelsen siger, at der er fravær af selektionsbias.
Hvis størrelsen på fejlleddet er korreleret med x så er det noget udeladt fra modellen som forklarer Y og korrelerer med X.
referencekategorien
Den kategori, der udelades dvs. den de andre holdes op imod.
Baseline for sammenligningerne mellem de andre kategorier. Normalt vælges den kategori, der antages at have nul effekt eller betragtes som standard.
Dummyvariabel
En bivariat variabel, der enten har værdien 0 eller 1
Fx kvinde=0 og mand=1
En partiel sammenhæng
X måles relativt til forventet gennemsnit givet kontrolvariablen
Justeret R^2
tager højde for kontrolvaribale. Defor denne der rapporteres ved multipel regression.
Multikollinearitet
når to eller flere af de uafhængige variabler er stærkt lineært afhængige af hinanden.
Standard fejlen
Standardfejlen for hældningskoefficienten β ̂_1 er et estimat af hvor meget vi typisk rammer ved siden af populationsparameretet.
Homoskedasticitet
Fejlledets variation skal være uafhængigt af X.
Handler om hvorvidt vores model er velspecificeret og om variation IKKE om kausalitet og korrelation.
heteroskedasticitet
Tilstanden, hvor VAR(u|x) = RMSE2 er brudt, dvs der er et mønster.
Handler om hvorvidt vores model er velspecificeret og om variation IKKE om kausalitet og korrelation.
t-værdien udregning
vi udregner t-værdien ved at dividere koefficienten med standardfejlen.
Og så kan vi bruge t-fordelingen til at finde frem til, hvor sandsynligt vores resultat er, hvis nulhypotesen er sand - hvor mange standardfejl den ligger ude i fordelingen.