Introduktion til regression pointer Flashcards
Hvad er parametrene β0 og β1 i den lineære regressionsmodel og hvordan fortolkes de? Hvordan estimeres parametrene β0 og β1?
Hældningen β1 er den forventede forskel i Y mellem to observationer med X-værdier, som adskiller sig med én enhed.
Skæringspunktet β0, bestemmer niveauet af regressionslinjen. Det er y-værdien når x er lig 0.
Hvordan estimeres modellens forventede værdier og residualer?
Ved at sætter en x værdi ind i funktionen udregnes den forventede y-værdi.
Residualer dvs. afvigelsen fra regressionslinjen, udregnes ved at trække den forventede værdi fra den faktiske værdi.
Hvad er og hvordan fortolkes R^2?
Forklaringsgraden, som udtrykker, hvor stor en del af variationen i den afhængige variabel y, der forklares af variationen i den uafhængige variabel x.
R^2 udregnes ved at dividere explained sum of squares (som er total sum of squares minus sum of squared residuals) med total sum of squares.
Hvad betyder antagelsen om, at E(u|x) = 0 og hvilket forhold har antagelsen til selektionsbias?
Antagelsen går netop på fravær af selektionsbias, hvis E(u|x) = 0 er der fravær af selektionsbias. Det vil sige den eneste forskel mellem grupperne er deres treatmentstatus. Randomiseringsprocessen er altså vellykket.
Fejlledet indeholder alle de faktorer, der forklarer Y, men som ikke er inkluderede i regressionsmodellen som variable. Er X korreleret med sådanne faktorer (dvs. udeladte variable), så er X korreleret med fejlledet og antagelsen er brudt. Det er derfor vi bruger statistisk kontrol: Tager faktorer ud af fejlledet og inkluderer dem som variable i modellen, så det er mere sandsynligt, at der ikke er noget tilbage i fejlledet, der korrelerer med X
Antagelser for lineær regression
- linearitet: Hvis vi har kontrolvariable så antager vi at sammenhængen er lineær efter inddragelse af disse. Brug ACPR.
- i.i.d.: Y-værdierne afhænger ikke af/påvirker ikke hinanden (observationer er uafhængige) og observationerne er trukket fra samme underliggende population (identisk fordelte).
- fravær af selektionsbias (hvis kausal slutning)
- fravær af outliers
Hvordan fungerer statistisk kontrol i den multiple regressionsmodel?
Ved statistisk kontrol måles X relativt til det forventede gennemsnit givet kontrolvariablen. Dermed trækker vi den variation, som kan forklares af kontrolvariablen ud af X.
Vi renser variationen i X.
Man kan sige at kontrolvariablene renser X for variation, der kan tilskrives kontrolvariablene.
b0 (cons): Hvad er det gns. Y når alle X’erne er 0?
b1: Hvor meget ændrer Y sig med, når X ændrer sig med 1, og vi samtidig holder X2, …, Xk konstante?
Hvordan fortolkes β1 i den multiple regressionsmodel?
β1 giver information om den forventede effekt af den første uafhængige variabel på den afhængige variabel, samtidig med at den tager højde for usikkerheden i estimatet.
Hvad er udeladt variabel bias (UVB)?
Udeladt variabel bias (UVB) refererer til en fejl, der opstår, når en relevant variabel ikke inkluderes i en regressionsmodel, selvom den faktisk er relateret til både den afhængige variabel og de eksisterende uafhængige variabler i modellen.
Hvordan kan vi vide om UVB forårsager, at vi under- eller overestimerer effekten af X?
En teoretisk diskussion.
1) Hvordan korrelere X og Z?
2) Hvordan korrelere Z og y?
3) Hvordan er sammenhængen mellem X og Y?
Hvad definerer en god og en dårlig kontrolvariabel?
Dårlig: post-treatment bias, irrelevant.
God: relevant begrundelse, uafhængig af X, stabil, variation i dens værdier i datasættet.
Hvad vil det sige, at en kontrolvariabel skaber post-treatment bias?
inklusion af kontrolvariable i modellen, der påvirkes af X (”kommer efter X i tid”).
Problem både ved observationelt data og ved eksperimenter.
Problem uanset om vi forsøger på kontrol (som vi ofte gerne vil) eller mediationsanalyse (som vi aldrig vil).
Kan også opstå som forskel i frafald (inkl. forskellige grader af ”ved ikke”-svar) mellem treatment- og kontrolgruppe.
Hvad er multikollinearitet?
Multikollinearitet er når, der ingen selvstændig variation er tilbage i X_1, når vi har “renset” for samvariationen med de andre variable.
For at identificere og håndtere multikollinearitet er det vigtigt at foretage en grundig analyse af korrelationerne mellem de uafhængige variabler.
Hvordan foretages en regressionsanalyse med en kategorisk uafhængig variabel?
Konverter den kategoriske variabel til en sætning af dummyvariabler, der repræsenterer de forskellige kategorier.
Hver dummyvariabel vil have en tilhørende koefficient, der indikerer den gennemsnitlige forskel i den afhængige variabel mellem dummyvariabel-kategorien, og referencekategorien. Den kategori, der fungerer som reference, er den, der er udeladt i kodningen (ekskluderet i modellen for at undgå multikollinearitet)
b0: Gennemsnittet i referencekategorien
b1: Forskel i gns. på gruppe 1 og reference
b2: Forskel i gns. på gruppe 2 og reference
osv…
I stata: i.var for kategorisk inddragelse
Hvad indebærer en statistisk hypotesetest i en regressionsanalyse?
Signifikanstesten tester om β1 er forskellig fra 0. P-værdien angiver, hvor sandsynligt det er at finde en hældningskoefficient, der er lige så stor som den vi har fundet i stikprøven hvis β1=0
Hvad er standardfejlen for hældningskoefficienten, β1, et estimat af?
Standardfejlen for hældningskoefficienten β1 er et estimat af hvor meget vi typisk rammer ved siden af populationsparameretet.
Den afhænger af hvor meget vi skyder ved siden af med vores regressionslinje/residualer (RMSE), stikprøvestørrelsen (n) og variansen i X.