Introduktion til regression pointer Flashcards

1
Q

Hvad er parametrene β0 og β1 i den lineære regressionsmodel og hvordan fortolkes de? Hvordan estimeres parametrene β0 og β1?

A

Hældningen β1 er den forventede forskel i Y mellem to observationer med X-værdier, som adskiller sig med én enhed.

Skæringspunktet β0, bestemmer niveauet af regressionslinjen. Det er y-værdien når x er lig 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvordan estimeres modellens forventede værdier og residualer?

A

Ved at sætter en x værdi ind i funktionen udregnes den forventede y-værdi.
Residualer dvs. afvigelsen fra regressionslinjen, udregnes ved at trække den forventede værdi fra den faktiske værdi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er og hvordan fortolkes R^2?

A

Forklaringsgraden, som udtrykker, hvor stor en del af variationen i den afhængige variabel y, der forklares af variationen i den uafhængige variabel x.
R^2 udregnes ved at dividere explained sum of squares (som er total sum of squares minus sum of squared residuals) med total sum of squares.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad betyder antagelsen om, at E(u|x) = 0 og hvilket forhold har antagelsen til selektionsbias?

A

Antagelsen går netop på fravær af selektionsbias, hvis E(u|x) = 0 er der fravær af selektionsbias. Det vil sige den eneste forskel mellem grupperne er deres treatmentstatus. Randomiseringsprocessen er altså vellykket.

Fejlledet indeholder alle de faktorer, der forklarer Y, men som ikke er inkluderede i regressionsmodellen som variable. Er X korreleret med sådanne faktorer (dvs. udeladte variable), så er X korreleret med fejlledet og antagelsen er brudt. Det er derfor vi bruger statistisk kontrol: Tager faktorer ud af fejlledet og inkluderer dem som variable i modellen, så det er mere sandsynligt, at der ikke er noget tilbage i fejlledet, der korrelerer med X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Antagelser for lineær regression

A
  1. linearitet: Hvis vi har kontrolvariable så antager vi at sammenhængen er lineær efter inddragelse af disse. Brug ACPR.
  2. i.i.d.: Y-værdierne afhænger ikke af/påvirker ikke hinanden (observationer er uafhængige) og observationerne er trukket fra samme underliggende population (identisk fordelte).
  3. fravær af selektionsbias (hvis kausal slutning)
  4. fravær af outliers
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvordan fungerer statistisk kontrol i den multiple regressionsmodel?

A

Ved statistisk kontrol måles X relativt til det forventede gennemsnit givet kontrolvariablen. Dermed trækker vi den variation, som kan forklares af kontrolvariablen ud af X.
Vi renser variationen i X.
Man kan sige at kontrolvariablene renser X for variation, der kan tilskrives kontrolvariablene.
b0 (cons): Hvad er det gns. Y når alle X’erne er 0?
b1: Hvor meget ændrer Y sig med, når X ændrer sig med 1, og vi samtidig holder X2, …, Xk konstante?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvordan fortolkes β1 i den multiple regressionsmodel?

A

β1 giver information om den forventede effekt af den første uafhængige variabel på den afhængige variabel, samtidig med at den tager højde for usikkerheden i estimatet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad er udeladt variabel bias (UVB)?

A

Udeladt variabel bias (UVB) refererer til en fejl, der opstår, når en relevant variabel ikke inkluderes i en regressionsmodel, selvom den faktisk er relateret til både den afhængige variabel og de eksisterende uafhængige variabler i modellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan kan vi vide om UVB forårsager, at vi under- eller overestimerer effekten af X?

A

En teoretisk diskussion.
1) Hvordan korrelere X og Z?
2) Hvordan korrelere Z og y?
3) Hvordan er sammenhængen mellem X og Y?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad definerer en god og en dårlig kontrolvariabel?

A

Dårlig: post-treatment bias, irrelevant.
God: relevant begrundelse, uafhængig af X, stabil, variation i dens værdier i datasættet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad vil det sige, at en kontrolvariabel skaber post-treatment bias?

A

inklusion af kontrolvariable i modellen, der påvirkes af X (”kommer efter X i tid”).
Problem både ved observationelt data og ved eksperimenter.
Problem uanset om vi forsøger på kontrol (som vi ofte gerne vil) eller mediationsanalyse (som vi aldrig vil).
Kan også opstå som forskel i frafald (inkl. forskellige grader af ”ved ikke”-svar) mellem treatment- og kontrolgruppe.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er multikollinearitet?

A

Multikollinearitet er når, der ingen selvstændig variation er tilbage i X_1, når vi har “renset” for samvariationen med de andre variable.
For at identificere og håndtere multikollinearitet er det vigtigt at foretage en grundig analyse af korrelationerne mellem de uafhængige variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvordan foretages en regressionsanalyse med en kategorisk uafhængig variabel?

A

Konverter den kategoriske variabel til en sætning af dummyvariabler, der repræsenterer de forskellige kategorier.
Hver dummyvariabel vil have en tilhørende koefficient, der indikerer den gennemsnitlige forskel i den afhængige variabel mellem dummyvariabel-kategorien, og referencekategorien. Den kategori, der fungerer som reference, er den, der er udeladt i kodningen (ekskluderet i modellen for at undgå multikollinearitet)
b0: Gennemsnittet i referencekategorien
b1: Forskel i gns. på gruppe 1 og reference
b2: Forskel i gns. på gruppe 2 og reference
osv…
I stata: i.var for kategorisk inddragelse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad indebærer en statistisk hypotesetest i en regressionsanalyse?

A

Signifikanstesten tester om β1 er forskellig fra 0. P-værdien angiver, hvor sandsynligt det er at finde en hældningskoefficient, der er lige så stor som den vi har fundet i stikprøven hvis β1=0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad er standardfejlen for hældningskoefficienten, β1, et estimat af?

A

Standardfejlen for hældningskoefficienten β1 er et estimat af hvor meget vi typisk rammer ved siden af populationsparameretet.
Den afhænger af hvor meget vi skyder ved siden af med vores regressionslinje/residualer (RMSE), stikprøvestørrelsen (n) og variansen i X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad udtrykker p-værdien for hældningskoefficienten?

A

hvor sandsynligt er det at finde en hældningskoefficient på det som regressionen estimere (fx 0.009) eller mere ekstrem (dvs. væk fra 0) i en stikprøve med n observationer, hvis sammenhængen faktisk ikke eksisterer (er 0).

17
Q

Hvad er forskellen på homo- og hetereoskedasticitet?

A

hvis variansen for fejlledet er ens over alle X’ere, så er der tale om homoskedasticitet. Hvis det er forskelligt for forskellige X’ere, fx hvis størrer X’ere har større varians end mindre X’ere, så er der tale om hetereoskedasticitet (der er et mønster i variansen)

Handler om hvorvidt vores model er velspecificeret og om variation IKKE om kausalitet og korrelation.

18
Q

Hvad vil det sige, at en observation er indflydelsesrig?

A

To afgørende ting for om en outliere er indflydelsesrig for en regressionslinje er om den har høj leverage og store residualer.

19
Q

Hvad sker der rent teknisk når man holder noget konstant?

A

Vi ønsker at rense X for alt den variation, der skyldes X2, X3… Det gør Stata ved at plotte X2 op imod X og så tage residualerne herfra. De residualer plottes så op imod Y - denne nye sammenhæng er med renset X.

20
Q

Hvordan ændrer R2 sig i multipel lineær regression?

A

R2 vil stige når der inkluderes flere variable i modellen. Derfor bruger vi justeret R2, der nedjusterer R2 når der inkluderes flere variable i modellen. OBS R2 er stadig pænt uinteressant ift. kausalitet

21
Q

Hvad er antagelserne for multipel lineær regression?

A
  1. Linearitet for ALLE x’er
  2. E(u|X)=0
  3. Ingen outliers (alle X’er)
  4. Uafhængige observationer
  5. Fravær af perfekt multikollinearitet. Stata fortæller hvis dette er et problem.
22
Q

Hvordan tjekker man linearitetsantagelsen, outliers og homoskedasticitet?

A

Antagelserne tjekkes ved brug af ACPR-plot - et “partielt scatterplot”. Tager residualerne fra hhv. X2, X3… over for Y og plotter det på X1. Det skal man gøre for samtlige variable.

23
Q

Hvad betyder antagelsen om homoskedasticitet, og hvordan tjekkes den?

A

Homoskedasticitet = variationen i fejlleddet skal være uafhængigt af X.
Vi kan få en idé om antagelsen med scatter/ACPR, men det tjekkes bedre med et RVP-plot, der plotter residualerne op mod X. De skal så helst ikke variere.
I praksis: Der er næsten altid heteroskedasticitet. Problemet løses med robuste standardfejl.