Lecture 6 Flashcards

1
Q

Vad är en proxyvariabel?

A

Det är en variabel som används för att mäta något som inte är direkt observerbart.

T.ex är IQ test eller skolresultat proxy för att mäta intelligens. Man ”approximerar” intelligens med de variablerna.

Det är alltså en annan variabel som har ett starkt samband med den variabeln man vill mäta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vilka tre metoder föreslår Ference man kan använda då vi inte har ett experiment där vi kan randomisera grupper..

A

1 Kan vi inte skapa riktiga experiment så kan vi genom proxivariabler kontrollera fram randomisering.

2 Vi kan använda/hitta naturliga experiment. Detta genom instrument variabel eller RDD (Regression discontinue design)

3 Vi kan också se på tidsskillnader (hur samma individer varierar över tid. Genom DIF in DIF eller panel data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vilka två sätt kan man använda för att få unconfoundness vid en studie?

A
  1. Regressioner med kontroller
  2. Matchning. Man hittar någon i kontrollgruppen som är lika någon i behandlingsgruppen. Sedan jämför vi bara de paren som liknar varandra. Sedan tittar på den genomsnittliga skillnaden mellan dem.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vad är uncondoundness assumption?

A

(Y0i , Y1i ) ⊥ Di |(X1i , …, Xki )

Även om vi inte har ett riktigt experiment med äkta randomisering, så kan vi ”anta” att vi har så gott som random assignment när vi kontrollerar för alla variabler/covariat vi behöver kontrollera för.

Man kan säga att all form av matchning vilar på att det här antagandet stämmer. Givet det så fungerar matchning. Problemet är att det förmodligen alltid finns kovariat man inte har kontrollerat för, vilket för at unconfoundness assumption inte håller.

Men om det håller har vi kausalitet!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Ge exempel hur man får unconfoundness om man studerar folk som väljer att delta i arbetsträningsprogram?

A

De personerna som är smartare kommer vara de som väljer att delta i själva träningsprogrammet. Utfallen är därför inte oberoende av D. Men om vi kontrollerar för ”smarthet” så kommer det att vara det.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vad betyder det om

fˆ(X1i, …, Xki ) = f (X1i, …, Xki )

?

A

Att den funktionella formen man använder för att estimera Y är den sanna formen.

Vi representerar den funktionella formen rätt i vår regression.

Alltså, man använder rätt typ av funktion.

T.ex har man Experience + Experience^2 i sin löneekvation osv.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad menas med

0 < Pr(Di = 1|X1i , …, Xki ) < 1
?

A

Överlappnings förhållande

För alla värden av X är sannolikheten att observera folk som får behandlingen är större än 0 men mindre än 1.

För alla värden av X1 variablerna kommer vi alltså att observera både folk som har fått behandlingen och folk som inte har fått behandlingen.

Om inte det här skulle hålla, skulle vi inte hitta liknande individer som har fått och inte fått behandlingen. Det skulle vara helt olika människor (har helt olika värden av X, utan överlappning) som ingår i de olika betingelserna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vad betyder mean indipendence?

A

Medelvärdet av utfallen utan behandling givet både behandlingsvariabeln och x variablerna. Är det samma som det genomsnittliga utfallet utan behandlingen givet endast X variablerna.

När man har betingat X så ger inte behandlingsvariabeln någon annan informtion som inte ges av Xen.

Om jag vet utbildningen av en person så kan jag göra en bra gissning av dennes lön. Om denna säger att den också ha fått behandlingen så kommer jag inte kunna göra en bättre gissning på utfallet utan behandling på givet den informationen.

D ger oss ingen extra information.

E [Y0i|Di, X1i, …, Xki ] = E [Y0i|X1i, …, Xki]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Om vi kontrollerar för ALLA X vad har vi då i termer av kontroll och behandlingsgruppen..

A

E [ui|Di, X1i, …, Xki ] = 0

Behandlade och obehandlade personers feltermer är helt okorrelerade inom grupperna. Vi har alltså exogenitet.

Om vi kontrollerar för X har vi lika grupper. Får man skillnader, så har det med random saker att göra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Man vill studera effekterna av en jobbträningsutbildning. Om det är frivilligt att delta i en arbetsmarknadsutbildning men det kräver att man i alla fall har fullständiga gymnasiebetyg för att delta. Vad kan vara ett problem?

A

Det kommer att saknas överlappning! Om man studerar både personer som har och inte har fullständiga gymnasiebetyg.

Folk med fullständiga gymnasiebetyg kommer vara överrepresenterade i behandlingsgruppen. Vi har alltså inte ekvivalenta grupper!

Det är just överlappningen vi vill studera för att kunna kontrollera för ekvivalenta grupper.

I den bästa av världar kommer det finns både folk utan så mycket utbildning som delar i utbildning samt att personer med en hel del utbildning som inte vill delta i utbildningen. Vi kan då studera överlappat.

Annars kan vi alltså inte säga hur behandlingen har för effekter på utbildade och inte så utbildade människor om det var personer med helt olika utbildningsnivåer som deltog och inte deltog. Det finns då alltså inte personer i behandlingsgruppen som liknar personer i kontrollgruppen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vad är matchning och vilka metoder använder man får att få till det?

A

Vid matchning försöker man hitta likande par mellamn kontroll och behandlingsgruppen och man jämför skillnaden mellan dem.

Man kan göra en exakt matchning

Eller använda en propensity score card matchning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad gör man vid exakt matchning?

A

Man bestämmer vilka covariats man ska matcha för och vilka nivåer. T.ex för utbildningsnivå.
X1 = 1 är grundskola
X1 = 2 är gymnasiet
X3 = 3 är universitet

Man jämför då de genomsnittliga utfallen vid behandlings och kontrollbetingelsen mellan X = 1 och samma för X = 2 och X = 3.

På så sätt har man exakt matchat. Man jämför bara effekterna för de som har lika mycket utbildning. Vi kan genom det räkna ut en sann genomsnittlig behandlingseffekt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vi vi kollar effekten av någon behandling och genom exakt matchning vill kontrollera för kön (X1 = 1, X1 = 2) och utbildning (X2 = 0, X2 = 1).

Vi har en behandling och en kontrollgrupp.

Hur går vi till väga när vi räknar ut den genomsnittliga behandlingseffekten?

A

Vi har två matriser, en för kontroll och en för behandling.
Vi tar skillnaden mellan X1 = 1 och X2 = 0 hos behandlings och kontroll gruppen (behandling MINUS kontroll), sedan X 1 = 1 och X2 = 1 mellan grupperna osv tills vi bara har EN matris som bara innehåller skillnaderna.

Vi adderar sedan skillnaderna och delar med antalet Celler i den matrisen för att få ATE.

Se sida 12 -> Föreläsning 6

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vilka är för och nackdelarna med exakt matchning?

A

Det är helt icke-parametriskt. Alltså man behöver inget antagande om vilken funktionell form som kontrollvariablerna har.

Det tar implicit hand om överlappningen. Hade vi ingen överlappning så skulle vi inte ha något värde i cellen. Vi jämför alltså ALLTID överlapp.

Problem är dock:
Har vi många X kommer vi har många dimensioner!
När dimensionerna ökar kommer komplexiteten snabbt att öka och man kommer ha svårt att hitta exakt liknande kombinationer av X.

Det blir även svårt om det finns fler element i X. T.ex om man har kontinuerliga värden på X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

När och varför använder man propensity score matching?

A

Det här är generellt den typen av matchning som används och man gör det pga att denna reducerar dimensionerna i matchningen till en enda dimension, nämligen propensity poängen.
Man matchar då personer med samma propensity score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vad är intuitionen i propensity score matching?

A

Man behöver inte par mellan kontroll och Behandlingsbetingelsen som har exakt samma värden på X.

Vi behöver bara hitta några som har samma sannolikhet att bli behandlade. KOmbinationen av en uppsättning X kommer ge samma sannolikhet hos en person som hos en annan.

VI får då ned alla dimensioner till en.

VI behöver bara hitta två personer som har samma sannolikhet att ta upp behandlingen.

Vi matchar alltså bara folk med samma score.

17
Q

Hur görs propensity matching?

A

Det görs i två steg:

1) Vi estimerar den villkorliga sannolikhetsfunktion.
Detta genom att stoppa in alla sina variabler variabler man vill matcha för i en probit eller logit funktion.

Pr(Di = 1|X1i , …, Xki ) =Φ(β0 + β1X1i + … + βk Xki )

Man räknar sedan ut ett propensity score för varje individ som säger hur trovärdigt det är att man tar upp behandlingen eller inte.

Man får alltså ett objekt på en dimension.

18
Q

Vilket villkor behöver hålla för att man ska kunna använda propencity score?

A

Unconfoundness

19
Q

Vad är för och nackdelar med att matcha personer med eller utan återläggning?

A

Återläggning betyder att man använder en person fler gånger, alltså matchar en persons er fler personer.

Använder jag en person fler gånger kan jag få bättre matchar (om han är den bästa matchen för fler dvs, då finnas han ju fortfarande tillgänglig att matcha), det ger bättre POWER.

Använder man samma person fler gånger kommer man dock reducera mängden information man använder (kontrollgruppen blir mindre). Man kommer också använda samma persons brus fler gånger. Använder man inte återläggning kommer ju fler personers brus potentiellt i större utsträcknig fasa ut varandras, medan här förstärks en persons brus.

Så återläggning kommer potentiellt ge bättre matchningar på bekostnad av sämre precision.

20
Q

Vilka olika matchingsmetoder använder man vid propensity matchning? Alltså, hur man matchar ihop folk.

A

Närmsta grannen: man tar den personen som är mest lik en person, utan hänseende på HUR lik denne är.

Caliper: man utfår ifrån ett visst fönster (runt ens propensity score) där man vill matcha. Man matchar då med alla som faller in i det fönstret.

21
Q

Vilka är för- och nackdelarna med propensity score matching?

A

Då man använder caliper matchning kommer vi ha bra överlapp, givet ett litet fönster. Man kommer ju bara matcha folk som är väldigt lika i chansen att ta till sig behandlingen.

Det är flexibelt gällande funktionell form, man antar inte att X påverkar på något icke-linjärt sätt.

En nackdel är att denna typ av matchning inte är helt icke-parametrisk pga logit/probit parametern. (?)

Det finns också lite problem med funktionell form, men förstod inte.

22
Q

Ska man använda regression med konstanthållning eller matchning?

A

Det har varit lite olika uppfattningar genom tiderna, men nu verkar resonemanget vara att regression ändå är bra om man tar unconfoundness, funktionell form och overall seriöst.

Det spelar alltså inte så stor roll om man väljer regression eller matchning, så länge man tar de tre grejerna i åtanke då man inte har riktiga experiment.