3.DD Flashcards
Vad menas med selectron of observables?
Selection on observables: matching and regression (OLS)
We may not have a controlled experiment, but the treated group and the non-treated group differ only by a set of observable characteristics.
An assumption that justifies in those cases the causal interpretation of our estimates is called Conditional Independence Assumption or Selection on Observables.
X1 is independent of the population error term u conditional on the factors W’s. Both regression and matching require CMI
Thus, we need to observe the W’s (selection-on-observables) to get an unbiased and consistent estimate of β1. The choice of how to specify the CEF, E[Y|X], and its functional form are also key requirements. We therefore have to take a stance on the right specification (cf. choice of neighbourhood or peer group summary statistics). Economic theory may inform this choice.
Det handlar alltså att ta höjd och kontrollera för eller matcha för de sakar vi vet om.
När kontrollerar man för ”selection on unobservables”?
Vilka antaganden för vi om våra confounders?
När man har paneldata och förljer folk över tid.
Det vi kontrollerar för är då saker som vi inte ser, men vi vet varierar över individer, men inte tid.
- Våra confounding variabler varierar inte över tid. Dvs Wit = Wi
- De är linjära.
Vi kan då kontrollera för ”individual fixed effect”. Egenskaper som varierar över individer men inte över tid.
Vilka två sätt använder man för att kontrollerar för ”individfixerade effekter?”
Controlling för unobservables.
First difference transformation (FD):
Här tar vi regressionen i aktuell tidsperiod och drar av regressionen i förra tidsperioden.
Skillkaderna mellan regressionerna blir då vpr first difference ekvation.
Konstanten som inte varierade över tid har då försvunnigt.
Fixed effect transformation (FE)
Demeaning, denna är svårare menar han..
taking the mean across time.
Har man bara två tidsperopoder är dessa två lika, annars skiljer de sig åt något.
Vad menas med strikt exogenitet och sequensiell exogenitet?
Strictly exogenous means the error term in period t is unrelated to any instance of the variable X; past, present, and future. X is completely unaffected by Y.
Sequentially exogenous means in which the error term is unrelated to past instances of the variable X. Past, pressent, not future.
”Sequential exogeneity (past and present) means that the regression specification has the right dynamic specification. For example, two lags of X are sufficient to capture the dynamic response of the treatment effect”
Importantly, the panel data approach requires strict exogeneity, i.e., the error term has mean zero, given all past, present and future values of X. E(ut |..X t+1, X t, Xt-1)=0
Ge exempel på strikt exogenitet formuleras med FD transformation
Yit-Yit-1=(Xit-Xt-1)-(uit-uit-1) where E[∆uit |∆Xit]=0
Present (contemporaneous) exogeneity: Cov(Xit,uit)=0 and
Cov(Xit-1,uit-1)=0
Past exogeneity: Cov(Xit,uit-1)=0
Future exogeneity: Cov(Xit-1,uit)=0
Yit =αi + βtXit + βt-1Xit-1 + βt-2Xit-2 +uit
Vad är t-1 och t-2? Vad fångar dessa ekvationen?
Laggarna. Effekten nästa och nästnästa period. Alltså den dynamiska responsen av behandlingseffekten.
Vilken kombination kan man inte ha beträffande fixerade effekter och laggar och leads?
Man kan inte ha fixed effect modell och en lag av Y variabeln, det blir bias då.
Vilken data nivå är DD generellt på?
På gruppnivå
In a difference-in-difference (DD) approach, the treatment occurs at the group level. Thus, DD is based on grouped-data regressions.
Consider a micro (e.g., individuals) regression model Yig= a + bXg + vig
where xg is a discrete regressor, taking on g different values.
Vad löser det att gruppera och vikta?
The grouped-data, weighted by the cell size is identical to OLS on the micro data (standard errors
are of course different: but it solves the Moulton problem, i.e., outcomes are
correlated within groups:
Om man inte väger menar han att Beta inte blir indentisk. Väger man, är de indentiska.
If the regressor is discrete then the regressor defines the groups. The
grouped data regression is OLS because all the variation in Xg is only at the
group level. By aggregating Yig we are not changing anything about Xg. As a
result, we do not need to have micro data but only grouped-data.
Hur kan man kolla ifall man har problem med endogen sampling eller en felspecificerad modell?
Man kör en vanlig OLS regression och en WLS på group level.
Man ska få samma beta. Får man intre det är det något fel.
Vilken nivå har vi confounding factors vid DD? Hur får vi bort dem?
In a DD approach, the confounding factors are at the group level. We can
control for unobservable (time-constant) factors at the group level by difference away the group fixed effect (or equivalently by conditioning on a grouped fixed effect)
Vad gör DD?
The DD requires at least two years of data in the form of pooled cross sections i.e., a new random sample is taken from the population each year or panel data i.e., observations on the same individuals, families, firms, cities, states, or
whatever, across time. We then divide the data into group/period means.
In the simplest possible setting DD there are four group/period means: the treatment
group before, the treatment group after, the control group before and the control group after (X=1 if treatment group, X=if control group, T=0 if period before,
T=1 if period after)
Vad är DD estimatorn?
Vad är slillnaden mellan RCT och DD?
The differences-in-differences estimator is the average change in y for those in the treatment group, minus the average change in y for those in the control group
Här jämför vi förändirng medan RCT jämför nivåer. Men tillåter det alltså att det är skilljader i medelvärde mellan grupperna.
Går också att skriva på regressionsspråk
Vilka kontroll-variabler ska man inkludera i en DD?
Saker som varierar på grupp och tidsnivå.
Only controls at the group level Wgt is relevant for identification unless there is compositional bias, i.e., the sample of individuals before and after the treatment are not drawn from the same population (e.g., people move). Individual level covariates may then control for compositional changes. On the other hand, panel data without any attrition avoids compositional bias altogether since it the same individuals both before and after the treatment.
Kontroll variabler på individnivå kan inte förhindra OVB, men det kan göra OLS estimatorn mer precis..
Vad är Key-identifying assumption för DD?
The key identifying assumption in a DD is that there is no interaction between the time and groups expect for the treatment under study, i.e., the treatment groups have similar trends to the control groups in the absence of treatment.
This is called the parallel trend assumption
Same outcom in growt rate before treatment
”Modellen har strikt exogenitet conditional on the unobserved fixed effec”
”Treatment and control groups have paralell trends (future exogeneity)”
No lagged and dependent variable and no feedback.