Impact Evaluation - Tipos de Datos Flashcards
¿Qué se puede hacer si tenés solo datos del Treated Group luego del tratamiento?
No se puede hacer nada. Inventar datos acá es ridículo. En otros escenarios, la “invención” de los datos pasa por una discusión ética.
→ ¿Qué se puede hacer si tenés datos para el Treated Group antes y después del tratamiento? ¿Qué forma tienen los datos? ¿Qué tipo de variabilidad se está explotando?
→ ¿Cuál es el dato inventado y sobre qué supuesto se sostiene?
→ ¿Cuándo no es creíble ese supuesto?
→ Dar ejemplo de cómo un DGP con reversión a la media puede desestimar un B&A. Ayuda Memoria: capacitación en las empresas.
→ ¿Es preferible tener más información de antes o de después del tratamiento?
→ B&A con Tendencia: explicar.
→ Es el método Before & After. Básicamente, el método consiste en calcular el promedio en el After y en el Before y hacer la diferencia para ver cuál es el efecto promedio del tratamiento en el grupo tratado (AOT: Average Treatment Effect on the Treated). Es una resta de medias. Son datos que tienen forma de panel porque estás observando a muchos individuos a través del tiempo pero en realidad son time series. Son todos individuos que eventualmente serán tratados todos al mismo tiempo, el status de tratado o no tratado es por estar en distintos momentos del tiempo. La variabilidad es del tipo within pero con una sola unidad temporal.
→ El dato inventado es el dato del Before xq es el contrafactual. Lo que estás asumiendo es que el grupo de tratamiento tendría el valor del before en el after si no hubiese sido tratado. Es como que te fabricás tu grupo de control con el dato del before del treated group. El supuesto último es que, en ausencia del tratamiento, el grupo de tratados no habría cambiado su outcome entre el before y el after. Eso quiere decir, en otras palabras, que suponés que no pasó nada en el medio entre el before y el after más allá del tratamiento, por lo que si hay un cambio en los datos, ese cambio se debe únicamente al tratamiento.
→ Se vuelve más difícil creerse el supuesto último de B&A mientras más grande sea la ventana de tiempo entre las mediciones de los outcomes. Mientras más chica la ventana, es más creíble que no pasaron otras cosas por fuera del tratamiento.
→ si el DGP de una variable es revertirse a la media, entonces puede sufrir un shock positivo o negativo y volverá a la media. Por ejemplo, una empresa quiere estudiar el impacto de una capacitación en sus resultados ¿Cuándo una empresa sale a buscar capacitaciones? Probablemente cuando les va mal. Si suponemos que el resultado iba a revertir a la media de manera natural, la empresa le atribuiría un impacto positivo a la capacitación cuando en realidad el resultado naturalmente iba a volver a su valor medio sin intervención.
→ De antes porque te permite sospechar menos del contrafactual.
→ En lugar de utilizar como contrafactual la situación antes de la intervención, utiliza la proyección de la tendencia antes de la intervención. Ver el Graf. 7.1.
Funciona cuando tu información del before es rica en datos, no tiene tanta varianza y es lineal y estable. Esto es para poder justificar lo mejor posible que la tendencia tiene sentido. Se está haciendo el supuesto de que en ausencia de intervención, esta variable habría continuado su camino. Lo mostrás a través de la tendencia.
→ ¿Cómo es el caso si solo tenés datos en el after para un grupo control y un grupo tratado?
→ ¿Cuál es el dato inventado y sobre qué supuesto se apoya?
→ ¿Por qué el sesgo de selección es la mayor amenaza para W&W? ¿Cómo podemos ayudar a disminuirlo?
→ ¿Qué tipo de variabilidad se explota acá?
→ Estamos en el mundo del With & Without. En este caso, también vemos el impacto del tratamiento en una resta de medias (la media del outcome para el grupo tratado menos la media del outcome para el grupo de control).
→ El dato “inventado” es el del grupo control porque simula ser el contrafactual del grupo tratado si no hubiese recibido el tratamiento. No es un dato irreal, sino que se utiliza para representar un contrafactual. Se apoya sobre el supuesto de que no hay sesgo de selección, es decir, que el grupo tratado y el de control son distintos en aspectos inobservables.
→ Tener sesgo de selección significa que los grupos difieren en características por fuera del tratamiento. Si son observables, se deberían agregar a la regresión. El problema está en las inobservables. Para creerte que hay un impacto causal del tratamiento, tenés que asumir que la asignación de los individuos a los grupos es como aleatoria. Es decir, son exactamente igual en todo excepto en que uno fue tratado y el otro no, lo que suena raro cuando el tratamiento son elecciones individuales (por ejemplo).
Agregando tantas variables de control como podamos sobre características observables de los individuos ayudamos a purgar el término de error para creernos más fácilmente el supuesto de que no hay sesgo de selección. Sin embargo, siempre resulta difícil de creer que se puso todo. Ex.: hermanos gemelos y la elección de ir a la universidad sobre el salario.
→ En el caso del W&W, muchas veces tenés variabilidad que parece panel data pero la verdadera es cross-section. Lo que importa no es el formato de los datos, sino la variabilidad que se explota.
→ Diff-in-Diff ¿Cómo es la relación entre individuos y el tratamiento?
→ ¿Qué datos tenemos en el caso de Diff-in-Diff? ¿Por qué se lo elije por encima del cross-section?
→ ¿Por qué decimos que el D&D soluciona el sesgo de selección y qué supuesto necesitamos hacer? Resaltar el significado de: la diferencia entre grupos en el before y la diferencia entre el after y el before del control group.
→ ¿Se debería expresar el resultado en logaritmo o en niveles? ¿Cuándo es indistinto?
→Todos los individuos empiezan siendo no tratados y un subconjunto pasa a ser tratado o, si todos pasan a ser tratados, pasan de no ser tratados a ser tratados en distintos momentos del tiempo. Esta diferencia temporal es lo que valida DinD, xq si sucedieran cosas entre el “no tratamiento” y el “tratamiento” deberían estar siendo capturadas por los individuos todavía no tratados y los que habían sido tratados antes. Si todos son tratados al mismo tiempo estamos en el mundo del B&A. Ver ec. 8.1.
→ Tenemos el outcome para los dos grupos tanto antes del tratamiento como después. Si el tratamiento es un sorteo ambos métodos son consistentes pero el D&D es más eficiente.
→ No decimos que no hay sesgo de selección, sino que, si lo hubiera, este método lo corrige. La diferencia entre los grupos en el outcome en el after podría tener sesgo de selección (que es la posible diferencia entre los grupos en ausencia del tratamiento), entonces agarramos la diferencia en el outcome en el before como una proxy del sesgo de selección (técnicamente no lo es). Lo que estamos diciendo es que la diferencia anterior es una buena proxy de la diferencia posterior en ausencia del tratamiento.
Entonces, el supuesto es que no pasó nada entre el período before y el after que haya impactado en ambos grupos y de manera distinta (si los afectara de igual manera, no tendríamos un problema).
La diferencia dentro del control group es una señal de que algo efectivamente sucedió en el medio que lo/s impactó, sino no tendría que haber diferencia entre el before y el after para este grupo.
→ No hay una regla que te diga si usar uno o el otro, es un tema ético. Ec. 8.2 para entender mejor. Si los números del before son parecidos, es indistinto.
Comparar el supuesto de identificación entre B&A, W&W y D&D.
→ B&A: supone que no pasó nada entre el before y el after por fuera del tratamiento.
→ W&W: supone que los individuos son exactamente iguales, excepto por que algunos fueron tratados y otros no. De esta manera, la asignación al tratamiento es como si fuese aleatoria.
→ D&D: supone que no pasó nada entre el before y el after que haya afectado a ambos grupos de distinta manera. Es decir, que el grupo de control evolucionó del período before al período after igual a como hubiesen evolucionado los tratados en ausencia del tratamiento. No hace falta que los individuos sean iguales, sino que sus diferencias se mantengan constantes en el tiempo.
→ ¿Cómo es la ecuación formal del D&D? ¿Qué significa cada término?
→ Explicar con palabras, a partir de la ecuación, cómo D&D soluciona el problema de B&A con respecto a la variación en ▲µt.
Yit = ßDit + þXit + µt + αi + εit
→ Yit: outcome del individuo i en el momento t.
→ ß: impacto del tratamiento. Único coeficiente que interpretamos.
→ Xit: vector de variables de control. Intentan limpiar la ecuación de todas aquellas cosas que afectan al outcome de los individuos de manera distinta para cada grupo (porque si los afectaran por igual, estarían en el µt y en el αi).
→ µt: efectos fijos por tiempo. Acá estarían todas las cosas que afectan a los individuos por igual en determinado momento del tiempo. Hay una dummy por cada período. Solucionás el problema del B&A.
→ αi: efectos fijos por individuo. Si los individuos son distintos pero son siempre igualmente distintos, no tengo un problema porque eso está capturado por este término. Solucionás el problema del W&W porque limpiás el sesgo de selección.
→ Básicamente, el resultado del B&A te queda sesgado porque no podés sacarte de encima la variación en los efectos fijos por tiempo (si pasó algo entre el before y el after). Cuando hacés D&D, lo eliminas en la propia resta.
→ ¿Qué es el Parallel Trend Test?
→ ¿Cuáles son los posibles escenarios de las tendencias/niveles?¿Qué rol juega el efecto fijo por individuo?
→ El Parallel Trend Test es una herramienta que intenta “testear” el supuesto de identificación de D&D. Lo que se hace es comparar la tendencia de los grupos previo y post tratamiento. Si eran iguales ex-ante, es razonable asumir que los individuos eran iguales; si luego observo una diferencia en las tendencias, podría atribuirle efecto al tratamiento. En este mundo, no es necesario el término fijo por individuo porque los individuos serían iguales.
→ Hay varios escenarios según los datos.
→→ First Best: las tendencias previo al tratamiento son iguales y están al mismo nivel para ambos grupos y aparece una diferencia post tratamiento solo para el grupo tratado (el grupo control continúa su tendencia).
→→ First Best un epsilon peor: las tendencias previo al tratamiento son iguales y están al mismo nivel pero post tratamiento ambos grupos cambian su tendencia. Es un mundo donde no se cumpliría el SUTVA pero es aceptable.
→→ Pre-Treatment Diff. in Levels: es el mundo en el que las tendencias son paralelas ex-ante pero no están al mismo nivel. En este mundo, no es razonable asumir que los grupos eran iguales pero se suele utilizar la tendencia ex-post del control group como un contrafactual de la tendencia ex-post del treated group si no hubiese sido tratado. En este mundo, el αi captura las diferencia entre los individuos (acá vemos xq no es ideal que aparezca, es una desventaja).
→→ Pre-Treatment Differences in Trends: en este mundo, aplicar D&D está mal. Es el peor escenario posible. Como dice el nombre, se trata del escenario en el que las tendencias y los niveles son diferentes. Acá los grupos no son iguales y además no podés extrapolar las tendencias.
→→ No olvidarse que en la realidad los datos pueden ser mucho más escasos. Recordar mentalmente los gráficos de los puntitos en el cuaderno (G8.1 y G8.2). El primer caso intenta ser un First Best (aunque puede tener su problema si pensamos en las posibles tendencias de cada grupo) y el segundo caso intenta ser un pre-treatment diff in levels.
→ ¿Qué es el staggered diff-in-diff?
→ ¿Qué gráfico hay que utilizar en este caso para testear las tendencias paralelas?
→ ¿Cuál es la desventaja de este gráfico?
→ Es la situación en la que todos son eventually treated pero lo viven en distintos momentos del tiempo.
→ En este caso, el test a utilizar es el de Leads y Lags. Básicamente, se puede descomponer el proceso en 2 pasos: primero, se normaliza el momento del tratamiento para todos los individuos (es decir, se marca el momento t como aquel donde el individuo es tratado y después t+1 o t-1 si nos movemos hacia atrás o adelante en el tiempo); segundo, se comparan los outcomes entre el grupo potencialmente tratado y los nunca tratados para ver si existen diferencias en las tendencias.
Al estar todos los períodos normalizados con respecto al tratamiento, lo que querés es que previo a t las diferencias ronden alrededor del cero y luego del t, que se haga positiva o negativa (que haya algún efecto).
→ La desventaja es que este gráfico no te permite ver los niveles de los grupos, sino solo la diferencia en las tendencias.
¿Cuál es la diferencia entre decir que un coeficiente es cero porque la estimación da cero contra decir que es cero porque no podés rechazar la hipótesis nula?
Hay una diferencia importante. Cuando el cero proviene de la varianza, el argumento de que el efecto es cero no es tan creíble. El argumento es débil. Es mucho más fuerte cuando la estimación ronda alrededor del cero.