Regression Discontinuity Flashcards
¿Cuál es la lógica (básica) de RD?
¿Qué es el cut-off? ¿Cómo funciona el score? ¿Qué es la elección de Kernel?
La idea surge de los casos en los que el hecho de que un individuo sea tratado o no depende de una variable, como de un punto de corte (ex.: recibir una beca o no recibirla depende de que tu promedio sea mínimo 8). La herramienta aprovecha la lógica de que alrededor de ese corte los individuos son muy parecidos hacia ambos lados, por lo que hace el supuesto de que su asignación al tratamiento es como si hubiese sido aleatoria mientras nos encontremos en un cierto rango alrededor de ese corte. Básicamente, recortás la muestra enormemente para quedarte con los individuos que están dentro de cierto espectro alrededor del cut-off.
El cut-off entonces es justamente ese punto de corte determinado por una variable que definirá el estado de tratado o no tratado para los individuos. A la derecha (arriba) están los tratados y a la izquierda (abajo) están los controles. El cut-off tendría un score de 0, a medida que te vas alejando hacia la derecha el score de los individuos es creciente y a la izquierda decreciente. En base a ese score se define tu estado de tratado o no tratado y el rango de la muestra con la que nos quedaremos.
La elección de Kernel consiste en darle más peso a las observaciones que están más cerca del cut-off.
¿Cómo funciona la lógica de RD como un polinomio? ¿Cuál es el trade-off del ancho de banda?
Ex.: salario y educación. Pensar cómo sería un ejemplo de discontinuidad ideal y cómo sería una que afecte al supuesto de identificación.
El método consiste en tres pasos:
→ Elegir el grado del polinomio que mejor “representa” las observaciones (la misma lógica que usamos para MCO). Mientras más alto el grado, más flexible el polinomio (pero no necesariamente es la mejor opción en temas de optimización).
→ Luego, se selecciona un bandwith dentro del que haremos la estimación. Mientras más grande el ancho de banda, más external validity tendremos pero más riesgo de sesgo potencial. El trade-off del bandwith entonces es tener un ancho de banda lo más chico posible para que sea más creíble tu supuesto de identificación (menos riesgo de sesgo potencial) pero hasta el punto en que sea aceptable el power estadístico para hacer inferencia (porque acordémonos que estamos dropeando observaciones al achicar el ancho de banda).
→ Usamos límites para aproximarnos por la izquierda y por la derecha al cut-off. Alrededor del cut-off se mira la discontinuidad de la función para ver, si existe, el efecto del tratamiento. Lo ideal es que haya una discontinuidad en la función justo en el cut-off que no esté explicada por su forma funcional (como tener un salto en ese punto que no se pueda explicar por la función misma, sino por el tratamiento).
Ex.: salario y promedio secundario. La relación funcional debería ser positiva. En valor esperado, los que están a la izquierda del cut-off pero cerquita deberían tener salario más bajo que los que están a la derecha del cut-off y cerquita. Lo que estamos suponiendo es que no hay nada en esa forma funcional que tenga una discontinuidad en el cut-off. Entonces, lo que esperás en RD es que las funciones sean lineales con pendiente positiva en todo el rango pero además, que la forma funcional no tenga nada raro en un entorno del cut-off. Si justo la forma funcional pega un salto en el cut-off, se arruina RD porque no es creíble el supuesto de identificación. Quizás sucede algo raro por la forma funcional del outcome y eso aún así daña el supuesto de identificación. Es decir, yo quiero ver una discontinuidad porque significaría un impacto del tratamiento pero esa discontinuidad no puede depender de la forma funcional sino del tratamiento.
¿Qué problemas pueden aparecer en RD? ¿Por qué el LATE de RD presenta un problema? ¿Qué sucede si los individuos pueden manipular el score?
Hay varios y son parecidos a los problemas de diseño experimental:
→ Non-Compliance: tener individuos que tengan un score por encima o por debajo del cut-off pero no respeten su asignación al grupo. Sharp-Design: tener full compliance.
→ Perdés power por reducir tu muestra.
→ El LATE de RD es muy local, por lo que estás perdiendo mucha external validity.
→ Si los individuos conocen el score del cut-off, podrían manipularlo y de esa manera ya no es creíble el supuesto de identificación, tendrías selection bias. Estamos en un mundo donde los individuos decidieron ser parte del grupo control o del tratamiento porque sabían qué score tenían que tener para entrar en los grupos. Supongamos el caso de la beca y tu promedio: los que saben el promedio que hace falta tener para llegar a la beca podrían estudiar más para llegar a ella o decidir no estudiar igualmente porque no les interesa (no es razonable pensar que esas dos personas son iguales aunque estén cerca del cut-off). Según la herramienta son iguales pero son distintos en inobservables. Distinto es el caso donde todos saben del tratamiento pero no todos son conscientes de dónde está el corte, porque acá todos tienen incentivos a esforzarse y los que no llegan es razonable asumir que son parecidos al grupo que sí llegó.
¿Cuál es la diferencia en el LATE de IV y en el LATE de RD?
De manera simple, el LATE IV mide el impacto causal del tratamiento para el subconjunto de compliers porque es condicional a que hayas cumplido con lo que te tocó por sorteo (por eso instrumentás con el sorteo). Por otro lado, el LATE RD mide el impacto causal del tratamiento para el subconjunto de individuos que están cerca del cut-off (por eso es condicional en estar cerca del cut-off, o estar EN el cut-off desde el punto de vista teórico), por lo que el ancho de banda elegido afecta mucho la external validity y el potencial sesgo del coeficiente.