Variables Instrumentales Flashcards
¿Cuándo necesitamos introducir IV? De manera general, ¿qué implica?
Cuando nos damos cuenta, o asumimos, que el supuesto de identificación de OLS no se cumple. Si nuestro regresor no es exógeno, necesitamos introducir una herramienta que nos asegure consistencia en la estimación.
Lo que hacemos es salir a buscar una variable Z que, suponemos, no está en el DGP de Y y que esté correlacionada con el regresor endógeno (esto es testeable). La existencia de correlación entre Z y X es lo que garantiza la existencia del estimador IV (parecido a cuando pensamos en la existencia de (X’X)^(-1).
Repasar el moment condition de esto en la ec. 5.1.
¿Cuáles son los instrumentos en una regresión?
Formalmente, los instrumentos son todas las variables Z y los regresores potencialmente exógenos (porque las variables potencialmente exógenas son instrumentos de si mismas).
Informalmente, que es lo que usamos en la materia, instrumentos son solo las Z.
Recordar las ecuaciones del estimador IV y sus propiedades asintóticas.
β_IV_hat = (Z’X)^(-1) Z’Y
β_IV_hat = β + (Z’X)^(-1) Z’ε
Las propiedades asintóticas nos dicen que este estimador es consistente y el de mínima varianza cuando la muestra tiende a infinito (LGN). Para recordar esto y ver a qué tiende en distribución el estimador, mirar ec. 5.2 y 5.3.
¿Qué condición necesitamos sobre la cantidad de instrumentos para saber si puedo usar IV?
La regla de oro es que necesitamos tantos instrumentos (informalmente hablando) como regresores potencialmente endógenos, sino no sirve IV.
¿Qué es el modelo GIVE? ¿En qué influye el R2 de la primera etapa?
También llamado 2SLS, es un modelo que hace OLS dos veces usando distintas variables.
1) El primer paso es correr una regresión de Z sobre X y quedarte con el resultado como en formato X_hat.
2) Hacer la regresión de OLS original pero usando X_hat en vez de X.
De esta manera, estaríamos utilizando la variabilidad exógena de la X al purgarla de su variabilidad endógena en la primera etapa del 2SLS. Por lo tanto, el estimador IV es consistente (chequear ec. 5.5).
El R2 de la primera etapa te indica cuánto porcentaje de la variabilidad de X estoy captando con la Z.
¿Por qué necesito una muestra grande?
Yo necesito mucha variabilidad de la X porque si ya de base tengo poca, menos variable será aún si encima la reduzco a través de Z, lo que me generará mucha ineficiencia.
En resumen: utilizar IV nunca me generará sesgo pero podría generarme ineficiencia si hay variabilidad exógena de la X que no la captura la Z. Más ineficiencia me generará si encima mi n es chico (porque X tiene poca variabilidad, lo que induce mucha varianza en la estimación).