Problemas de OLS Flashcards
Multicolinealidad Perfecta y Alta. Explicar.
La multicolinealidad no es un problema al momento de predecir Y_hat pero es un problema muy relevante para establecer causalidad porque nos importan los B_hat.
Ejemplo del plano: supongamos que tenemos X1, X2 y X3 pero hay multicolinealidad perfecta. Entonces, estas 3 variables me van a estar generando una superficie de 2 dimensiones. Una vez que Stata genera la superficie, proyecta Y sobre ese plano para obtener Y_hat. Luego viene el problema, porque habría infinitas combinaciones lineales de X1, X2 y X3 que me llevan a Y_hat (entonces no existen los B_hat). Entonces, la multicolinealidad perfecta no es un problema para predecir pero sí para establecer causalidad.
Por otro lado, la multicolinealidad alta (casi perfecta) es un problema. En este caso, el programa no te dropea ninguna variable pero te dispara enormemente la varianza. Esto significa que si vos cambiás un dato un poquito, los coeficientes se te vuelven totalmente locos, se disparan. Si la multicolinealidad no es un problema, un cambio en los datos no debería afectarnos tanto porque la varianza no es tan alta.
Heterocedasticidad. Explicar.
Si eliminamos el supuesto de homocedasticidad, nuestro estimador OLS sigue siendo insesgado y consistente pero deja de ser el más eficiente porque no es más el de mínima varianza. El de mínima varianza pasa a ser el Generalized Least Squares (GLS), que es dividir a todas las variables del individuo por la varianza del término de error de ese individuo. Si quisiéramos hacer inferencia de manera correcta, tendríamos que usar la fórmula de heterocedasticidad para OLS, aunque la de mínima varianza sea la de GLS porque arriesgamos la consistencia.
→ Esto significa tomar una estrategia pasiva frente a la heterocedasticidad. Tomar una activa sería usar FLGS pero eso pone en riesgo nuestra consistencia porque nunca vamos a estar seguros de que estemos dividiendo por la varianza correcta. Como para nosotros la consistencia es lo primordial, tomamos la estrategia pasiva, que consiste en aceptar la heterocedasticidad y simplemente vivir en un mundo en el que va a costar más afirmar que tu estimador tiene un efecto (rechazar la hipótesis nula). Usamos el estimador de White para la varianza.
Errores de Medición en los Regresores. Explicar.
Los errores de medición en la dependiente no es tan grave porque es más varianza para el término de error.
Para los regresores, por otro lado, es importante porque hacen inconsistente al estimador. Sin embargo, safamos de que sea un problema porque sabemos que el error tira el coeficiente hacia abajo. Pensemos la siguiente lógica: si toda la variabilidad de la X fuera error, su coeficiente daría cero; mientras menos error, más se acercaría a su valor desde abajo. El saber que es un lower bound ya proporciona información relevante a la investigación.
Si las variables independientes están correlacionadas, el error de medición en una termina afectando a las otras también.
Variables Omitidas. Explicar.
No es un problema si la variable omitida no está correlacionada con la que está en el modelo. Es así porque si yo omito una variable que está correlacionada con mi independiente, entonces mi regresor tendrá una conexión con el término de error, lo que la hace inconsistente.
Lo que sí tengo es un problema de eficiencia porque el término de error tiene más varianza que si yo le saco X2.
Además, si esa variable no es relevante para explicar a Y, tampoco tendré un problema de consistencia.
Modelo Sobre especificado. Explicar
No nos generará un problema de consistencia pero sí puede generarnos un problema de varianza en los coeficientes que son verdaderos del modelo.
Se presenta entonces el trade-off clásico de las variables:
→ Incluir de más aumenta la varianza.
→ Incluir de menos aumenta la inconsistencia (sesgo).