Clustering Flashcards
¿Cuál es la lógica de clusterear los SE?
¿A partir de qué cantidad tenés que aplicar Wild Bootstrap?
Surge por el concepto de que no siempre agregar un individuo a la muestra va a proveer la información relevante que uno espera. La lógica es corregir el tamaño de tu muestra para hacer inferencia porque no es tan razonable asumir que los individuos son complemente independientes entre sí (que no correlacionan sus términos de error). Es decir, si vos sospechás que los individuos que tenés en tu muestra están divididos en ciertos subgrupos (clusters) por pertenecer a contextos similares (ex.: escuela, barrio, ciudad, provincia, etc.), en realidad tu muestra no es tan grande porque la verdadera la tendrías a nivel cluster.
Básicamente, lo que hacés es desinflar el tamaño de tu muestra para no sobreestimar la inferencia. Al achicarla, sacrificás power a cambio de ser más conservador con los resultados.
Si tenés menos de 20 clusters, tenés que hacer wild bootstrap.
¿A qué nivel tenés que hacer el cluster de los errores estándar?
Lo que se hace es hacer el cluster al nivel en que se hace el sorteo. Por ejemplo, si estás estudiando el impacto de no recolectar la basura en la violencia doméstica, quizás no eligirías sortear a nivel casa porque probablemente no haya tanto efecto de tu basura sola, entonces tendría sentido asumir que sorteas a nivel barrio. Luego uno estudia el impacto del tratamiento en cada individuo pero el sorteo se hace a nivel barrio. En este caso, el cluster de los errores debería estar a nivel barrio, por lo que el tamaño de tu muestra será la cantidad de barrios que elijas, no la cantidad de casas que estudies.
Si sorteás a nivel individual, podés usar los errores estándar a nivel individual, siempre y cuando eso tenga sentido.
Cuanto más grande sea el cluster (más individuos incluyamos), más correlación estamos permitiendo. El consenso es hacerlo lo más grande posible para hacer lo más solida posible la inferencia pero tampoco exagerando porque perdés validez.
¿Cuáles son las características que aumentan la varianza del estimador haciendo cluster?
Será más grande cuanto:
→ Más positiva sea la correlación entre los regresores para observaciones del mismo cluster (Xi Xj).
→ Mayor correlación haya entre los errores de cada cluster (E (µi µj) ).
→ Más observaciones haya por cluster.
¿Cuál es la lógica del Wild Bootstrap?
La lógica es inventar nuevas muestras para aumentar las observaciones y así tener más robustez en la inferencia. Lo que se hace es simular varias veces un estadístico creando observaciones y si tu estadístico verdadero es más grande que el 99% de los otros, tenés un 1% de significatividad.