Clase 5 Flashcards
es un caso de valor extremo que cae fuera de los
valores esperados para la población, en una sola variable.
Dato atípico univariado
¿en la mayoría de los casos cómo está el outlier univariado?
Muy distante
Si no se identifican y manejan los outliers univariados, pueden:
- Distorsionar estimaciones
- Alterar la validez externa
- Ocasionar falta de normalidad
Cuando un outlier univariadologra distorsionar la tendencia central o la forma de la distribución, lo
llamamos
outlier de influencia
¿Por qué aparece un outlier?
- Error en el muetreo
- cuestionarios no muy claros
- introducción de datos defectuosa
- Valor extremo legitimo
La presencia de muchos outliers en una variable puede indicar que
no se ha definido bien a la población (criterios de inclusión,
exclusión) o que hay un mal muestreo.
Causas de los outliers
▪ Error en el registro de datos.
* En lugar de registrar 80 años, se registra 800
▪ Cuestionarios con preguntas confusas.
* Algunos entienden que deben responder en soles y otros en dólares.
▪ Mala creación de datos perdidos.
* Normalmente se asigna 99 o 999 a datos perdidos.
▪ Mala delimitación de criterios de inclusión y exclusión.
* Se regista a un joven en una investigación de mayores de 80 años.
▪ Se trata de un caso legítimo extremo de la población.
identificación gráfica de outliers univariados e identificación objetiva
- GRÁFICA
- Histograma
- Cajas y bigotes - Objetiva
- IQR
* De 1.5 a 3 IQR: outlier leve.
* Más e 3 IQR: outlier extremo.
- Z-Score: Mayor a |+/- 3 SD|
manejo/gestión de outliers univariados (en MACRO)
- Eliminación
- Sustitución
- Transformación
¿cómo es la eliminación, sustitución y transformación?
PARA OUTLIERS UNIVARIADOS
1. Manejo: eliminación
▪ Eliminación de caso o eliminación de variable.
▪ De caso: si hay buena razón para creer que el caso no es de la
población de estudio.
▪ De variable
2. Manejo: sustitución
▪ Se cambia el valore extremo por uno fronterizo.
▪ Ayuda a mantener el tamaño de la muestra.
▪ Convertir datos con score Z mayores de 3 a un Z-score de 3.
▪ Winzorization: cambiar el outlier con el mayor dato no outlier o una
unidad mayor.
▪ Sustitución por la media. Especialmente si el dato es influyente. Si la
distribución es sesgada, puede convenir reemplazar por la mediana.
▪ Utilizar la media recortada en algunos casos de distribución muy
sesgada.
3. Manejo: transformaciones matemáticas
▪ Más usados: ln, log, raíz cuadrada.
es el resultado de la combinación de dos o
más variables que juntos producen un resultado que es un valor
extremo.
Outlier multivariado
también tiene el potencial de alterar la validez externa
Outlier multivariado
Identificación de outlier univariado y multivariado
- Los outliers mutivariados no son tan fáciles de evidenciar (a diferencia de los outliers
univariados).
Técnicas más usadas para la evaluación de outliers multivariados
- Distancia de Mahalanobis.
- Estadísticos residuales
Características de mahalanobis
▪ Es una técnica multidimensional que sirve para evaluar la distancia
de un caso del centroide.
▪ Los casos que se alejan demasiado del centroide son sospechosos
de ser outliers.
▪ Lo que hace es generar una distribución chi-cuadrado para cada
caso