Clase 5 Flashcards
es un caso de valor extremo que cae fuera de los
valores esperados para la población, en una sola variable.
Dato atípico univariado
¿en la mayoría de los casos cómo está el outlier univariado?
Muy distante
Si no se identifican y manejan los outliers univariados, pueden:
- Distorsionar estimaciones
- Alterar la validez externa
- Ocasionar falta de normalidad
Cuando un outlier univariadologra distorsionar la tendencia central o la forma de la distribución, lo
llamamos
outlier de influencia
¿Por qué aparece un outlier?
- Error en el muetreo
- cuestionarios no muy claros
- introducción de datos defectuosa
- Valor extremo legitimo
La presencia de muchos outliers en una variable puede indicar que
no se ha definido bien a la población (criterios de inclusión,
exclusión) o que hay un mal muestreo.
Causas de los outliers
▪ Error en el registro de datos.
* En lugar de registrar 80 años, se registra 800
▪ Cuestionarios con preguntas confusas.
* Algunos entienden que deben responder en soles y otros en dólares.
▪ Mala creación de datos perdidos.
* Normalmente se asigna 99 o 999 a datos perdidos.
▪ Mala delimitación de criterios de inclusión y exclusión.
* Se regista a un joven en una investigación de mayores de 80 años.
▪ Se trata de un caso legítimo extremo de la población.
identificación gráfica de outliers univariados e identificación objetiva
- GRÁFICA
- Histograma
- Cajas y bigotes - Objetiva
- IQR
* De 1.5 a 3 IQR: outlier leve.
* Más e 3 IQR: outlier extremo.
- Z-Score: Mayor a |+/- 3 SD|
manejo/gestión de outliers univariados (en MACRO)
- Eliminación
- Sustitución
- Transformación
¿cómo es la eliminación, sustitución y transformación?
PARA OUTLIERS UNIVARIADOS
1. Manejo: eliminación
▪ Eliminación de caso o eliminación de variable.
▪ De caso: si hay buena razón para creer que el caso no es de la
población de estudio.
▪ De variable
2. Manejo: sustitución
▪ Se cambia el valore extremo por uno fronterizo.
▪ Ayuda a mantener el tamaño de la muestra.
▪ Convertir datos con score Z mayores de 3 a un Z-score de 3.
▪ Winzorization: cambiar el outlier con el mayor dato no outlier o una
unidad mayor.
▪ Sustitución por la media. Especialmente si el dato es influyente. Si la
distribución es sesgada, puede convenir reemplazar por la mediana.
▪ Utilizar la media recortada en algunos casos de distribución muy
sesgada.
3. Manejo: transformaciones matemáticas
▪ Más usados: ln, log, raíz cuadrada.
es el resultado de la combinación de dos o
más variables que juntos producen un resultado que es un valor
extremo.
Outlier multivariado
también tiene el potencial de alterar la validez externa
Outlier multivariado
Identificación de outlier univariado y multivariado
- Los outliers mutivariados no son tan fáciles de evidenciar (a diferencia de los outliers
univariados).
Técnicas más usadas para la evaluación de outliers multivariados
- Distancia de Mahalanobis.
- Estadísticos residuales
Características de mahalanobis
▪ Es una técnica multidimensional que sirve para evaluar la distancia
de un caso del centroide.
▪ Los casos que se alejan demasiado del centroide son sospechosos
de ser outliers.
▪ Lo que hace es generar una distribución chi-cuadrado para cada
caso
Características de análisis de residuos
▪ Residuos no estandarizados.
▪ Residuos estandarizados.
▪ Residuos studentizados
¿Cuándo es problemático un outlier?
El dato es problemático a nivel multivariable solo si es de influencia.
¿cómo sabemos si un outlier es de influencia según el ppt?
Para outliers multivariados
- Levarage (apalancamiento)
▪ Se puede calcular un valor de leverage (hat) para cada dato.
▪ Luego se compara con la llamada media de apalancamiento: FÓRMULA EN EL PPT
▪ Si el valor es mayor que 3 veces la media de apalancamiento,
entonces esa observación es un outlier de influencia
2. Distancia de Cook
▪ Mide el impacto que tiene una observación sobre la linea de
regresión.
▪ Se construyen modelos de regresión quitando una observación a la
vez y comparándolos.
▪ Se calcula un valor de Cook para cada observación.
▪ Los valores mayores a 4/n deben investigarse.
▪ También los valores mayores a 0.5.
▪ Valores mayores a 1 son outliers de influencia.
de que depende el manejo de outliers
- De 2 cosas
- ¿Es un outlier legítimo?
- ¿Cuál es su influencia en los parámetros estimados?
aprender algoritmo de la diapo 28
…
Preguntas a hacer en datos perdidos
▪ ¿Cuántos?
▪ ¿De qué parte del estudio?
▪ ¿Puede influenciar en los resultados?
Definiciones de datos perdidos
1. Pérdida completamente aleatoria
2. Pérdida aleatoria
3. Pérdida no aleatoria
4. Pérdida diferencial
▪ Pérdida completamente aleatoria: casosfortuitos de pérdida de datos. El
riesgo de sesgo es bajo. P. ej. Fallas en equipos, pérdidas de algunas
muestras, etc.
▪ Pérdida aleatoria: Realmente las pérdidas se dan de una manera
predecible y se pueden asociar a alguna variable: P. ej. La no recogida de
datos de un centro de investigación en un estudio multicéntrico. Se
puede corregir el sesgo usando la variable asociada.
▪ Pérdida no aleatoria: Pérdida no asociada a alguna variable conocida. El
riesgo de sesgos es alto. P. ej. Los pacientes que sienten que no están
mejorando se retiran voluntariamente del estudio.
▪ Pérdida diferencial: cuando la pérdida es mayor en un grupo o estrato que en otro.
Sugerencias para evitar pérdidas
▪ Planificación cuidadosa del estudio.
▪ Elegir desenlaces fáciles de medir.
▪ Evitar el burnout en pacientes y personal del estudio (estudios
pragmáticos).
▪ Ser flexibles con el seguimiento de algunos participantes.
▪ Brindar suficiente información a los participantes
¿Todavía se puede analizar?
(datos perdidos)
▪ Pérdidas completamente aleatorias: analizar normalmente los
datos.
▪ Pérdidas aleatorias: Se estaría perdiendo información relacionada a
la covariable asociada a las pérdidas. Aquí se pueden utilizar
técnicas de imputación de datos.
▪ Perdidas no aleatorias: Ya se afectó la validez del estudio. Se puede
analizar, pero hay que ser muy claros en mencionar que es probable
que hayan sesgos
Principio básico de la imputación
▪ Si uno puede llegar a una conclusión con una muestra, entonces
debería poder llegar a la misma conclusión con otra muestra.
▪ Cada sujeto observado ha sido escogido al azar, y se podría
reemplazar por otro sujeto escogido tambipen al azar de la
población.
▪ P. ej. Si un dato faltante corresponde a un varón con una
enfermedad, se puede reemplazar ese dato con otro varón que
también tenga la enfermedad.
¿qué es la imputación simple?
▪ Cuando tengo datos faltantes en una sola variable y utilizo la media,
mediana, u otro estadístico para reemplazar el dato perdido.
▪ No es lo más recomendable.
▪ Si el dato es categírico binario, se reemplaza por el resultado más
frecuente
¿qué es imputación múltiple?
▪ Se utilizan a otras variables para reemplazar datos faltantes en
varias variables.
▪ Lo más sencillo es utilizar la regresión lineal simple, usando otra
variable.
▪ También se utilizan otros métodos , como regresión múltiple,
regresión logística, etc.
▪ Se recomienda métodos más robustos basados en métodos de
máxima verosimilitud.
▪ Se utilizan la mayor cantidad de variables disponibles para la
imputación, incluyendo a la propia variable respuesta.
¿es válido hacer imputaciones?
▪ Es mejor realizar imputaciones que excluir observaciones.
▪ Se deben reportar los métodos utilizados para las imputaciones, así
como un análisis de los casos imputados.
▪ Se deberían realizar análisis de sensibilidad.
▪ En los casos de pérdidas no aleatorias, probablemente la
imputación no nos corrija los sesgons introducidos. En este caso hay
que dejar claro que se corre ese riesgo a pesar de la imputación.
▪ La imputación funciona mejor cuando la muestra es grande. En
muestras pequeñas puede inflar los errores estándar.
Conclusiones acerca de datos perdidos
▪ En pérdidas totalmente aleatorias es necesario imputar porque
analizar solo a los casos completos nos reduce la muestra y genera
ineficiencias.
▪ En pérdidas aleatorias (la forma más frecuente), es necesario
imputar y realizar análisis de sensibilidad.
▪ En pérdidas no aleatorias, la imputación no nos salva del sesgo.
En que caso no puedo hacer técnicas de eliminación?
¿Qué haría en ese caso?
- Limitaciones en el tamaño de muestra
- Sustitución
Enfoque para gestionar los valores atípicos, especialmente cuando dan como resultado una asimetría significativa de la distribución.
Técnicas de transformación
, un valor residual estandarizado superior a ____ sugiere que es probable que el caso sea un valor atípico multivariado.
+/-3,29
Fórmula de valor de apalancamiento promedio y cuando un outlier es influente?
- Número de predictores + 1
———————————————————–
Número de observaciones de la muestra - Si el valor es mayor que 3 veces la media de apalancamiento,
entonces esa observación es un outlier de influencia.