Clase 5 Flashcards

1
Q

es un caso de valor extremo que cae fuera de los
valores esperados para la población, en una sola variable.

A

Dato atípico univariado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿en la mayoría de los casos cómo está el outlier univariado?

A

Muy distante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Si no se identifican y manejan los outliers univariados, pueden:

A
  1. Distorsionar estimaciones
  2. Alterar la validez externa
  3. Ocasionar falta de normalidad
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cuando un outlier univariadologra distorsionar la tendencia central o la forma de la distribución, lo
llamamos

A

outlier de influencia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Por qué aparece un outlier?

A
  1. Error en el muetreo
  2. cuestionarios no muy claros
  3. introducción de datos defectuosa
  4. Valor extremo legitimo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

La presencia de muchos outliers en una variable puede indicar que

A

no se ha definido bien a la población (criterios de inclusión,
exclusión) o que hay un mal muestreo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Causas de los outliers

A

▪ Error en el registro de datos.
* En lugar de registrar 80 años, se registra 800
▪ Cuestionarios con preguntas confusas.
* Algunos entienden que deben responder en soles y otros en dólares.
▪ Mala creación de datos perdidos.
* Normalmente se asigna 99 o 999 a datos perdidos.
▪ Mala delimitación de criterios de inclusión y exclusión.
* Se regista a un joven en una investigación de mayores de 80 años.
▪ Se trata de un caso legítimo extremo de la población.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

identificación gráfica de outliers univariados e identificación objetiva

A
  1. GRÁFICA
    - Histograma
    - Cajas y bigotes
  2. Objetiva
    - IQR
    * De 1.5 a 3 IQR: outlier leve.
    * Más e 3 IQR: outlier extremo.
    - Z-Score: Mayor a |+/- 3 SD|
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

manejo/gestión de outliers univariados (en MACRO)

A
  1. Eliminación
  2. Sustitución
  3. Transformación
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿cómo es la eliminación, sustitución y transformación?

A

PARA OUTLIERS UNIVARIADOS
1. Manejo: eliminación
▪ Eliminación de caso o eliminación de variable.
▪ De caso: si hay buena razón para creer que el caso no es de la
población de estudio.
▪ De variable
2. Manejo: sustitución
▪ Se cambia el valore extremo por uno fronterizo.
▪ Ayuda a mantener el tamaño de la muestra.
▪ Convertir datos con score Z mayores de 3 a un Z-score de 3.
▪ Winzorization: cambiar el outlier con el mayor dato no outlier o una
unidad mayor.
▪ Sustitución por la media. Especialmente si el dato es influyente. Si la
distribución es sesgada, puede convenir reemplazar por la mediana.
▪ Utilizar la media recortada en algunos casos de distribución muy
sesgada.
3. Manejo: transformaciones matemáticas
▪ Más usados: ln, log, raíz cuadrada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

es el resultado de la combinación de dos o
más variables que juntos producen un resultado que es un valor
extremo.

A

Outlier multivariado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

también tiene el potencial de alterar la validez externa

A

Outlier multivariado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Identificación de outlier univariado y multivariado

A
  1. Los outliers mutivariados no son tan fáciles de evidenciar (a diferencia de los outliers
    univariados).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Técnicas más usadas para la evaluación de outliers multivariados

A
  • Distancia de Mahalanobis.
  • Estadísticos residuales
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Características de mahalanobis

A

▪ Es una técnica multidimensional que sirve para evaluar la distancia
de un caso del centroide.
▪ Los casos que se alejan demasiado del centroide son sospechosos
de ser outliers.
▪ Lo que hace es generar una distribución chi-cuadrado para cada
caso

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Características de análisis de residuos

A

▪ Residuos no estandarizados.
▪ Residuos estandarizados.
▪ Residuos studentizados

17
Q

¿Cuándo es problemático un outlier?

A

El dato es problemático a nivel multivariable solo si es de influencia.

18
Q

¿cómo sabemos si un outlier es de influencia según el ppt?
Para outliers multivariados

A
  1. Levarage (apalancamiento)

▪ Se puede calcular un valor de leverage (hat) para cada dato.
▪ Luego se compara con la llamada media de apalancamiento: FÓRMULA EN EL PPT
▪ Si el valor es mayor que 3 veces la media de apalancamiento,
entonces esa observación es un outlier de influencia
2. Distancia de Cook
▪ Mide el impacto que tiene una observación sobre la linea de
regresión.
▪ Se construyen modelos de regresión quitando una observación a la
vez y comparándolos.
▪ Se calcula un valor de Cook para cada observación.
▪ Los valores mayores a 4/n deben investigarse.
▪ También los valores mayores a 0.5.
▪ Valores mayores a 1 son outliers de influencia.

19
Q

de que depende el manejo de outliers

A
  1. De 2 cosas
    - ¿Es un outlier legítimo?
    - ¿Cuál es su influencia en los parámetros estimados?
20
Q

aprender algoritmo de la diapo 28

A

21
Q

Preguntas a hacer en datos perdidos

A

▪ ¿Cuántos?
▪ ¿De qué parte del estudio?
▪ ¿Puede influenciar en los resultados?

22
Q

Definiciones de datos perdidos
1. Pérdida completamente aleatoria
2. Pérdida aleatoria
3. Pérdida no aleatoria
4. Pérdida diferencial

A

▪ Pérdida completamente aleatoria: casosfortuitos de pérdida de datos. El
riesgo de sesgo es bajo. P. ej. Fallas en equipos, pérdidas de algunas
muestras, etc.
▪ Pérdida aleatoria: Realmente las pérdidas se dan de una manera
predecible y se pueden asociar a alguna variable: P. ej. La no recogida de
datos de un centro de investigación en un estudio multicéntrico. Se
puede corregir el sesgo usando la variable asociada.
▪ Pérdida no aleatoria: Pérdida no asociada a alguna variable conocida. El
riesgo de sesgos es alto. P. ej. Los pacientes que sienten que no están
mejorando se retiran voluntariamente del estudio.
▪ Pérdida diferencial: cuando la pérdida es mayor en un grupo o estrato que en otro.

23
Q

Sugerencias para evitar pérdidas

A

▪ Planificación cuidadosa del estudio.
▪ Elegir desenlaces fáciles de medir.
▪ Evitar el burnout en pacientes y personal del estudio (estudios
pragmáticos).
▪ Ser flexibles con el seguimiento de algunos participantes.
▪ Brindar suficiente información a los participantes

24
Q

¿Todavía se puede analizar?
(datos perdidos)

A

▪ Pérdidas completamente aleatorias: analizar normalmente los
datos.
▪ Pérdidas aleatorias: Se estaría perdiendo información relacionada a
la covariable asociada a las pérdidas. Aquí se pueden utilizar
técnicas de imputación de datos.
▪ Perdidas no aleatorias: Ya se afectó la validez del estudio. Se puede
analizar, pero hay que ser muy claros en mencionar que es probable
que hayan sesgos

25
Q

Principio básico de la imputación

A

▪ Si uno puede llegar a una conclusión con una muestra, entonces
debería poder llegar a la misma conclusión con otra muestra.
▪ Cada sujeto observado ha sido escogido al azar, y se podría
reemplazar por otro sujeto escogido tambipen al azar de la
población.
▪ P. ej. Si un dato faltante corresponde a un varón con una
enfermedad, se puede reemplazar ese dato con otro varón que
también tenga la enfermedad.

26
Q

¿qué es la imputación simple?

A

▪ Cuando tengo datos faltantes en una sola variable y utilizo la media,
mediana, u otro estadístico para reemplazar el dato perdido.
▪ No es lo más recomendable.
▪ Si el dato es categírico binario, se reemplaza por el resultado más
frecuente

27
Q

¿qué es imputación múltiple?

A

▪ Se utilizan a otras variables para reemplazar datos faltantes en
varias variables.
▪ Lo más sencillo es utilizar la regresión lineal simple, usando otra
variable.
▪ También se utilizan otros métodos , como regresión múltiple,
regresión logística, etc.
▪ Se recomienda métodos más robustos basados en métodos de
máxima verosimilitud.
▪ Se utilizan la mayor cantidad de variables disponibles para la
imputación, incluyendo a la propia variable respuesta.

28
Q

¿es válido hacer imputaciones?

A

▪ Es mejor realizar imputaciones que excluir observaciones.
▪ Se deben reportar los métodos utilizados para las imputaciones, así
como un análisis de los casos imputados.
▪ Se deberían realizar análisis de sensibilidad.
▪ En los casos de pérdidas no aleatorias, probablemente la
imputación no nos corrija los sesgons introducidos. En este caso hay
que dejar claro que se corre ese riesgo a pesar de la imputación.
▪ La imputación funciona mejor cuando la muestra es grande. En
muestras pequeñas puede inflar los errores estándar.

29
Q

Conclusiones acerca de datos perdidos

A

▪ En pérdidas totalmente aleatorias es necesario imputar porque
analizar solo a los casos completos nos reduce la muestra y genera
ineficiencias.
▪ En pérdidas aleatorias (la forma más frecuente), es necesario
imputar y realizar análisis de sensibilidad.
▪ En pérdidas no aleatorias, la imputación no nos salva del sesgo.

30
Q

En que caso no puedo hacer técnicas de eliminación?
¿Qué haría en ese caso?

A
  1. Limitaciones en el tamaño de muestra
  2. Sustitución
31
Q

Enfoque para gestionar los valores atípicos, especialmente cuando dan como resultado una asimetría significativa de la distribución.

A

Técnicas de transformación

32
Q

, un valor residual estandarizado superior a ____ sugiere que es probable que el caso sea un valor atípico multivariado.

A

+/-3,29

33
Q

Fórmula de valor de apalancamiento promedio y cuando un outlier es influente?

A
  1. Número de predictores + 1
    ———————————————————–
    Número de observaciones de la muestra
  2. Si el valor es mayor que 3 veces la media de apalancamiento,
    entonces esa observación es un outlier de influencia.
34
Q
A