Business Analytics Flashcards
El pensamiento de Fisher
“Cualquier información dada por la muestra, que será utilizada en estimar los valores de estos parámetros, es información relevante”
Sir Ronald Aylmer Fisher, 1922.
Se debe tener una buena calidad de los datos para obtener buenos resultados.
El pensamiento de Fisher
Problema de especificación
Consiste en la elección de la forma matemática de la distribución de probabilidades de la población hipotética.
El pensamiento de Fisher
Problema de estimación
Involucra la elección de un método que permita derivar de la muestra un estadístico el cual es diseñado para estimar los valores de los parámetros de la población infinita.
El pensamiento de Fisher
Problema de distribución
Incluye la discusión de las distribuciones de probabilidad seguidas por los estadísticos.
Datos Incompletos
Faltan valores en los atributos
Carecen de algunos atributos de interés
Contienen sólo totalizaciones
Datos Ruidosos
Contienen errores
Contienen valores anómalos.
Datos Inconsistentes
Contienen discrepancias en códigos o nombres
Los valores de las variables no coinciden con el tipo
Datos Duplicados
Se duplican registros individuales mas de una vez
Etapas del Preprocesamiento
- Limpieza de datos
- Integración de datos
- Transformación de datos
- Reducción de datos
- Discretización de datos
Limpieza de datos
Completar valores faltantes, suavizar datos ruidosos, identificar o eliminar “outliers”, y resolver inconsistencias.
Integración de datos
Integración de múltiples bases de datos. (Realizando previamente la limpieza de todas las bases de datos)
Transformación de datos
Normalización, estandarización, discretización, reducción dimensional y totalización. (Aplicación de procedimientos para cambiar los rangos de valores a otros)
Reducción de datos
Se obtiene una representación más reducida en volumen pero que produce los mismos o similares resultados analíticos.
Discretización de datos
Parte de la reducción de datos pero con particular importancia, especialmente para datos numéricos.
Niveles de Faltabilidad (Datos Faltantes)
Impacto de los valores faltantes:
• 1% datos faltantes –trivial
• 1-5% -manejable
• 5-15% -requiere métodos sofisticados
• Mas del 15% -interpretación perjudicial
Causas de Datos Faltantes (Sampling Techniques)
1.Cobertura: no se pudo ubicar algunas de las unidades seleccionadas debido a problemas de acceso.
2.Localización: cuando no fue posible localizar a ningún miembro del hogar durante la visita a la vivienda seleccionada.
3.Informarte inadecuado: cuando la persona entrevistada no está en posibilidad de proporcionar la información que se le demanda.
4.Rechazo. cuando los hogares seleccionados se niegan a participar en la encuesta.
Mecanismos de datos faltantes (MCAR)
Valores faltantes completamente al azar (MCAR): La probabilidad que una instancia tenga un valor faltante para un atributo es la misma para todas las instancias. Es decir, esta probabilidad no depende ni de los valores observados ni de los valores faltantes. La mayoría de los valores faltantes no son MCAR.
Este mecanismo es mas adecuado para datos a ser usados en clasificación no supervisada.
Mecanismos de datos faltantes (MAR)
Valores faltantes al azar (MAR): La probabilidad que una instancia tenga un valor faltante en un atributo depende de los valores observados, como por ejemplo la clase a la cual pertenece la instancia, pero no depende de los valores faltantes.
Este mecanismo es mas adecuado para datos usados en clasificación supervisada.
Mecanismos de datos faltantes (NMAR)
Valores faltantes no al azar o no ignorables (NMAR): La probabilidad de que una instancia tenga un valor faltante en un atributo depende de los valores faltantes en el conjunto de datos. Ocurre cuando las personas entrevistadas no quieren revelar algo muy personal acerca de ellas. El patrón de valores faltantes no es aleatorio. Este tipo de valores faltantes es el mas difícil de tratar y es el que ocurre mas frecuentemente.
Clasificación de mecanismos de datos faltantes
• Para conjuntos de datos con un bajo porcentaje de valores faltantes el mecanismo se puede considerar MCAR.
• Para conjuntos de datos con un alto porcentaje de valores faltantes el mecanismo se puede considerar NMAR.
• Para conjuntos de datos con valores faltantes simulados el mecanismo se puede considerar MAR
Tratamiento de los datos faltantes
Eliminación de casos
Ignorar la fila que contiene datos faltantes. Usualmente es aplicado cuando el valor que falta es el de la clase (asumiendo que se esta haciendo clasificación). No es efectiva cuando el porcentaje de valores faltantes por atributo varía considerablemente, en este caso mejor se suprimen estos atributos.
Tratamiento de los datos faltantes
Estimación de parámetros
Donde los procedimientos de Máxima Verosimilitud que usan variantes del algoritmo EM (Expectation - Maximization) pueden manejar la estimación de parámetros en presencia de valores faltantes.
Tratamiento de los datos faltantes
Técnicas de Imputación
Donde los valores faltantes son reemplazados con valores estimados basados en la información disponible en el conjunto de datos.
Valores Outliers
Valor diferente o atípico
Un outliers es una observación que se desvía tanto de las otras observaciones como para crear la sospecha de que fue generada por un mecanismo diferente. (Hawkins, 1980)
Definición de Outlier univariado para distribución normal
|x - ü| / s > k
Donde:
ü es la media
K es 3
Métodos de detección de Outliers Multivariados
Métodos basados en estadística robusta
Métodos basados en clustering
Métodos basados en distancia
Métodos basados en densidad local
Métodos basados en clustering
Clasificación mediante grupos de interés.
Clusters con pocos registros, suelen ser outliers.
Métodos basados en distancia
Técnica de reducción dimensional
Reducir a 2 dimensiones para poder visualizar la distancia de los outliers
Distancia Mahalanobis
Distancia multivariada desde x al centroide del conjunto de datos.
Efecto de enmascaramiento
Ocurre cuando después de eliminar un outlier, otra instancia se puede volver outlier.
Efecto de cubrimiento
Ocurre cuando después de eliminar un outlier, otro outlier se vuelve una “buena” observación.
¿Cómo evitar los efectos de la eliminación de outliers?
Se recomienda el estimador robusto de la distancia de Mahalanobis. Existen dos propuestas:
• Estimador de elipsoide de volumen mínimo (MVE)
• Estimador de determinante de covarianza mínima(MCD)
Normalización
Consiste en re-escalar los valores de los datos a un rango pre-especificado.
¿Cuándo se usa Normalización Z-score?
• No se conoce el mínimo ni el máximo de los datos originales.
• Valores outlier pueden afectar el rango de los datos