Business Analytics Flashcards
El pensamiento de Fisher
“Cualquier información dada por la muestra, que será utilizada en estimar los valores de estos parámetros, es información relevante”
Sir Ronald Aylmer Fisher, 1922.
Se debe tener una buena calidad de los datos para obtener buenos resultados.
El pensamiento de Fisher
Problema de especificación
Consiste en la elección de la forma matemática de la distribución de probabilidades de la población hipotética.
El pensamiento de Fisher
Problema de estimación
Involucra la elección de un método que permita derivar de la muestra un estadístico el cual es diseñado para estimar los valores de los parámetros de la población infinita.
El pensamiento de Fisher
Problema de distribución
Incluye la discusión de las distribuciones de probabilidad seguidas por los estadísticos.
Datos Incompletos
Faltan valores en los atributos
Carecen de algunos atributos de interés
Contienen sólo totalizaciones
Datos Ruidosos
Contienen errores
Contienen valores anómalos.
Datos Inconsistentes
Contienen discrepancias en códigos o nombres
Los valores de las variables no coinciden con el tipo
Datos Duplicados
Se duplican registros individuales mas de una vez
Etapas del Preprocesamiento
- Limpieza de datos
- Integración de datos
- Transformación de datos
- Reducción de datos
- Discretización de datos
Limpieza de datos
Completar valores faltantes, suavizar datos ruidosos, identificar o eliminar “outliers”, y resolver inconsistencias.
Integración de datos
Integración de múltiples bases de datos. (Realizando previamente la limpieza de todas las bases de datos)
Transformación de datos
Normalización, estandarización, discretización, reducción dimensional y totalización. (Aplicación de procedimientos para cambiar los rangos de valores a otros)
Reducción de datos
Se obtiene una representación más reducida en volumen pero que produce los mismos o similares resultados analíticos.
Discretización de datos
Parte de la reducción de datos pero con particular importancia, especialmente para datos numéricos.
Niveles de Faltabilidad (Datos Faltantes)
Impacto de los valores faltantes:
• 1% datos faltantes –trivial
• 1-5% -manejable
• 5-15% -requiere métodos sofisticados
• Mas del 15% -interpretación perjudicial