Business Analytics Flashcards by Patricia Porcel

El pensamiento de Fisher

“Cualquier información dada por la muestra, que será utilizada en estimar los valores de estos parámetros, es información relevante”
Sir Ronald Aylmer Fisher, 1922.

Se debe tener una buena calidad de los datos para obtener buenos resultados.

How well did you know this?

Not at all

Perfectly

El pensamiento de Fisher
Problema de especificación

Consiste en la elección de la forma matemática de la distribución de probabilidades de la población hipotética.

How well did you know this?

Not at all

Perfectly

El pensamiento de Fisher
Problema de estimación

Involucra la elección de un método que permita derivar de la muestra un estadístico el cual es diseñado para estimar los valores de los parámetros de la población infinita.

How well did you know this?

Not at all

Perfectly

El pensamiento de Fisher
Problema de distribución

Incluye la discusión de las distribuciones de probabilidad seguidas por los estadísticos.

How well did you know this?

Not at all

Perfectly

Datos Incompletos

Faltan valores en los atributos
Carecen de algunos atributos de interés
Contienen sólo totalizaciones

How well did you know this?

Not at all

Perfectly

Datos Ruidosos

Contienen errores
Contienen valores anómalos.

How well did you know this?

Not at all

Perfectly

Datos Inconsistentes

Contienen discrepancias en códigos o nombres
Los valores de las variables no coinciden con el tipo

How well did you know this?

Not at all

Perfectly

Datos Duplicados

Se duplican registros individuales mas de una vez

How well did you know this?

Not at all

Perfectly

Etapas del Preprocesamiento

Limpieza de datos
Integración de datos
Transformación de datos
Reducción de datos
Discretización de datos

How well did you know this?

Not at all

Perfectly

Limpieza de datos

Completar valores faltantes, suavizar datos ruidosos, identificar o eliminar “outliers”, y resolver inconsistencias.

How well did you know this?

Not at all

Perfectly

Integración de datos

Integración de múltiples bases de datos. (Realizando previamente la limpieza de todas las bases de datos)

How well did you know this?

Not at all

Perfectly

Transformación de datos

Normalización, estandarización, discretización, reducción dimensional y totalización. (Aplicación de procedimientos para cambiar los rangos de valores a otros)

How well did you know this?

Not at all

Perfectly

Reducción de datos

Se obtiene una representación más reducida en volumen pero que produce los mismos o similares resultados analíticos.

How well did you know this?

Not at all

Perfectly

Discretización de datos

Parte de la reducción de datos pero con particular importancia, especialmente para datos numéricos.

How well did you know this?

Not at all

Perfectly

Niveles de Faltabilidad (Datos Faltantes)

Impacto de los valores faltantes:
• 1% datos faltantes –trivial
• 1-5% -manejable
• 5-15% -requiere métodos sofisticados
• Mas del 15% -interpretación perjudicial

How well did you know this?

Not at all

Perfectly

Causas de Datos Faltantes (Sampling Techniques)

Study These Flashcards

1.Cobertura: no se pudo ubicar algunas de las unidades seleccionadas debido a problemas de acceso.
2.Localización: cuando no fue posible localizar a ningún miembro del hogar durante la visita a la vivienda seleccionada.
3.Informarte inadecuado: cuando la persona entrevistada no está en posibilidad de proporcionar la información que se le demanda.
4.Rechazo. cuando los hogares seleccionados se niegan a participar en la encuesta.

Mecanismos de datos faltantes (MCAR)

Study These Flashcards

Valores faltantes completamente al azar (MCAR): La probabilidad que una instancia tenga un valor faltante para un atributo es la misma para todas las instancias. Es decir, esta probabilidad no depende ni de los valores observados ni de los valores faltantes. La mayoría de los valores faltantes no son MCAR.
Este mecanismo es mas adecuado para datos a ser usados en clasificación no supervisada.

Mecanismos de datos faltantes (MAR)

Study These Flashcards

Valores faltantes al azar (MAR): La probabilidad que una instancia tenga un valor faltante en un atributo depende de los valores observados, como por ejemplo la clase a la cual pertenece la instancia, pero no depende de los valores faltantes.
Este mecanismo es mas adecuado para datos usados en clasificación supervisada.

Mecanismos de datos faltantes (NMAR)

Study These Flashcards

Valores faltantes no al azar o no ignorables (NMAR): La probabilidad de que una instancia tenga un valor faltante en un atributo depende de los valores faltantes en el conjunto de datos. Ocurre cuando las personas entrevistadas no quieren revelar algo muy personal acerca de ellas. El patrón de valores faltantes no es aleatorio. Este tipo de valores faltantes es el mas difícil de tratar y es el que ocurre mas frecuentemente.

Clasificación de mecanismos de datos faltantes

Study These Flashcards

• Para conjuntos de datos con un bajo porcentaje de valores faltantes el mecanismo se puede considerar MCAR.
• Para conjuntos de datos con un alto porcentaje de valores faltantes el mecanismo se puede considerar NMAR.
• Para conjuntos de datos con valores faltantes simulados el mecanismo se puede considerar MAR

Tratamiento de los datos faltantes
Eliminación de casos

Study These Flashcards

Ignorar la fila que contiene datos faltantes. Usualmente es aplicado cuando el valor que falta es el de la clase (asumiendo que se esta haciendo clasificación). No es efectiva cuando el porcentaje de valores faltantes por atributo varía considerablemente, en este caso mejor se suprimen estos atributos.

Tratamiento de los datos faltantes
Estimación de parámetros

Study These Flashcards

Donde los procedimientos de Máxima Verosimilitud que usan variantes del algoritmo EM (Expectation - Maximization) pueden manejar la estimación de parámetros en presencia de valores faltantes.

Tratamiento de los datos faltantes
Técnicas de Imputación

Study These Flashcards

Donde los valores faltantes son reemplazados con valores estimados basados en la información disponible en el conjunto de datos.

Valores Outliers

Study These Flashcards

Valor diferente o atípico

Un outliers es una observación que se desvía tanto de las otras observaciones como para crear la sospecha de que fue generada por un mecanismo diferente. (Hawkins, 1980)

Definición de Outlier univariado para distribución normal

|x - ü| / s > k Donde: ü es la media K es 3

Métodos de detección de Outliers Multivariados

Métodos basados en estadística robusta Métodos basados en clustering Métodos basados en distancia Métodos basados en densidad local

Métodos basados en clustering

Clasificación mediante grupos de interés. Clusters con pocos registros, suelen ser outliers.

Métodos basados en distancia

Técnica de reducción dimensional Reducir a 2 dimensiones para poder visualizar la distancia de los outliers

Distancia Mahalanobis

Distancia multivariada desde x al centroide del conjunto de datos.

Efecto de enmascaramiento

Ocurre cuando después de eliminar un outlier, otra instancia se puede volver outlier.

Efecto de cubrimiento

Ocurre cuando después de eliminar un outlier, otro outlier se vuelve una “buena” observación.

¿Cómo evitar los efectos de la eliminación de outliers?

Se recomienda el estimador robusto de la distancia de Mahalanobis. Existen dos propuestas: • Estimador de elipsoide de volumen mínimo (MVE) • Estimador de determinante de covarianza mínima(MCD)

Normalización

Consiste en re-escalar los valores de los datos a un rango pre-especificado.

¿Cuándo se usa Normalización Z-score?

• No se conoce el mínimo ni el máximo de los datos originales. • Valores outlier pueden afectar el rango de los datos

Business Analytics Flashcards

(34 cards)