Business Analytics Flashcards

1
Q

El pensamiento de Fisher

A

“Cualquier información dada por la muestra, que será utilizada en estimar los valores de estos parámetros, es información relevante”
Sir Ronald Aylmer Fisher, 1922.

Se debe tener una buena calidad de los datos para obtener buenos resultados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

El pensamiento de Fisher
Problema de especificación

A

Consiste en la elección de la forma matemática de la distribución de probabilidades de la población hipotética.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

El pensamiento de Fisher
Problema de estimación

A

Involucra la elección de un método que permita derivar de la muestra un estadístico el cual es diseñado para estimar los valores de los parámetros de la población infinita.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

El pensamiento de Fisher
Problema de distribución

A

Incluye la discusión de las distribuciones de probabilidad seguidas por los estadísticos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Datos Incompletos

A

Faltan valores en los atributos
Carecen de algunos atributos de interés
Contienen sólo totalizaciones

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Datos Ruidosos

A

Contienen errores
Contienen valores anómalos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Datos Inconsistentes

A

Contienen discrepancias en códigos o nombres
Los valores de las variables no coinciden con el tipo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Datos Duplicados

A

Se duplican registros individuales mas de una vez

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Etapas del Preprocesamiento

A
  1. Limpieza de datos
  2. Integración de datos
  3. Transformación de datos
  4. Reducción de datos
  5. Discretización de datos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Limpieza de datos

A

Completar valores faltantes, suavizar datos ruidosos, identificar o eliminar “outliers”, y resolver inconsistencias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Integración de datos

A

Integración de múltiples bases de datos. (Realizando previamente la limpieza de todas las bases de datos)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Transformación de datos

A

Normalización, estandarización, discretización, reducción dimensional y totalización. (Aplicación de procedimientos para cambiar los rangos de valores a otros)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Reducción de datos

A

Se obtiene una representación más reducida en volumen pero que produce los mismos o similares resultados analíticos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Discretización de datos

A

Parte de la reducción de datos pero con particular importancia, especialmente para datos numéricos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Niveles de Faltabilidad (Datos Faltantes)

A

Impacto de los valores faltantes:
• 1% datos faltantes –trivial
• 1-5% -manejable
• 5-15% -requiere métodos sofisticados
• Mas del 15% -interpretación perjudicial

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Causas de Datos Faltantes (Sampling Techniques)

A

1.Cobertura: no se pudo ubicar algunas de las unidades seleccionadas debido a problemas de acceso.
2.Localización: cuando no fue posible localizar a ningún miembro del hogar durante la visita a la vivienda seleccionada.
3.Informarte inadecuado: cuando la persona entrevistada no está en posibilidad de proporcionar la información que se le demanda.
4.Rechazo. cuando los hogares seleccionados se niegan a participar en la encuesta.

17
Q

Mecanismos de datos faltantes (MCAR)

A

Valores faltantes completamente al azar (MCAR): La probabilidad que una instancia tenga un valor faltante para un atributo es la misma para todas las instancias. Es decir, esta probabilidad no depende ni de los valores observados ni de los valores faltantes. La mayoría de los valores faltantes no son MCAR.
Este mecanismo es mas adecuado para datos a ser usados en clasificación no supervisada.

18
Q

Mecanismos de datos faltantes (MAR)

A

Valores faltantes al azar (MAR): La probabilidad que una instancia tenga un valor faltante en un atributo depende de los valores observados, como por ejemplo la clase a la cual pertenece la instancia, pero no depende de los valores faltantes.
Este mecanismo es mas adecuado para datos usados en clasificación supervisada.

19
Q

Mecanismos de datos faltantes (NMAR)

A

Valores faltantes no al azar o no ignorables (NMAR): La probabilidad de que una instancia tenga un valor faltante en un atributo depende de los valores faltantes en el conjunto de datos. Ocurre cuando las personas entrevistadas no quieren revelar algo muy personal acerca de ellas. El patrón de valores faltantes no es aleatorio. Este tipo de valores faltantes es el mas difícil de tratar y es el que ocurre mas frecuentemente.

20
Q

Clasificación de mecanismos de datos faltantes

A

• Para conjuntos de datos con un bajo porcentaje de valores faltantes el mecanismo se puede considerar MCAR.
• Para conjuntos de datos con un alto porcentaje de valores faltantes el mecanismo se puede considerar NMAR.
• Para conjuntos de datos con valores faltantes simulados el mecanismo se puede considerar MAR

21
Q

Tratamiento de los datos faltantes
Eliminación de casos

A

Ignorar la fila que contiene datos faltantes. Usualmente es aplicado cuando el valor que falta es el de la clase (asumiendo que se esta haciendo clasificación). No es efectiva cuando el porcentaje de valores faltantes por atributo varía considerablemente, en este caso mejor se suprimen estos atributos.

22
Q

Tratamiento de los datos faltantes
Estimación de parámetros

A

Donde los procedimientos de Máxima Verosimilitud que usan variantes del algoritmo EM (Expectation - Maximization) pueden manejar la estimación de parámetros en presencia de valores faltantes.

23
Q

Tratamiento de los datos faltantes
Técnicas de Imputación

A

Donde los valores faltantes son reemplazados con valores estimados basados en la información disponible en el conjunto de datos.

24
Q

Valores Outliers

A

Valor diferente o atípico

Un outliers es una observación que se desvía tanto de las otras observaciones como para crear la sospecha de que fue generada por un mecanismo diferente. (Hawkins, 1980)

25
Q

Definición de Outlier univariado para distribución normal

A

|x - ü| / s > k
Donde:
ü es la media
K es 3

26
Q

Métodos de detección de Outliers Multivariados

A

Métodos basados en estadística robusta
Métodos basados en clustering
Métodos basados en distancia
Métodos basados en densidad local

27
Q

Métodos basados en clustering

A

Clasificación mediante grupos de interés.
Clusters con pocos registros, suelen ser outliers.

28
Q

Métodos basados en distancia

A

Técnica de reducción dimensional
Reducir a 2 dimensiones para poder visualizar la distancia de los outliers

29
Q

Distancia Mahalanobis

A

Distancia multivariada desde x al centroide del conjunto de datos.

30
Q

Efecto de enmascaramiento

A

Ocurre cuando después de eliminar un outlier, otra instancia se puede volver outlier.

31
Q

Efecto de cubrimiento

A

Ocurre cuando después de eliminar un outlier, otro outlier se vuelve una “buena” observación.

32
Q

¿Cómo evitar los efectos de la eliminación de outliers?

A

Se recomienda el estimador robusto de la distancia de Mahalanobis. Existen dos propuestas:
• Estimador de elipsoide de volumen mínimo (MVE)
• Estimador de determinante de covarianza mínima(MCD)

33
Q

Normalización

A

Consiste en re-escalar los valores de los datos a un rango pre-especificado.

34
Q

¿Cuándo se usa Normalización Z-score?

A

• No se conoce el mínimo ni el máximo de los datos originales.
• Valores outlier pueden afectar el rango de los datos