Resumen Examen III Flashcards

1
Q

¿Qué es la Minería de Datos?

A

Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos para descubrir patrones desconocidos que puedan ser utilizados como ventaja competitiva.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Qué áreas se relacionan con la Minería de Datos?

A
  • Inteligencia Artificial
  • Estadística
  • Bases de Datos
  • Visualización de información
  • Matemáticas
  • Aprendizaje Automático
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Por qué ha tomado fuerza la Minería de Datos?

A

Debido a:
* Valor de los datos
* La consolidación de los datos
* Madurez tecnológica

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué es un problema predictivo en Minería de Datos?

A

Es un problema en el que se busca predecir comportamientos futuros, utilizando aprendizaje supervisado para clasificar o estimar resultados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Qué son los problemas descriptivos en Minería de Datos?

A

Problemas que buscan describir el conjunto de datos, utilizando aprendizaje no supervisado para hallar asociaciones y patrones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es la Clasificación en Minería de Datos?

A

Es una tarea predictiva en la que la variable de interés es categórica

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué es la Estimación en Minería de Datos?

A

Es una tarea predictiva en la cual se estima el valor numérico de la variable target utilizando los valores de los predictores

Los valores predictores son los datos base utilizados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué es el Clustering en Minería de Datos?

A

Es una tarea descriptiva que agrupa registros en clases similares entre sí, pero diferentes a los de otros grupos.

Cluster = Conjunto de registros relacionados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Técnicas comunes en Minería de Datos para problemas predictivos

A
  • Árboles de decisión
  • Bosques aleatorios
  • Regresión logística
  • Redes neuronales
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Técnicas comunes para Clustering

A

Método de k-means, redes neuronales, algoritmos aglomerativos y clustering basado en densidad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Técnicas comunes para Análisis de relaciones o
Asociaciones

A
  • Algoritmos A priori
  • FP-Growth
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Qué es CRISP-DM?

A

Es un framework para proyectos de Minería de Datos que incluye pasos como:
* Entender el negocio
* Entender los datos
* Preparacion de los datos (Ej. ETL)
* Modelado
* Evaluación de desempeño
* Despliegue

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Estos pasos:

  1. Comprender el problema
  2. Selección de los datos
  3. Exploración de datos
  4. Preparar conjuntos de entrenamiento y prueba 70/30
  5. Seleccionar la técnica
  6. Seleccionar criterios de desempeño
  7. Ejecutar el modelo

Corresponden a:

A

Proceso genérico de minería de datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué requieren los árboles de decisión para clasificar?

A

Aprendizaje supervisado, un conjunto de datos de entrenamiento y prueba, y una variable a predecir que sea categórica.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Cómo se eligen los nodos en un árbol de decisión?

A

Usando medidas de pureza o impureza como:
* Entropía
* Índice de Gini
* Ganancia de Información

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Técnica de clasificación basada en nodos puros

A

Árbol de decisión

Nodos Puros = Nodos donde todos los registros son de la misma
clase

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Cuales son los algoritmos para árboles de decisión

A
  • CART (Classification And Regression Tree)
  • ID3 (Iterative Dichotomiser 3)
  • C4.5
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Algoritmo que sólo permite clasificaciones binarias

A

CART

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

−Σpk log2(pk), donde k es el número de valores posibles de la variable objetivo.

A

Fórmula de la Entropía

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Algoritmo que no garantiza soluciones óptima y genera árboles pequeños en poco tiempo

A

ID3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué indica una alta AUC en una curva ROC?

A

Buen rendimiento del modelo; cuanto más cercana a 1, mejor la precisión de la clasificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q
  • Verdaderos positivos (TP)
  • Falsos positivos (FP)
  • Falsos negativos (FN)
  • Verdaderos negativos (TN)
A

Elementos de la matriz de confusión para evaluar modelos de clasificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Qué mide la sensibilidad en un modelo de clasificación?

A

Capacidad del modelo para seleccionar correctamente los verdaderos positivos.
Fórmula: TP/(TP+FN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Qué mide la precisión en un modelo de clasificación?

A

La proporción de casos correctamente predichos como positivos entre todos los predichos como positivos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿Qué mide la especificidad en un modelo de clasificación?

A

Capacidad del modelo para rechazar todos los casos que deben rechazarse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

¿Qué mide la exactitud en un modelo de clasificación?

A

Mide que tan a menudo la predicción es correcta
Fórmula: (TP + TN) / [(TP + TN) + (FP + FN)]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Error en un modelo de clasificación

A

Complemento de la exactitud.
Fórmula: 1 - exactitud

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Si la clase real es negativa, pero se predijo como positiva, se llama…

A

Falso positivo (FP)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Si la clase real es positiva, pero se predijo como negativa, se llama…

A

Falso negativo (FN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Si la clase real es positiva y también se predijo como positiva, se llama…

A

Verdadero positivo (TP)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

¿Qué es la curva ROC?

A

Gráfica que muestra la proporción de verdaderos positivos frente a falsos positivos para evaluar el rendimiento de un modelo de clasificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

¿Qué es el AUC?

A

El AUC (Area Under the Curve) es una medida que representa el área bajo la curva ROC, indicando la capacidad de un modelo para distinguir entre clases. Un AUC cercano a 1 implica un buen rendimiento, mientras que un AUC de 0.5 sugiere que el modelo no tiene valor predictivo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

¿Qué hace el análisis de regresión?

A

Especifica la relación entre una variable
dependiente y una variable independiente.
Formula: y = α + βx

  • El α y el β es lo que genera la regresión.
  • La y es la variable dependiente y la x la variable independiente o predictor.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Ejemplos de regresión lineal

A

Predecir el precio de una casa según el número de habitaciones, predecir la nota de un estudiante según las horas de estudio…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

¿Qué es un modelo de regresión lineal simple?

A

Es un modelo de regresión lineal que utiliza un solo predictor o variable independiente para hacer predicciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

¿Qué técnica se usa para minimizar el error en la regresión lineal?

A

El método de los mínimos cuadrados, que busca minimizar la distancia entre los valores predichos y los valores reales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

¿Qué es el error residual estándar (RMSE)?

A

Es la desviación estándar de los errores del modelo; mide cuánto se desvían en promedio las predicciones del valor real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

¿Qué se revisa en el modelo?

A
  • Los valores residuales (errores)
  • Los coeficientes del modelo
  • RMSE
  • MAE
  • Estadística R^2
  • Estadística F
  • El p-value asociado a la estadística F
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

¿Qué representa el valor R^2
en un modelo de regresión?

A

Representa la proporción de la variabilidad de la variable dependiente que es explicada por las variables independientes; valores cercanos a 1 indican una buena relación.

39
Q

¿Qué indica un p-value menor a 0.05 en un modelo de regresión?

A

Indica que hay una relación estadísticamente significativa entre los predictores y la variable objetivo.

40
Q

¿Qué mide el error absoluto medio (MAE)?

A

Mide la magnitud promedio de los errores entre los valores predichos y los valores reales sin considerar su dirección.

41
Q

Estadística que indica si hay relación entre los predictores y la variable objetivo en regresión lineal

A

Estadística F
Un valor alto indica una fuerte relación.

42
Q

¿Qué se debe hacer antes de generar el modelo de regresión lineal?

A

Transformar los datos, dividir en conjunto de entrenamiento y prueba, y seleccionar los predictores.

43
Q

“Método de análisis que incluye** regresión lineal**, logística, Poisson, y Arboles de regresión

A

Análisis de regresión

44
Q

¿Qué es el clustering?

A

Es el proceso de agrupar objetos en clusters de manera que los objetos en el mismo cluster tengan alta similitud entre sí y sean diferentes a los de otros clusters.

45
Q

Ejemplos de aplicaciones de clustering

A
  • Reconocimiento de patrones
  • Investigación de mercados
  • Procesamiento de imágenes
  • Segmentación de clientes.
46
Q

Clustering vs Clasificación

A

En clasificación, se asignan etiquetas conocidas a los datos. En clustering, no hay etiquetas previas; el algoritmo encuentra los grupos.

47
Q

Estos métodos dividen datos en grupos sin solapamientos…

A

Métodos de particionamiento duro.

48
Q

Enfoques de clustering jerárquico

A

1. Aglomerativo (Bottom-up): Cada punto inicia como un cluster, y se agrupan progresivamente.
2. Divisivo (Top-down): Todo el conjunto de datos se considera un cluster y se divide en subclusters.

49
Q

Enfoque de clustering donde cada punto inicia como un cluster, y se agrupan progresivamente.

A

Aglomerativo

50
Q

¿Qué es un dendrograma?

A

Es una **representación gráfica de clustering jerárquico **que muestra cómo se agrupan los datos en diferentes niveles.

51
Q

Tipos de clustering según el algoritmo

A
  • Basado en prototipos
  • Por densidad
  • Jerárquico
  • Basado en modelos de probabilidad
52
Q

Método que usa un objeto central como representante del cluster

A

Clustering basado en prototipos, donde el centroide es el punto de referencia del cluster.

53
Q

¿Qué es el método de las k-medias?

A

Un algoritmo de clustering que divide los datos en k clusters, asignando cada punto al cluster más cercano a un centroide.

54
Q

¿Cómo el método de las k-medias asigna un nuevo objeto a un cluster?

A

Calcula la distancia entre el objeto y cada centroide, y lo asigna al cluster con la distancia mínima.

55
Q

¿Qué es el Score Silhouette?

A

Es una métrica para evaluar la calidad del clustering; compara la distancia promedio de un punto a otros puntos de su cluster con la distancia a puntos del cluster más cercano.

56
Q

Resultado de un Score Silhouette negativo

A

Indica que el punto puede estar mal asignado o que el agrupamiento es deficiente.

57
Q

¿Qué indica un Score Silhouette cercano a 1?

A

Indica una buena cohesión y separación entre clusters.

58
Q

Ejemplo de clustering en negocios

A

Agrupar clientes según patrones de compra para identificar segmentos con necesidades similares.

59
Q

En clustering por densidad, ¿qué define un cluster?

A

Una región densa en datos, rodeada de zonas con menos densidad; es posible que queden puntos aislados.

60
Q

¿Qué son los métodos de particionamiento duro?

A

Métodos que dividen la base de datos en 𝑘 clusters, donde cada objeto pertenece exclusivamente a un solo cluster, y cada cluster contiene al menos un objeto.

61
Q

¿Qué es el clustering basado en densidad?

A

Un método donde los clusters se definen como regiones densas en datos, rodeadas por áreas menos densas. No todos los puntos están necesariamente asignados a un cluster.

62
Q

Características del clustering jerárquico divisivo

A

Considera inicialmente todo el conjunto de datos como un cluster y lo divide en subclusters progresivamente.

63
Q

Los metodos de clustering son:

A
  • Métodos de particionamiento duro
  • Métodos jerárquicos
64
Q

Etapas clave en la evolución de la analítica empresarial desde los años 70 hasta 2010

A

1. 70’s: Sistemas de Apoyo a la Toma de Decisiones (DDS)
2. 90’s: Inteligencia de Negocios
3. 2010: Analítica (Descriptiva, Predictiva, Prescriptiva)

65
Q

¿Qué pregunta responde la analítica descriptiva?

A

“¿Qué sucedió?”
Proporciona métricas de negocio y análisis de datos históricos.

66
Q

¿Qué pregunta responde la analítica de diagnóstico?

A

“¿Por qué sucedió?”
Identifica anomalías y relaciones causa-efecto.

67
Q

¿Qué pregunta responde la analítica predictiva?

A

“¿Qué es lo que va a pasar?”
Predice resultados futuros basándose en patrones de datos.

68
Q

¿Qué pregunta responde la analítica prescriptiva?

A

“¿Qué se debe hacer?”
Ofrece recomendaciones y decisiones óptimas basadas en datos.

69
Q

Ejemplos de aplicaciones de analítica en el sector financiero

A

Detección de fraudes, análisis de reclamos, calificación de crédito.

70
Q

Beneficios de la analítica empresarial

A
  • Comprensión del negocio
  • Reducción de costos
  • Anticipación de cambios
  • Mejora en la toma de decisiones.
71
Q

Etapas del desarrollo de capacidades analíticas según Davenport

A
  1. Sin analítica
  2. Analítica localizada
  3. Aspiraciones analíticas
  4. Organizaciones analíticas
  5. Competidores analíticos
72
Q

Características de una “Organización analítica” (Etapa 4)

A

Usa analítica regularmente, obtiene beneficios, pero aún no es una ventaja competitiva.

73
Q

Características de un “Competidor analítico” (Etapa 5)

A

Usa la analítica de manera rutinaria, con un enfoque a nivel empresarial y beneficios a gran escala.

74
Q

¿Qué se necesita para que una organización sea analítica?

A
  1. Datos de alta calidad
  2. Orientación empresarial
  3. Objetivos estratégicos claros
  4. Analistas capacitados
  5. Líderes comprometidos.
75
Q

¿Qué significa gobernanza de datos en analítica?

A

Asegurar que los datos sean útiles, consistentes, de calidad, estandarizados, integrados y accesibles.

76
Q

Tipos de algoritmos en analítica prescriptiva

A
  • Algoritmos heurísticos (basados en reglas)
  • Algoritmos exactos (optimización)
77
Q

Ventaja de los algoritmos heurísticos

A

Son rápidos y adecuados para decisiones automáticas en problemas operativos repetitivos.

78
Q

Desventaja de los algoritmos heurísticos

A

No garantizan una respuesta óptima y pueden ser difíciles de mantener.

79
Q

¿Qué es la optimización en analítica prescriptiva?

A

Uso de modelos matemáticos para encontrar la solución óptima en problemas definidos con ecuaciones.

80
Q

Ventaja de los algoritmos de optimización

A

Generan una respuesta óptima y son útiles para decisiones complejas.

81
Q

Desventaja de los algoritmos de optimización

A

Pueden ser lentos para problemas complejos y requieren software especializado.

82
Q

¿Qué es un Data Warehouse Empresarial?

A

Es un almacén de datos centralizado que integra y organiza la información para facilitar el análisis a nivel empresarial.

83
Q

Ejemplo de transición de la Etapa 2 a la Etapa 3 en capacidades analíticas

A

Integración de datos departamentales y un enfoque en procesos interdepartamentales.

84
Q

¿Qué es la analítica prescriptiva?

A

Es una analítica avanzada que optimiza la toma de decisiones al proporcionar una acción recomendada. A diferencia de la analítica descriptiva o predictiva, la prescriptiva sugiere cómo se deben modificar los procesos empresariales para alcanzar objetivos específicos.

85
Q

¿Por qué se considera la analítica prescriptiva la “frontera final” de la analítica?

A

Porque proporciona soluciones implementables con costos y beneficios conocidos, haciendo que las reglas y datos empresariales sean directamente accionables.

86
Q

Diferencias entre optimización matemática y analítica prescriptiva

A

La optimización matemática se centra en representar problemas empresariales mediante fórmulas o ecuaciones para lograr un objetivo específico, y es una herramienta principal dentro de la analítica prescriptiva.

87
Q

Ejemplos de casos de uso de analítica prescriptiva en la cadena de suministro

A

Diseño de redes, planificación de capacidad, planificación de inventario y reposición, y optimización de rutas logísticas.

88
Q

Factores que impulsan la adopción de la analítica prescriptiva

A
  1. Mejoras en la toma de decisiones en entornos complejos.
  2. Disponibilidad de datos y avances en el poder de cómputo.
  3. Enfoque en la operacionalización.
  4. Retorno de inversión (ROI) probado.
89
Q

Ejemplo de impacto de la analítica prescriptiva en manufactura

A

Un cliente de manufactura identificó $20 millones en ahorros en la primera semana de su modelo de planificación integrado, utilizando la capacidad existente de su red en lugar de invertir en una nueva línea de producción

90
Q

¿Qué es AIMMS en el contexto de analítica prescriptiva?

A

Es una plataforma de analítica prescriptiva de bajo código que permite a las empresas desarrollar y desplegar aplicaciones de optimización personalizadas, facilitando el uso de programación matemática en el backend.

91
Q

Ventajas de los modelos de optimización logística en analítica prescriptiva

A

Ventajas de los modelos de optimización logística en analítica prescriptiva

92
Q

¿Qué representa el cambio a la nube para la analítica prescriptiva?

A

Facilita el despliegue y escalabilidad de modelos de optimización, eliminando la dependencia de los departamentos de TI y permitiendo un acceso más rápido y sencillo a las soluciones de optimización.

93
Q

¿Por qué se está moviendo la analítica prescriptiva de pilotos a la operacionalización?

A

Porque las organizaciones reconocen el valor de implementar estos modelos a gran escala, lo que ha llevado a una expansión en infraestructuras de datos en tiempo real y analíticas.

94
Q

¿Qué son las soluciones de analítica prescriptiva fuera de la estantería?

A

Son aplicaciones estándar de analítica prescriptiva que no requieren personalización extensa, diseñadas para problemas empresariales comunes como la planificación integrada de negocios o la optimización de la cadena de suministro.