Resumen Examen III Flashcards

Question 1

Q

¿Qué es la Minería de Datos?

Answer

A

Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos para descubrir patrones desconocidos que puedan ser utilizados como ventaja competitiva.

Question 2

Q

¿Qué áreas se relacionan con la Minería de Datos?

Answer

A

Inteligencia Artificial
Estadística
Bases de Datos
Visualización de información
Matemáticas
Aprendizaje Automático

Question 3

Q

¿Por qué ha tomado fuerza la Minería de Datos?

Answer

A

Debido a:
* Valor de los datos
* La consolidación de los datos
* Madurez tecnológica

Question 4

Q

¿Qué es un problema predictivo en Minería de Datos?

Answer

A

Es un problema en el que se busca predecir comportamientos futuros, utilizando aprendizaje supervisado para clasificar o estimar resultados.

Question 5

Q

¿Qué son los problemas descriptivos en Minería de Datos?

Answer

A

Problemas que buscan describir el conjunto de datos, utilizando aprendizaje no supervisado para hallar asociaciones y patrones.

Question 6

Q

¿Qué es la Clasificación en Minería de Datos?

Answer

A

Es una tarea predictiva en la que la variable de interés es categórica

Question 7

Q

¿Qué es la Estimación en Minería de Datos?

Answer

A

Es una tarea predictiva en la cual se estima el valor numérico de la variable target utilizando los valores de los predictores

Los valores predictores son los datos base utilizados

Question 8

Q

¿Qué es el Clustering en Minería de Datos?

Answer

A

Es una tarea descriptiva que agrupa registros en clases similares entre sí, pero diferentes a los de otros grupos.

Cluster = Conjunto de registros relacionados

Question 9

Q

Técnicas comunes en Minería de Datos para problemas predictivos

Answer

A

Árboles de decisión
Bosques aleatorios
Regresión logística
Redes neuronales

Question 10

Q

Técnicas comunes para Clustering

Answer

A

Método de k-means, redes neuronales, algoritmos aglomerativos y clustering basado en densidad.

Question 11

Q

Técnicas comunes para Análisis de relaciones o
Asociaciones

Answer

A

Algoritmos A priori
FP-Growth

Question 12

Q

¿Qué es CRISP-DM?

Answer

A

Es un framework para proyectos de Minería de Datos que incluye pasos como:
* Entender el negocio
* Entender los datos
* Preparacion de los datos (Ej. ETL)
* Modelado
* Evaluación de desempeño
* Despliegue

Question 13

Q

Estos pasos:

Comprender el problema
Selección de los datos
Exploración de datos
Preparar conjuntos de entrenamiento y prueba 70/30
Seleccionar la técnica
Seleccionar criterios de desempeño
Ejecutar el modelo

Corresponden a:

Answer

A

Proceso genérico de minería de datos

Question 14

Q

¿Qué requieren los árboles de decisión para clasificar?

Answer

A

Aprendizaje supervisado, un conjunto de datos de entrenamiento y prueba, y una variable a predecir que sea categórica.

Question 15

Q

¿Cómo se eligen los nodos en un árbol de decisión?

Answer

A

Usando medidas de pureza o impureza como:
* Entropía
* Índice de Gini
* Ganancia de Información

Question 16

Q

Técnica de clasificación basada en nodos puros

Answer

A

Árbol de decisión

Nodos Puros = Nodos donde todos los registros son de la misma
clase

Question 17

Q

Cuales son los algoritmos para árboles de decisión

Answer

A

CART (Classification And Regression Tree)
ID3 (Iterative Dichotomiser 3)
C4.5

Question 18

Q

Algoritmo que sólo permite clasificaciones binarias

Question 19

Q

−Σpk log2(pk), donde k es el número de valores posibles de la variable objetivo.

Answer

A

Fórmula de la Entropía

Question 20

Q

Algoritmo que no garantiza soluciones óptima y genera árboles pequeños en poco tiempo

Question 21

Q

¿Qué indica una alta AUC en una curva ROC?

Answer

A

Buen rendimiento del modelo; cuanto más cercana a 1, mejor la precisión de la clasificación.

Question 22

Q

Verdaderos positivos (TP)
Falsos positivos (FP)
Falsos negativos (FN)
Verdaderos negativos (TN)

Answer

A

Elementos de la matriz de confusión para evaluar modelos de clasificación.

Question 23

Q

¿Qué mide la sensibilidad en un modelo de clasificación?

Answer

A

Capacidad del modelo para seleccionar correctamente los verdaderos positivos.
Fórmula: TP/(TP+FN)

Question 24

Q

¿Qué mide la precisión en un modelo de clasificación?

Answer

A

La proporción de casos correctamente predichos como positivos entre todos los predichos como positivos.

Question 25

Q

¿Qué mide la especificidad en un modelo de clasificación?

Answer

A

Capacidad del modelo para rechazar todos los casos que deben rechazarse

Question 26

Q

¿Qué mide la exactitud en un modelo de clasificación?

Answer

A

Mide que tan a menudo la predicción es correcta
Fórmula: (TP + TN) / [(TP + TN) + (FP + FN)]

Question 27

Q

Error en un modelo de clasificación

Answer

A

Complemento de la exactitud.
Fórmula: 1 - exactitud

Question 28

Q

Si la clase real es negativa, pero se predijo como positiva, se llama…

Answer

A

Falso positivo (FP)

Question 29

Q

Si la clase real es positiva, pero se predijo como negativa, se llama…

Answer

A

Falso negativo (FN)

Question 30

Q

Si la clase real es positiva y también se predijo como positiva, se llama…

Answer

A

Verdadero positivo (TP)

Question 31

Q

¿Qué es la curva ROC?

Answer

A

Gráfica que muestra la proporción de verdaderos positivos frente a falsos positivos para evaluar el rendimiento de un modelo de clasificación.

Question 32

Q

¿Qué es el AUC?

Answer

A

El AUC (Area Under the Curve) es una medida que representa el área bajo la curva ROC, indicando la capacidad de un modelo para distinguir entre clases. Un AUC cercano a 1 implica un buen rendimiento, mientras que un AUC de 0.5 sugiere que el modelo no tiene valor predictivo.

Question 33

Q

¿Qué hace el análisis de regresión?

Answer

A

Especifica la relación entre una variable
dependiente y una variable independiente.
Formula: y = α + βx

El α y el β es lo que genera la regresión.
La y es la variable dependiente y la x la variable independiente o predictor.

Question 34

Q

Ejemplos de regresión lineal

Answer

A

Predecir el precio de una casa según el número de habitaciones, predecir la nota de un estudiante según las horas de estudio…

Question 35

Q

¿Qué es un modelo de regresión lineal simple?

Answer

A

Es un modelo de regresión lineal que utiliza un solo predictor o variable independiente para hacer predicciones.

Question 36

Q

¿Qué técnica se usa para minimizar el error en la regresión lineal?

Answer

A

El método de los mínimos cuadrados, que busca minimizar la distancia entre los valores predichos y los valores reales.

Question 37

Q

¿Qué es el error residual estándar (RMSE)?

Answer

A

Es la desviación estándar de los errores del modelo; mide cuánto se desvían en promedio las predicciones del valor real.

Question 38

Q

¿Qué se revisa en el modelo?

Answer

A

Los valores residuales (errores)
Los coeficientes del modelo
RMSE
MAE
Estadística R^2
Estadística F
El p-value asociado a la estadística F

Question 39

Q

¿Qué representa el valor R^2
en un modelo de regresión?

Answer

A

Representa la proporción de la variabilidad de la variable dependiente que es explicada por las variables independientes; valores cercanos a 1 indican una buena relación.

Question 40

Q

¿Qué indica un p-value menor a 0.05 en un modelo de regresión?

Answer

A

Indica que hay una relación estadísticamente significativa entre los predictores y la variable objetivo.

Question 41

Q

¿Qué mide el error absoluto medio (MAE)?

Answer

A

Mide la magnitud promedio de los errores entre los valores predichos y los valores reales sin considerar su dirección.

Question 42

Q

Estadística que indica si hay relación entre los predictores y la variable objetivo en regresión lineal

Answer

A

Estadística F
Un valor alto indica una fuerte relación.

Question 43

Q

¿Qué se debe hacer antes de generar el modelo de regresión lineal?

Answer

A

Transformar los datos, dividir en conjunto de entrenamiento y prueba, y seleccionar los predictores.

Question 44

Q

“Método de análisis que incluye** regresión lineal**, logística, Poisson, y Arboles de regresión

Answer

A

Análisis de regresión

Question 45

Q

¿Qué es el clustering?

Answer

A

Es el proceso de agrupar objetos en clusters de manera que los objetos en el mismo cluster tengan alta similitud entre sí y sean diferentes a los de otros clusters.

Question 46

Q

Ejemplos de aplicaciones de clustering

Answer

A

Reconocimiento de patrones
Investigación de mercados
Procesamiento de imágenes
Segmentación de clientes.

Question 47

Q

Clustering vs Clasificación

Answer

A

En clasificación, se asignan etiquetas conocidas a los datos. En clustering, no hay etiquetas previas; el algoritmo encuentra los grupos.

Question 48

Q

Estos métodos dividen datos en grupos sin solapamientos…

Answer

A

Métodos de particionamiento duro.

Question 49

Q

Enfoques de clustering jerárquico

Answer

A

1. Aglomerativo (Bottom-up): Cada punto inicia como un cluster, y se agrupan progresivamente.
2. Divisivo (Top-down): Todo el conjunto de datos se considera un cluster y se divide en subclusters.

Question 50

Q

Enfoque de clustering donde cada punto inicia como un cluster, y se agrupan progresivamente.

Answer

A

Aglomerativo

Question 51

Q

¿Qué es un dendrograma?

Answer

A

Es una **representación gráfica de clustering jerárquico **que muestra cómo se agrupan los datos en diferentes niveles.

Question 52

Q

Tipos de clustering según el algoritmo

Answer

A

Basado en prototipos
Por densidad
Jerárquico
Basado en modelos de probabilidad

Question 53

Q

Método que usa un objeto central como representante del cluster

Answer

A

Clustering basado en prototipos, donde el centroide es el punto de referencia del cluster.

Question 54

Q

¿Qué es el método de las k-medias?

Answer

A

Un algoritmo de clustering que divide los datos en k clusters, asignando cada punto al cluster más cercano a un centroide.

Question 55

Q

¿Cómo el método de las k-medias asigna un nuevo objeto a un cluster?

Answer

A

Calcula la distancia entre el objeto y cada centroide, y lo asigna al cluster con la distancia mínima.

Question 56

Q

¿Qué es el Score Silhouette?

Answer

A

Es una métrica para evaluar la calidad del clustering; compara la distancia promedio de un punto a otros puntos de su cluster con la distancia a puntos del cluster más cercano.

Question 57

Q

Resultado de un Score Silhouette negativo

Answer

A

Indica que el punto puede estar mal asignado o que el agrupamiento es deficiente.

Question 58

Q

¿Qué indica un Score Silhouette cercano a 1?

Answer

A

Indica una buena cohesión y separación entre clusters.

Question 59

Q

Ejemplo de clustering en negocios

Answer

A

Agrupar clientes según patrones de compra para identificar segmentos con necesidades similares.

Question 60

Q

En clustering por densidad, ¿qué define un cluster?

Answer

A

Una región densa en datos, rodeada de zonas con menos densidad; es posible que queden puntos aislados.

Question 61

Q

¿Qué son los métodos de particionamiento duro?

Answer

A

Métodos que dividen la base de datos en 𝑘 clusters, donde cada objeto pertenece exclusivamente a un solo cluster, y cada cluster contiene al menos un objeto.

Question 62

Q

¿Qué es el clustering basado en densidad?

Answer

A

Un método donde los clusters se definen como regiones densas en datos, rodeadas por áreas menos densas. No todos los puntos están necesariamente asignados a un cluster.

Question 63

Q

Características del clustering jerárquico divisivo

Answer

A

Considera inicialmente todo el conjunto de datos como un cluster y lo divide en subclusters progresivamente.

Question 64

Q

Los metodos de clustering son:

Answer

A

Métodos de particionamiento duro
Métodos jerárquicos

Answer 63

A

1. 70’s: Sistemas de Apoyo a la Toma de Decisiones (DDS)
2. 90’s: Inteligencia de Negocios
3. 2010: Analítica (Descriptiva, Predictiva, Prescriptiva)

Answer 64

A

“¿Qué sucedió?”
Proporciona métricas de negocio y análisis de datos históricos.

Answer 65

A

“¿Por qué sucedió?”
Identifica anomalías y relaciones causa-efecto.

Answer 66

A

“¿Qué es lo que va a pasar?”
Predice resultados futuros basándose en patrones de datos.

Answer 67

A

“¿Qué se debe hacer?”
Ofrece recomendaciones y decisiones óptimas basadas en datos.

Answer 68

A

Detección de fraudes, análisis de reclamos, calificación de crédito.

Answer 69

A

Comprensión del negocio
Reducción de costos
Anticipación de cambios
Mejora en la toma de decisiones.

Answer 70

A

Sin analítica
Analítica localizada
Aspiraciones analíticas
Organizaciones analíticas
Competidores analíticos

Answer 71

A

Usa analítica regularmente, obtiene beneficios, pero aún no es una ventaja competitiva.

Answer 72

A

Usa la analítica de manera rutinaria, con un enfoque a nivel empresarial y beneficios a gran escala.

Answer 73

A

Datos de alta calidad
Orientación empresarial
Objetivos estratégicos claros
Analistas capacitados
Líderes comprometidos.

Answer 74

A

Asegurar que los datos sean útiles, consistentes, de calidad, estandarizados, integrados y accesibles.

Answer 75

A

Algoritmos heurísticos (basados en reglas)
Algoritmos exactos (optimización)

Answer 76

A

Son rápidos y adecuados para decisiones automáticas en problemas operativos repetitivos.

Answer 77

A

No garantizan una respuesta óptima y pueden ser difíciles de mantener.

Answer 78

A

Uso de modelos matemáticos para encontrar la solución óptima en problemas definidos con ecuaciones.

Answer 79

A

Generan una respuesta óptima y son útiles para decisiones complejas.

Answer 80

A

Pueden ser lentos para problemas complejos y requieren software especializado.

Answer 81

A

Es un almacén de datos centralizado que integra y organiza la información para facilitar el análisis a nivel empresarial.

Answer 82

A

Integración de datos departamentales y un enfoque en procesos interdepartamentales.

Answer 83

A

Es una analítica avanzada que optimiza la toma de decisiones al proporcionar una acción recomendada. A diferencia de la analítica descriptiva o predictiva, la prescriptiva sugiere cómo se deben modificar los procesos empresariales para alcanzar objetivos específicos.

Answer 84

A

Porque proporciona soluciones implementables con costos y beneficios conocidos, haciendo que las reglas y datos empresariales sean directamente accionables.

Answer 85

A

La optimización matemática se centra en representar problemas empresariales mediante fórmulas o ecuaciones para lograr un objetivo específico, y es una herramienta principal dentro de la analítica prescriptiva.

Answer 86

A

Diseño de redes, planificación de capacidad, planificación de inventario y reposición, y optimización de rutas logísticas.

Answer 87

A

Mejoras en la toma de decisiones en entornos complejos.
Disponibilidad de datos y avances en el poder de cómputo.
Enfoque en la operacionalización.
Retorno de inversión (ROI) probado.

Answer 88

A

Un cliente de manufactura identificó $20 millones en ahorros en la primera semana de su modelo de planificación integrado, utilizando la capacidad existente de su red en lugar de invertir en una nueva línea de producción

Answer 89

A

Es una plataforma de analítica prescriptiva de bajo código que permite a las empresas desarrollar y desplegar aplicaciones de optimización personalizadas, facilitando el uso de programación matemática en el backend.

Answer 90

A

Ventajas de los modelos de optimización logística en analítica prescriptiva

Answer 91

A

Facilita el despliegue y escalabilidad de modelos de optimización, eliminando la dependencia de los departamentos de TI y permitiendo un acceso más rápido y sencillo a las soluciones de optimización.

Answer 92

A

Porque las organizaciones reconocen el valor de implementar estos modelos a gran escala, lo que ha llevado a una expansión en infraestructuras de datos en tiempo real y analíticas.

Answer 93

A

Son aplicaciones estándar de analítica prescriptiva que no requieren personalización extensa, diseñadas para problemas empresariales comunes como la planificación integrada de negocios o la optimización de la cadena de suministro.