Resumen Examen III Flashcards
¿Qué es la Minería de Datos?
Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos para descubrir patrones desconocidos que puedan ser utilizados como ventaja competitiva.
¿Qué áreas se relacionan con la Minería de Datos?
- Inteligencia Artificial
- Estadística
- Bases de Datos
- Visualización de información
- Matemáticas
- Aprendizaje Automático
¿Por qué ha tomado fuerza la Minería de Datos?
Debido a:
* Valor de los datos
* La consolidación de los datos
* Madurez tecnológica
¿Qué es un problema predictivo en Minería de Datos?
Es un problema en el que se busca predecir comportamientos futuros, utilizando aprendizaje supervisado para clasificar o estimar resultados.
¿Qué son los problemas descriptivos en Minería de Datos?
Problemas que buscan describir el conjunto de datos, utilizando aprendizaje no supervisado para hallar asociaciones y patrones.
¿Qué es la Clasificación en Minería de Datos?
Es una tarea predictiva en la que la variable de interés es categórica
¿Qué es la Estimación en Minería de Datos?
Es una tarea predictiva en la cual se estima el valor numérico de la variable target utilizando los valores de los predictores
Los valores predictores son los datos base utilizados
¿Qué es el Clustering en Minería de Datos?
Es una tarea descriptiva que agrupa registros en clases similares entre sí, pero diferentes a los de otros grupos.
Cluster = Conjunto de registros relacionados
Técnicas comunes en Minería de Datos para problemas predictivos
- Árboles de decisión
- Bosques aleatorios
- Regresión logística
- Redes neuronales
Técnicas comunes para Clustering
Método de k-means, redes neuronales, algoritmos aglomerativos y clustering basado en densidad.
Técnicas comunes para Análisis de relaciones o
Asociaciones
- Algoritmos A priori
- FP-Growth
¿Qué es CRISP-DM?
Es un framework para proyectos de Minería de Datos que incluye pasos como:
* Entender el negocio
* Entender los datos
* Preparacion de los datos (Ej. ETL)
* Modelado
* Evaluación de desempeño
* Despliegue
Estos pasos:
- Comprender el problema
- Selección de los datos
- Exploración de datos
- Preparar conjuntos de entrenamiento y prueba 70/30
- Seleccionar la técnica
- Seleccionar criterios de desempeño
- Ejecutar el modelo
Corresponden a:
Proceso genérico de minería de datos
¿Qué requieren los árboles de decisión para clasificar?
Aprendizaje supervisado, un conjunto de datos de entrenamiento y prueba, y una variable a predecir que sea categórica.
¿Cómo se eligen los nodos en un árbol de decisión?
Usando medidas de pureza o impureza como:
* Entropía
* Índice de Gini
* Ganancia de Información
Técnica de clasificación basada en nodos puros
Árbol de decisión
Nodos Puros = Nodos donde todos los registros son de la misma
clase
Cuales son los algoritmos para árboles de decisión
- CART (Classification And Regression Tree)
- ID3 (Iterative Dichotomiser 3)
- C4.5
Algoritmo que sólo permite clasificaciones binarias
CART
−Σpk log2(pk), donde k es el número de valores posibles de la variable objetivo.
Fórmula de la Entropía
Algoritmo que no garantiza soluciones óptima y genera árboles pequeños en poco tiempo
ID3
¿Qué indica una alta AUC en una curva ROC?
Buen rendimiento del modelo; cuanto más cercana a 1, mejor la precisión de la clasificación.
- Verdaderos positivos (TP)
- Falsos positivos (FP)
- Falsos negativos (FN)
- Verdaderos negativos (TN)
Elementos de la matriz de confusión para evaluar modelos de clasificación.
¿Qué mide la sensibilidad en un modelo de clasificación?
Capacidad del modelo para seleccionar correctamente los verdaderos positivos.
Fórmula: TP/(TP+FN)
¿Qué mide la precisión en un modelo de clasificación?
La proporción de casos correctamente predichos como positivos entre todos los predichos como positivos.
¿Qué mide la especificidad en un modelo de clasificación?
Capacidad del modelo para rechazar todos los casos que deben rechazarse
¿Qué mide la exactitud en un modelo de clasificación?
Mide que tan a menudo la predicción es correcta
Fórmula: (TP + TN) / [(TP + TN) + (FP + FN)]
Error en un modelo de clasificación
Complemento de la exactitud.
Fórmula: 1 - exactitud
Si la clase real es negativa, pero se predijo como positiva, se llama…
Falso positivo (FP)
Si la clase real es positiva, pero se predijo como negativa, se llama…
Falso negativo (FN)
Si la clase real es positiva y también se predijo como positiva, se llama…
Verdadero positivo (TP)
¿Qué es la curva ROC?
Gráfica que muestra la proporción de verdaderos positivos frente a falsos positivos para evaluar el rendimiento de un modelo de clasificación.
¿Qué es el AUC?
El AUC (Area Under the Curve) es una medida que representa el área bajo la curva ROC, indicando la capacidad de un modelo para distinguir entre clases. Un AUC cercano a 1 implica un buen rendimiento, mientras que un AUC de 0.5 sugiere que el modelo no tiene valor predictivo.
¿Qué hace el análisis de regresión?
Especifica la relación entre una variable
dependiente y una variable independiente.
Formula: y = α + βx
- El α y el β es lo que genera la regresión.
- La y es la variable dependiente y la x la variable independiente o predictor.
Ejemplos de regresión lineal
Predecir el precio de una casa según el número de habitaciones, predecir la nota de un estudiante según las horas de estudio…
¿Qué es un modelo de regresión lineal simple?
Es un modelo de regresión lineal que utiliza un solo predictor o variable independiente para hacer predicciones.
¿Qué técnica se usa para minimizar el error en la regresión lineal?
El método de los mínimos cuadrados, que busca minimizar la distancia entre los valores predichos y los valores reales.
¿Qué es el error residual estándar (RMSE)?
Es la desviación estándar de los errores del modelo; mide cuánto se desvían en promedio las predicciones del valor real.
¿Qué se revisa en el modelo?
- Los valores residuales (errores)
- Los coeficientes del modelo
- RMSE
- MAE
- Estadística R^2
- Estadística F
- El p-value asociado a la estadística F
¿Qué representa el valor R^2
en un modelo de regresión?
Representa la proporción de la variabilidad de la variable dependiente que es explicada por las variables independientes; valores cercanos a 1 indican una buena relación.
¿Qué indica un p-value menor a 0.05 en un modelo de regresión?
Indica que hay una relación estadísticamente significativa entre los predictores y la variable objetivo.
¿Qué mide el error absoluto medio (MAE)?
Mide la magnitud promedio de los errores entre los valores predichos y los valores reales sin considerar su dirección.
Estadística que indica si hay relación entre los predictores y la variable objetivo en regresión lineal
Estadística F
Un valor alto indica una fuerte relación.
¿Qué se debe hacer antes de generar el modelo de regresión lineal?
Transformar los datos, dividir en conjunto de entrenamiento y prueba, y seleccionar los predictores.
“Método de análisis que incluye** regresión lineal**, logística, Poisson, y Arboles de regresión
Análisis de regresión
¿Qué es el clustering?
Es el proceso de agrupar objetos en clusters de manera que los objetos en el mismo cluster tengan alta similitud entre sí y sean diferentes a los de otros clusters.
Ejemplos de aplicaciones de clustering
- Reconocimiento de patrones
- Investigación de mercados
- Procesamiento de imágenes
- Segmentación de clientes.
Clustering vs Clasificación
En clasificación, se asignan etiquetas conocidas a los datos. En clustering, no hay etiquetas previas; el algoritmo encuentra los grupos.
Estos métodos dividen datos en grupos sin solapamientos…
Métodos de particionamiento duro.
Enfoques de clustering jerárquico
1. Aglomerativo (Bottom-up): Cada punto inicia como un cluster, y se agrupan progresivamente.
2. Divisivo (Top-down): Todo el conjunto de datos se considera un cluster y se divide en subclusters.
Enfoque de clustering donde cada punto inicia como un cluster, y se agrupan progresivamente.
Aglomerativo
¿Qué es un dendrograma?
Es una **representación gráfica de clustering jerárquico **que muestra cómo se agrupan los datos en diferentes niveles.
Tipos de clustering según el algoritmo
- Basado en prototipos
- Por densidad
- Jerárquico
- Basado en modelos de probabilidad
Método que usa un objeto central como representante del cluster
Clustering basado en prototipos, donde el centroide es el punto de referencia del cluster.
¿Qué es el método de las k-medias?
Un algoritmo de clustering que divide los datos en k clusters, asignando cada punto al cluster más cercano a un centroide.
¿Cómo el método de las k-medias asigna un nuevo objeto a un cluster?
Calcula la distancia entre el objeto y cada centroide, y lo asigna al cluster con la distancia mínima.
¿Qué es el Score Silhouette?
Es una métrica para evaluar la calidad del clustering; compara la distancia promedio de un punto a otros puntos de su cluster con la distancia a puntos del cluster más cercano.
Resultado de un Score Silhouette negativo
Indica que el punto puede estar mal asignado o que el agrupamiento es deficiente.
¿Qué indica un Score Silhouette cercano a 1?
Indica una buena cohesión y separación entre clusters.
Ejemplo de clustering en negocios
Agrupar clientes según patrones de compra para identificar segmentos con necesidades similares.
En clustering por densidad, ¿qué define un cluster?
Una región densa en datos, rodeada de zonas con menos densidad; es posible que queden puntos aislados.
¿Qué son los métodos de particionamiento duro?
Métodos que dividen la base de datos en 𝑘 clusters, donde cada objeto pertenece exclusivamente a un solo cluster, y cada cluster contiene al menos un objeto.
¿Qué es el clustering basado en densidad?
Un método donde los clusters se definen como regiones densas en datos, rodeadas por áreas menos densas. No todos los puntos están necesariamente asignados a un cluster.
Características del clustering jerárquico divisivo
Considera inicialmente todo el conjunto de datos como un cluster y lo divide en subclusters progresivamente.
Los metodos de clustering son:
- Métodos de particionamiento duro
- Métodos jerárquicos
Etapas clave en la evolución de la analítica empresarial desde los años 70 hasta 2010
1. 70’s: Sistemas de Apoyo a la Toma de Decisiones (DDS)
2. 90’s: Inteligencia de Negocios
3. 2010: Analítica (Descriptiva, Predictiva, Prescriptiva)
¿Qué pregunta responde la analítica descriptiva?
“¿Qué sucedió?”
Proporciona métricas de negocio y análisis de datos históricos.
¿Qué pregunta responde la analítica de diagnóstico?
“¿Por qué sucedió?”
Identifica anomalías y relaciones causa-efecto.
¿Qué pregunta responde la analítica predictiva?
“¿Qué es lo que va a pasar?”
Predice resultados futuros basándose en patrones de datos.
¿Qué pregunta responde la analítica prescriptiva?
“¿Qué se debe hacer?”
Ofrece recomendaciones y decisiones óptimas basadas en datos.
Ejemplos de aplicaciones de analítica en el sector financiero
Detección de fraudes, análisis de reclamos, calificación de crédito.
Beneficios de la analítica empresarial
- Comprensión del negocio
- Reducción de costos
- Anticipación de cambios
- Mejora en la toma de decisiones.
Etapas del desarrollo de capacidades analíticas según Davenport
- Sin analítica
- Analítica localizada
- Aspiraciones analíticas
- Organizaciones analíticas
- Competidores analíticos
Características de una “Organización analítica” (Etapa 4)
Usa analítica regularmente, obtiene beneficios, pero aún no es una ventaja competitiva.
Características de un “Competidor analítico” (Etapa 5)
Usa la analítica de manera rutinaria, con un enfoque a nivel empresarial y beneficios a gran escala.
¿Qué se necesita para que una organización sea analítica?
- Datos de alta calidad
- Orientación empresarial
- Objetivos estratégicos claros
- Analistas capacitados
- Líderes comprometidos.
¿Qué significa gobernanza de datos en analítica?
Asegurar que los datos sean útiles, consistentes, de calidad, estandarizados, integrados y accesibles.
Tipos de algoritmos en analítica prescriptiva
- Algoritmos heurísticos (basados en reglas)
- Algoritmos exactos (optimización)
Ventaja de los algoritmos heurísticos
Son rápidos y adecuados para decisiones automáticas en problemas operativos repetitivos.
Desventaja de los algoritmos heurísticos
No garantizan una respuesta óptima y pueden ser difíciles de mantener.
¿Qué es la optimización en analítica prescriptiva?
Uso de modelos matemáticos para encontrar la solución óptima en problemas definidos con ecuaciones.
Ventaja de los algoritmos de optimización
Generan una respuesta óptima y son útiles para decisiones complejas.
Desventaja de los algoritmos de optimización
Pueden ser lentos para problemas complejos y requieren software especializado.
¿Qué es un Data Warehouse Empresarial?
Es un almacén de datos centralizado que integra y organiza la información para facilitar el análisis a nivel empresarial.
Ejemplo de transición de la Etapa 2 a la Etapa 3 en capacidades analíticas
Integración de datos departamentales y un enfoque en procesos interdepartamentales.
¿Qué es la analítica prescriptiva?
Es una analítica avanzada que optimiza la toma de decisiones al proporcionar una acción recomendada. A diferencia de la analítica descriptiva o predictiva, la prescriptiva sugiere cómo se deben modificar los procesos empresariales para alcanzar objetivos específicos.
¿Por qué se considera la analítica prescriptiva la “frontera final” de la analítica?
Porque proporciona soluciones implementables con costos y beneficios conocidos, haciendo que las reglas y datos empresariales sean directamente accionables.
Diferencias entre optimización matemática y analítica prescriptiva
La optimización matemática se centra en representar problemas empresariales mediante fórmulas o ecuaciones para lograr un objetivo específico, y es una herramienta principal dentro de la analítica prescriptiva.
Ejemplos de casos de uso de analítica prescriptiva en la cadena de suministro
Diseño de redes, planificación de capacidad, planificación de inventario y reposición, y optimización de rutas logísticas.
Factores que impulsan la adopción de la analítica prescriptiva
- Mejoras en la toma de decisiones en entornos complejos.
- Disponibilidad de datos y avances en el poder de cómputo.
- Enfoque en la operacionalización.
- Retorno de inversión (ROI) probado.
Ejemplo de impacto de la analítica prescriptiva en manufactura
Un cliente de manufactura identificó $20 millones en ahorros en la primera semana de su modelo de planificación integrado, utilizando la capacidad existente de su red en lugar de invertir en una nueva línea de producción
¿Qué es AIMMS en el contexto de analítica prescriptiva?
Es una plataforma de analítica prescriptiva de bajo código que permite a las empresas desarrollar y desplegar aplicaciones de optimización personalizadas, facilitando el uso de programación matemática en el backend.
Ventajas de los modelos de optimización logística en analítica prescriptiva
Ventajas de los modelos de optimización logística en analítica prescriptiva
¿Qué representa el cambio a la nube para la analítica prescriptiva?
Facilita el despliegue y escalabilidad de modelos de optimización, eliminando la dependencia de los departamentos de TI y permitiendo un acceso más rápido y sencillo a las soluciones de optimización.
¿Por qué se está moviendo la analítica prescriptiva de pilotos a la operacionalización?
Porque las organizaciones reconocen el valor de implementar estos modelos a gran escala, lo que ha llevado a una expansión en infraestructuras de datos en tiempo real y analíticas.
¿Qué son las soluciones de analítica prescriptiva fuera de la estantería?
Son aplicaciones estándar de analítica prescriptiva que no requieren personalización extensa, diseñadas para problemas empresariales comunes como la planificación integrada de negocios o la optimización de la cadena de suministro.