Resumen Examen III Flashcards
¿Qué es la Minería de Datos?
Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos para descubrir patrones desconocidos que puedan ser utilizados como ventaja competitiva.
¿Qué áreas se relacionan con la Minería de Datos?
- Inteligencia Artificial
- Estadística
- Bases de Datos
- Visualización de información
- Matemáticas
- Aprendizaje Automático
¿Por qué ha tomado fuerza la Minería de Datos?
Debido a:
* Valor de los datos
* La consolidación de los datos
* Madurez tecnológica
¿Qué es un problema predictivo en Minería de Datos?
Es un problema en el que se busca predecir comportamientos futuros, utilizando aprendizaje supervisado para clasificar o estimar resultados.
¿Qué son los problemas descriptivos en Minería de Datos?
Problemas que buscan describir el conjunto de datos, utilizando aprendizaje no supervisado para hallar asociaciones y patrones.
¿Qué es la Clasificación en Minería de Datos?
Es una tarea predictiva en la que la variable de interés es categórica
¿Qué es la Estimación en Minería de Datos?
Es una tarea predictiva en la cual se estima el valor numérico de la variable target utilizando los valores de los predictores
Los valores predictores son los datos base utilizados
¿Qué es el Clustering en Minería de Datos?
Es una tarea descriptiva que agrupa registros en clases similares entre sí, pero diferentes a los de otros grupos.
Cluster = Conjunto de registros relacionados
Técnicas comunes en Minería de Datos para problemas predictivos
- Árboles de decisión
- Bosques aleatorios
- Regresión logística
- Redes neuronales
Técnicas comunes para Clustering
Método de k-means, redes neuronales, algoritmos aglomerativos y clustering basado en densidad.
Técnicas comunes para Análisis de relaciones o
Asociaciones
- Algoritmos A priori
- FP-Growth
¿Qué es CRISP-DM?
Es un framework para proyectos de Minería de Datos que incluye pasos como:
* Entender el negocio
* Entender los datos
* Preparacion de los datos (Ej. ETL)
* Modelado
* Evaluación de desempeño
* Despliegue
Estos pasos:
- Comprender el problema
- Selección de los datos
- Exploración de datos
- Preparar conjuntos de entrenamiento y prueba 70/30
- Seleccionar la técnica
- Seleccionar criterios de desempeño
- Ejecutar el modelo
Corresponden a:
Proceso genérico de minería de datos
¿Qué requieren los árboles de decisión para clasificar?
Aprendizaje supervisado, un conjunto de datos de entrenamiento y prueba, y una variable a predecir que sea categórica.
¿Cómo se eligen los nodos en un árbol de decisión?
Usando medidas de pureza o impureza como:
* Entropía
* Índice de Gini
* Ganancia de Información
Técnica de clasificación basada en nodos puros
Árbol de decisión
Nodos Puros = Nodos donde todos los registros son de la misma
clase
Cuales son los algoritmos para árboles de decisión
- CART (Classification And Regression Tree)
- ID3 (Iterative Dichotomiser 3)
- C4.5
Algoritmo que sólo permite clasificaciones binarias
CART
−Σpk log2(pk), donde k es el número de valores posibles de la variable objetivo.
Fórmula de la Entropía
Algoritmo que no garantiza soluciones óptima y genera árboles pequeños en poco tiempo
ID3
¿Qué indica una alta AUC en una curva ROC?
Buen rendimiento del modelo; cuanto más cercana a 1, mejor la precisión de la clasificación.
- Verdaderos positivos (TP)
- Falsos positivos (FP)
- Falsos negativos (FN)
- Verdaderos negativos (TN)
Elementos de la matriz de confusión para evaluar modelos de clasificación.
¿Qué mide la sensibilidad en un modelo de clasificación?
Capacidad del modelo para seleccionar correctamente los verdaderos positivos.
Fórmula: TP/(TP+FN)
¿Qué mide la precisión en un modelo de clasificación?
La proporción de casos correctamente predichos como positivos entre todos los predichos como positivos.
¿Qué mide la especificidad en un modelo de clasificación?
Capacidad del modelo para rechazar todos los casos que deben rechazarse
¿Qué mide la exactitud en un modelo de clasificación?
Mide que tan a menudo la predicción es correcta
Fórmula: (TP + TN) / [(TP + TN) + (FP + FN)]
Error en un modelo de clasificación
Complemento de la exactitud.
Fórmula: 1 - exactitud
Si la clase real es negativa, pero se predijo como positiva, se llama…
Falso positivo (FP)
Si la clase real es positiva, pero se predijo como negativa, se llama…
Falso negativo (FN)
Si la clase real es positiva y también se predijo como positiva, se llama…
Verdadero positivo (TP)
¿Qué es la curva ROC?
Gráfica que muestra la proporción de verdaderos positivos frente a falsos positivos para evaluar el rendimiento de un modelo de clasificación.
¿Qué es el AUC?
El AUC (Area Under the Curve) es una medida que representa el área bajo la curva ROC, indicando la capacidad de un modelo para distinguir entre clases. Un AUC cercano a 1 implica un buen rendimiento, mientras que un AUC de 0.5 sugiere que el modelo no tiene valor predictivo.
¿Qué hace el análisis de regresión?
Especifica la relación entre una variable
dependiente y una variable independiente.
Formula: y = α + βx
- El α y el β es lo que genera la regresión.
- La y es la variable dependiente y la x la variable independiente o predictor.
Ejemplos de regresión lineal
Predecir el precio de una casa según el número de habitaciones, predecir la nota de un estudiante según las horas de estudio…
¿Qué es un modelo de regresión lineal simple?
Es un modelo de regresión lineal que utiliza un solo predictor o variable independiente para hacer predicciones.
¿Qué técnica se usa para minimizar el error en la regresión lineal?
El método de los mínimos cuadrados, que busca minimizar la distancia entre los valores predichos y los valores reales.
¿Qué es el error residual estándar (RMSE)?
Es la desviación estándar de los errores del modelo; mide cuánto se desvían en promedio las predicciones del valor real.
¿Qué se revisa en el modelo?
- Los valores residuales (errores)
- Los coeficientes del modelo
- RMSE
- MAE
- Estadística R^2
- Estadística F
- El p-value asociado a la estadística F