Examen #3 Flashcards
Qué es minería de datos
Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos
Cuál es el objetivo de la minería de datos
Descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores
Con cuáles áreas de conocimiento se relaciona
Inteligencia artificial
Estadística
Bases de datos
Visualización de información
Matemáticas
Aprendizaje automático (machine learning)
Que se busca con los datos predictivos
Se busca predecir, también llamado aprendizaje supervisado
Que se busca con los datos descriptivos
Busca describir el conjunto de datos estudiado, llamado aprendizaje no supervisado
Cuáles son tareas predictivas
Clasificación
Estimación
Qué es clasificación
Es una tarea predictiva
La variable de interés es categórica (también llamado Target o label)
Puede ser binario o no
Qué es estimación
Es una tarea predictiva
La variable que desea estimar (Target) es numérica
Para nuevas observaciones, el valor del Target se estima utilizando el valor de los predictores
Cuáles son las tareas descriptivas
Clustering
Asociación
Qué es clustering
Es una tarea descriptiva
Agrupar registros en clases de objetos similares
Un cluster es un conjunto de registros que son similares entre sí, pero diferentes a los de otro cluster
Qué es asociación
Es una tarea descriptiva
Encontrar atributos “que van juntos”
Análisis de afinidad, análisis de canasta de mercado
Busca descubrir reglas para cuantificar las relaciones entre 2 o + atributos
Que son las técnicas de minería de datos
Son implementaciones específicas de los algoritmos que se utilizan para llevar a cabo la construcción del modelo
Técnicas para modelos predictivos de clasificación
Árboles de decisión
Bosques aleatorios
Regresión logística
Redes neuronales
Técnicas para modelos predictivos para estimación
Árboles de regresión
Redes neuronales
Regresión lineal
Regresión no lineal
Técnicas de análisis de relaciones o asociaciones para modelos descriptivos
Algoritmo A priori
FP-Growth
Que son los árboles de decisión
Busca crear nodos hoja puros
Nodos donde todos los registros son de la misma clase o categoría
Que son nodos hoja impuros
Cuando los datos están mal clasificados
Cómo se eligen los nodos para estimar la pureza de un nodo
Entropia
Índice de Gini
Gane de información