Examen #3 Flashcards
Qué es minería de datos
Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos
Cuál es el objetivo de la minería de datos
Descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores
Con cuáles áreas de conocimiento se relaciona
Inteligencia artificial
Estadística
Bases de datos
Visualización de información
Matemáticas
Aprendizaje automático (machine learning)
Que se busca con los datos predictivos
Se busca predecir, también llamado aprendizaje supervisado
Que se busca con los datos descriptivos
Busca describir el conjunto de datos estudiado, llamado aprendizaje no supervisado
Cuáles son tareas predictivas
Clasificación
Estimación
Qué es clasificación
Es una tarea predictiva
La variable de interés es categórica (también llamado Target o label)
Puede ser binario o no
Qué es estimación
Es una tarea predictiva
La variable que desea estimar (Target) es numérica
Para nuevas observaciones, el valor del Target se estima utilizando el valor de los predictores
Cuáles son las tareas descriptivas
Clustering
Asociación
Qué es clustering
Es una tarea descriptiva
Agrupar registros en clases de objetos similares
Un cluster es un conjunto de registros que son similares entre sí, pero diferentes a los de otro cluster
Qué es asociación
Es una tarea descriptiva
Encontrar atributos “que van juntos”
Análisis de afinidad, análisis de canasta de mercado
Busca descubrir reglas para cuantificar las relaciones entre 2 o + atributos
Que son las técnicas de minería de datos
Son implementaciones específicas de los algoritmos que se utilizan para llevar a cabo la construcción del modelo
Técnicas para modelos predictivos de clasificación
Árboles de decisión
Bosques aleatorios
Regresión logística
Redes neuronales
Técnicas para modelos predictivos para estimación
Árboles de regresión
Redes neuronales
Regresión lineal
Regresión no lineal
Técnicas de análisis de relaciones o asociaciones para modelos descriptivos
Algoritmo A priori
FP-Growth
Que son los árboles de decisión
Busca crear nodos hoja puros
Nodos donde todos los registros son de la misma clase o categoría
Que son nodos hoja impuros
Cuando los datos están mal clasificados
Cómo se eligen los nodos para estimar la pureza de un nodo
Entropia
Índice de Gini
Gane de información
Qué es el algoritmo de carta
Produce árboles estrictamente binarios
Árboles de clasificación y regresión
Cuáles son las técnicas para evaluar modelos de clasificación
Matriz de confusión
ROC/AUC
Qué es la matriz de confusión
Cuantas de las predicciones que se hicieron para cada valor de la matriz de interés estuvieron correctas y cuáles no
Qué es un verdadero positivo
Se predijo la clase X y la clase actual es X
Qué es falso positivo
Se predijo la clase X y la clase actual es Y
Qué es falso negativo
Se predijo la clase Y y la clase actual es X
Qué es falso negativo
Se predijo la clase Y y la clase actual es X
Criterios a tomar en cuenta
Sensibilidad
Especificidad
Precisión
Exactitud
Qué es la curva ROC
Gráfica la proporción de verdaderos positivos vs falsos positivos
Usada para analizar el traedor entre la detección de TP mientras se evitan los FN
En los análisis de regresión cuales métodos se agrupan
Regresión lineal, Regresión logística, Regresión Poisson, Arboles de regresión
Que es el análisis de regresión
Especifica la relación entre una variable dependiente y una variable independiente, ambas numéricas
Algunos ejemplos de la regresión lineal simple
Predecir el precio promedio de una casa dada la cantidad de habitaciones
Predecir la nota final de un estudiante en un curso, dada la cantidad de horas semanales que dedica al estudio
Predecir el salario de una persona, dada la cantidad de años que ha laborado en una empresa
Los predictores son siempre
Numéricos
Que se tiene en la regresión lineal simple
Solo se tiene un predictor o variable independiente
Que revisar en el modelo
Los valores residuales
Los coeficientes del modelo
Error residual estándar
Error absoluto medio MAE
Estadistica R2
Estadistica F
El valor p
Que fórmula se usa para la regresión lineal simple
Método de los mínimos cuadrados
Que es un cluster
Un agrupamiento de objetos de tal forma que los objetos de un mismo cluster tengan una alta similitud entre sí, pero muy diferente a los objetos de otro cluster
En que se utiliza el análisis de cluster
Reconocimiento de patrones
Investigación de mercado
Procesamiento de imágenes
Cuáles son los métodos de clustering según el método de particionamiento
Método de particionamiento duro
Métodos jerárquicos
Que es el método de particionamiento duro
Dada una base de datos de n objetos el método construye k particiones, cada partición es un cluster, cada objeto debe tener al menos 1 objeto y cada objeto pertenece únicamente a 1 grupo
Que es el método jerárquico
Crea una descomposición jerárquica de los datos, todos los objetos comienzan en un grupo y se va ejecutando divisiones mientras se baja en la jerarquía
Cuáles son los métodos de clustering según el algoritmo
Clustering basado en prototipos
Agrupación por densidad
Clustering jerárquico
Clustering jerárquico - enfoques
Clustering basado en modelos
Que es el clustering basado en prototipos
Cada cluster se representa por un dato/objeto central
El objeto central es el prototipo
Segmentación de clientes
Que es agrupación por densidad
El cluster se define como una región densa donde se concentran datos
Las zonas densas están rodeadas por otras con menos densidad de puntos
Cada zona densa es un cluster
Que es cluster jerárquico
La jerarquía de cluster se crea basándose en la distancia entre puntos
Su salida es un dendrograma
Útil cuando la cantidad de datos es ilimitada
Clustering jerárquico - enfoques
Botón
Bottom-up: cada punto es un cluster
Top-down: el conjunto de datos se considera un cluster, se divide recursivamente en subclusters
Que es clustering basado en modelos
Basado en modelos de distribución de probabilidad
Clustering basado en probabilidad
Cluster donde sus elementos tienen la misma probabilidad
Que es el método de las k-medias
Es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.
Que es el Score silhouette
Se refiere a un método de interpretación y validación de la coherencia dentro del análisis de grupos