Examen #3 Flashcards by Jazmín Bonilla

Qué es minería de datos

Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos

How well did you know this?

Not at all

Perfectly

Cuál es el objetivo de la minería de datos

Descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores

How well did you know this?

Not at all

Perfectly

Con cuáles áreas de conocimiento se relaciona

Inteligencia artificial
Estadística
Bases de datos
Visualización de información
Matemáticas
Aprendizaje automático (machine learning)

How well did you know this?

Not at all

Perfectly

Que se busca con los datos predictivos

Se busca predecir, también llamado aprendizaje supervisado

How well did you know this?

Not at all

Perfectly

Que se busca con los datos descriptivos

Busca describir el conjunto de datos estudiado, llamado aprendizaje no supervisado

How well did you know this?

Not at all

Perfectly

Cuáles son tareas predictivas

Clasificación
Estimación

How well did you know this?

Not at all

Perfectly

Qué es clasificación

Es una tarea predictiva
La variable de interés es categórica (también llamado Target o label)
Puede ser binario o no

How well did you know this?

Not at all

Perfectly

Qué es estimación

Es una tarea predictiva
La variable que desea estimar (Target) es numérica
Para nuevas observaciones, el valor del Target se estima utilizando el valor de los predictores

How well did you know this?

Not at all

Perfectly

Cuáles son las tareas descriptivas

Clustering
Asociación

How well did you know this?

Not at all

Perfectly

Qué es clustering

Es una tarea descriptiva
Agrupar registros en clases de objetos similares
Un cluster es un conjunto de registros que son similares entre sí, pero diferentes a los de otro cluster

How well did you know this?

Not at all

Perfectly

Qué es asociación

Es una tarea descriptiva
Encontrar atributos “que van juntos”
Análisis de afinidad, análisis de canasta de mercado
Busca descubrir reglas para cuantificar las relaciones entre 2 o + atributos

How well did you know this?

Not at all

Perfectly

Que son las técnicas de minería de datos

Son implementaciones específicas de los algoritmos que se utilizan para llevar a cabo la construcción del modelo

How well did you know this?

Not at all

Perfectly

Técnicas para modelos predictivos de clasificación

Árboles de decisión
Bosques aleatorios
Regresión logística
Redes neuronales

How well did you know this?

Not at all

Perfectly

Técnicas para modelos predictivos para estimación

Árboles de regresión
Redes neuronales
Regresión lineal
Regresión no lineal

How well did you know this?

Not at all

Perfectly

Técnicas de análisis de relaciones o asociaciones para modelos descriptivos

Algoritmo A priori
FP-Growth

How well did you know this?

Not at all

Perfectly

Que son los árboles de decisión

Busca crear nodos hoja puros
Nodos donde todos los registros son de la misma clase o categoría

How well did you know this?

Not at all

Perfectly

Que son nodos hoja impuros

Cuando los datos están mal clasificados

How well did you know this?

Not at all

Perfectly

Cómo se eligen los nodos para estimar la pureza de un nodo

Entropia
Índice de Gini
Gane de información

How well did you know this?

Not at all

Perfectly

Qué es el algoritmo de carta

Produce árboles estrictamente binarios
Árboles de clasificación y regresión

Cuáles son las técnicas para evaluar modelos de clasificación

Matriz de confusión
ROC/AUC

Qué es la matriz de confusión

Cuantas de las predicciones que se hicieron para cada valor de la matriz de interés estuvieron correctas y cuáles no

Qué es un verdadero positivo

Se predijo la clase X y la clase actual es X

Qué es falso positivo

Se predijo la clase X y la clase actual es Y

Qué es falso negativo

Se predijo la clase Y y la clase actual es X

Qué es falso negativo

Se predijo la clase Y y la clase actual es X

Criterios a tomar en cuenta

Sensibilidad Especificidad Precisión Exactitud

Qué es la curva ROC

Gráfica la proporción de verdaderos positivos vs falsos positivos Usada para analizar el traedor entre la detección de TP mientras se evitan los FN

En los análisis de regresión cuales métodos se agrupan

Regresión lineal, Regresión logística, Regresión Poisson, Arboles de regresión

Que es el análisis de regresión

Especifica la relación entre una variable dependiente y una variable independiente, ambas numéricas

Algunos ejemplos de la regresión lineal simple

Predecir el precio promedio de una casa dada la cantidad de habitaciones Predecir la nota final de un estudiante en un curso, dada la cantidad de horas semanales que dedica al estudio Predecir el salario de una persona, dada la cantidad de años que ha laborado en una empresa

Los predictores son siempre

Numéricos

Que se tiene en la regresión lineal simple

Solo se tiene un predictor o variable independiente

Que revisar en el modelo

Los valores residuales Los coeficientes del modelo Error residual estándar Error absoluto medio MAE Estadistica R2 Estadistica F El valor p

Que fórmula se usa para la regresión lineal simple

Método de los mínimos cuadrados

Que es un cluster

Un agrupamiento de objetos de tal forma que los objetos de un mismo cluster tengan una alta similitud entre sí, pero muy diferente a los objetos de otro cluster

En que se utiliza el análisis de cluster

Reconocimiento de patrones Investigación de mercado Procesamiento de imágenes

Cuáles son los métodos de clustering según el método de particionamiento

Método de particionamiento duro Métodos jerárquicos

Que es el método de particionamiento duro

Dada una base de datos de n objetos el método construye k particiones, cada partición es un cluster, cada objeto debe tener al menos 1 objeto y cada objeto pertenece únicamente a 1 grupo

Que es el método jerárquico

Crea una descomposición jerárquica de los datos, todos los objetos comienzan en un grupo y se va ejecutando divisiones mientras se baja en la jerarquía

Cuáles son los métodos de clustering según el algoritmo

Clustering basado en prototipos Agrupación por densidad Clustering jerárquico Clustering jerárquico - enfoques Clustering basado en modelos

Que es el clustering basado en prototipos

Cada cluster se representa por un dato/objeto central El objeto central es el prototipo Segmentación de clientes

Que es agrupación por densidad

El cluster se define como una región densa donde se concentran datos Las zonas densas están rodeadas por otras con menos densidad de puntos Cada zona densa es un cluster

Que es cluster jerárquico

La jerarquía de cluster se crea basándose en la distancia entre puntos Su salida es un dendrograma Útil cuando la cantidad de datos es ilimitada

Clustering jerárquico - enfoques

Botón Bottom-up: cada punto es un cluster Top-down: el conjunto de datos se considera un cluster, se divide recursivamente en subclusters

Que es clustering basado en modelos

Basado en modelos de distribución de probabilidad Clustering basado en probabilidad Cluster donde sus elementos tienen la misma probabilidad

Que es el método de las k-medias

Es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.

Que es el Score silhouette

Se refiere a un método de interpretación y validación de la coherencia dentro del análisis de grupos