Examen #3 Flashcards

1
Q

Qué es minería de datos

A

Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Cuál es el objetivo de la minería de datos

A

Descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Con cuáles áreas de conocimiento se relaciona

A

Inteligencia artificial
Estadística
Bases de datos
Visualización de información
Matemáticas
Aprendizaje automático (machine learning)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Que se busca con los datos predictivos

A

Se busca predecir, también llamado aprendizaje supervisado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que se busca con los datos descriptivos

A

Busca describir el conjunto de datos estudiado, llamado aprendizaje no supervisado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cuáles son tareas predictivas

A

Clasificación
Estimación

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qué es clasificación

A

Es una tarea predictiva
La variable de interés es categórica (también llamado Target o label)
Puede ser binario o no

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qué es estimación

A

Es una tarea predictiva
La variable que desea estimar (Target) es numérica
Para nuevas observaciones, el valor del Target se estima utilizando el valor de los predictores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cuáles son las tareas descriptivas

A

Clustering
Asociación

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qué es clustering

A

Es una tarea descriptiva
Agrupar registros en clases de objetos similares
Un cluster es un conjunto de registros que son similares entre sí, pero diferentes a los de otro cluster

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qué es asociación

A

Es una tarea descriptiva
Encontrar atributos “que van juntos”
Análisis de afinidad, análisis de canasta de mercado
Busca descubrir reglas para cuantificar las relaciones entre 2 o + atributos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que son las técnicas de minería de datos

A

Son implementaciones específicas de los algoritmos que se utilizan para llevar a cabo la construcción del modelo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Técnicas para modelos predictivos de clasificación

A

Árboles de decisión
Bosques aleatorios
Regresión logística
Redes neuronales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Técnicas para modelos predictivos para estimación

A

Árboles de regresión
Redes neuronales
Regresión lineal
Regresión no lineal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Técnicas de análisis de relaciones o asociaciones para modelos descriptivos

A

Algoritmo A priori
FP-Growth

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que son los árboles de decisión

A

Busca crear nodos hoja puros
Nodos donde todos los registros son de la misma clase o categoría

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que son nodos hoja impuros

A

Cuando los datos están mal clasificados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Cómo se eligen los nodos para estimar la pureza de un nodo

A

Entropia
Índice de Gini
Gane de información

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Qué es el algoritmo de carta

A

Produce árboles estrictamente binarios
Árboles de clasificación y regresión

20
Q

Cuáles son las técnicas para evaluar modelos de clasificación

A

Matriz de confusión
ROC/AUC

21
Q

Qué es la matriz de confusión

A

Cuantas de las predicciones que se hicieron para cada valor de la matriz de interés estuvieron correctas y cuáles no

22
Q

Qué es un verdadero positivo

A

Se predijo la clase X y la clase actual es X

23
Q

Qué es falso positivo

A

Se predijo la clase X y la clase actual es Y

24
Q

Qué es falso negativo

A

Se predijo la clase Y y la clase actual es X

25
Q

Qué es falso negativo

A

Se predijo la clase Y y la clase actual es X

26
Q

Criterios a tomar en cuenta

A

Sensibilidad
Especificidad
Precisión
Exactitud

27
Q

Qué es la curva ROC

A

Gráfica la proporción de verdaderos positivos vs falsos positivos
Usada para analizar el traedor entre la detección de TP mientras se evitan los FN

28
Q

En los análisis de regresión cuales métodos se agrupan

A

Regresión lineal, Regresión logística, Regresión Poisson, Arboles de regresión

29
Q

Que es el análisis de regresión

A

Especifica la relación entre una variable dependiente y una variable independiente, ambas numéricas

30
Q

Algunos ejemplos de la regresión lineal simple

A

Predecir el precio promedio de una casa dada la cantidad de habitaciones
Predecir la nota final de un estudiante en un curso, dada la cantidad de horas semanales que dedica al estudio
Predecir el salario de una persona, dada la cantidad de años que ha laborado en una empresa

31
Q

Los predictores son siempre

A

Numéricos

32
Q

Que se tiene en la regresión lineal simple

A

Solo se tiene un predictor o variable independiente

33
Q

Que revisar en el modelo

A

Los valores residuales
Los coeficientes del modelo
Error residual estándar
Error absoluto medio MAE
Estadistica R2
Estadistica F
El valor p

34
Q

Que fórmula se usa para la regresión lineal simple

A

Método de los mínimos cuadrados

35
Q

Que es un cluster

A

Un agrupamiento de objetos de tal forma que los objetos de un mismo cluster tengan una alta similitud entre sí, pero muy diferente a los objetos de otro cluster

36
Q

En que se utiliza el análisis de cluster

A

Reconocimiento de patrones
Investigación de mercado
Procesamiento de imágenes

37
Q

Cuáles son los métodos de clustering según el método de particionamiento

A

Método de particionamiento duro
Métodos jerárquicos

38
Q

Que es el método de particionamiento duro

A

Dada una base de datos de n objetos el método construye k particiones, cada partición es un cluster, cada objeto debe tener al menos 1 objeto y cada objeto pertenece únicamente a 1 grupo

39
Q

Que es el método jerárquico

A

Crea una descomposición jerárquica de los datos, todos los objetos comienzan en un grupo y se va ejecutando divisiones mientras se baja en la jerarquía

40
Q

Cuáles son los métodos de clustering según el algoritmo

A

Clustering basado en prototipos
Agrupación por densidad
Clustering jerárquico
Clustering jerárquico - enfoques
Clustering basado en modelos

41
Q

Que es el clustering basado en prototipos

A

Cada cluster se representa por un dato/objeto central
El objeto central es el prototipo
Segmentación de clientes

42
Q

Que es agrupación por densidad

A

El cluster se define como una región densa donde se concentran datos
Las zonas densas están rodeadas por otras con menos densidad de puntos
Cada zona densa es un cluster

43
Q

Que es cluster jerárquico

A

La jerarquía de cluster se crea basándose en la distancia entre puntos
Su salida es un dendrograma
Útil cuando la cantidad de datos es ilimitada

44
Q

Clustering jerárquico - enfoques

A

Botón
Bottom-up: cada punto es un cluster
Top-down: el conjunto de datos se considera un cluster, se divide recursivamente en subclusters

45
Q

Que es clustering basado en modelos

A

Basado en modelos de distribución de probabilidad
Clustering basado en probabilidad
Cluster donde sus elementos tienen la misma probabilidad

46
Q

Que es el método de las k-medias

A

Es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.

47
Q

Que es el Score silhouette

A

Se refiere a un método de interpretación y validación de la coherencia dentro del análisis de grupos