Examen #3 Flashcards

1
Q

Qué es minería de datos

A

Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Cuál es el objetivo de la minería de datos

A

Descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Con cuáles áreas de conocimiento se relaciona

A

Inteligencia artificial
Estadística
Bases de datos
Visualización de información
Matemáticas
Aprendizaje automático (machine learning)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Que se busca con los datos predictivos

A

Se busca predecir, también llamado aprendizaje supervisado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que se busca con los datos descriptivos

A

Busca describir el conjunto de datos estudiado, llamado aprendizaje no supervisado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cuáles son tareas predictivas

A

Clasificación
Estimación

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qué es clasificación

A

Es una tarea predictiva
La variable de interés es categórica (también llamado Target o label)
Puede ser binario o no

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qué es estimación

A

Es una tarea predictiva
La variable que desea estimar (Target) es numérica
Para nuevas observaciones, el valor del Target se estima utilizando el valor de los predictores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cuáles son las tareas descriptivas

A

Clustering
Asociación

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qué es clustering

A

Es una tarea descriptiva
Agrupar registros en clases de objetos similares
Un cluster es un conjunto de registros que son similares entre sí, pero diferentes a los de otro cluster

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qué es asociación

A

Es una tarea descriptiva
Encontrar atributos “que van juntos”
Análisis de afinidad, análisis de canasta de mercado
Busca descubrir reglas para cuantificar las relaciones entre 2 o + atributos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que son las técnicas de minería de datos

A

Son implementaciones específicas de los algoritmos que se utilizan para llevar a cabo la construcción del modelo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Técnicas para modelos predictivos de clasificación

A

Árboles de decisión
Bosques aleatorios
Regresión logística
Redes neuronales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Técnicas para modelos predictivos para estimación

A

Árboles de regresión
Redes neuronales
Regresión lineal
Regresión no lineal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Técnicas de análisis de relaciones o asociaciones para modelos descriptivos

A

Algoritmo A priori
FP-Growth

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que son los árboles de decisión

A

Busca crear nodos hoja puros
Nodos donde todos los registros son de la misma clase o categoría

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que son nodos hoja impuros

A

Cuando los datos están mal clasificados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Cómo se eligen los nodos para estimar la pureza de un nodo

A

Entropia
Índice de Gini
Gane de información

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Qué es el algoritmo de carta

A

Produce árboles estrictamente binarios
Árboles de clasificación y regresión

20
Q

Cuáles son las técnicas para evaluar modelos de clasificación

A

Matriz de confusión
ROC/AUC

21
Q

Qué es la matriz de confusión

A

Cuantas de las predicciones que se hicieron para cada valor de la matriz de interés estuvieron correctas y cuáles no

22
Q

Qué es un verdadero positivo

A

Se predijo la clase X y la clase actual es X

23
Q

Qué es falso positivo

A

Se predijo la clase X y la clase actual es Y

24
Q

Qué es falso negativo

A

Se predijo la clase Y y la clase actual es X

25
Qué es falso negativo
Se predijo la clase Y y la clase actual es X
26
Criterios a tomar en cuenta
Sensibilidad Especificidad Precisión Exactitud
27
Qué es la curva ROC
Gráfica la proporción de verdaderos positivos vs falsos positivos Usada para analizar el traedor entre la detección de TP mientras se evitan los FN
28
En los análisis de regresión cuales métodos se agrupan
Regresión lineal, Regresión logística, Regresión Poisson, Arboles de regresión
29
Que es el análisis de regresión
Especifica la relación entre una variable dependiente y una variable independiente, ambas numéricas
30
Algunos ejemplos de la regresión lineal simple
Predecir el precio promedio de una casa dada la cantidad de habitaciones Predecir la nota final de un estudiante en un curso, dada la cantidad de horas semanales que dedica al estudio Predecir el salario de una persona, dada la cantidad de años que ha laborado en una empresa
31
Los predictores son siempre
Numéricos
32
Que se tiene en la regresión lineal simple
Solo se tiene un predictor o variable independiente
33
Que revisar en el modelo
Los valores residuales Los coeficientes del modelo Error residual estándar Error absoluto medio MAE Estadistica R2 Estadistica F El valor p
34
Que fórmula se usa para la regresión lineal simple
Método de los mínimos cuadrados
35
Que es un cluster
Un agrupamiento de objetos de tal forma que los objetos de un mismo cluster tengan una alta similitud entre sí, pero muy diferente a los objetos de otro cluster
36
En que se utiliza el análisis de cluster
Reconocimiento de patrones Investigación de mercado Procesamiento de imágenes
37
Cuáles son los métodos de clustering según el método de particionamiento
Método de particionamiento duro Métodos jerárquicos
38
Que es el método de particionamiento duro
Dada una base de datos de n objetos el método construye k particiones, cada partición es un cluster, cada objeto debe tener al menos 1 objeto y cada objeto pertenece únicamente a 1 grupo
39
Que es el método jerárquico
Crea una descomposición jerárquica de los datos, todos los objetos comienzan en un grupo y se va ejecutando divisiones mientras se baja en la jerarquía
40
Cuáles son los métodos de clustering según el algoritmo
Clustering basado en prototipos Agrupación por densidad Clustering jerárquico Clustering jerárquico - enfoques Clustering basado en modelos
41
Que es el clustering basado en prototipos
Cada cluster se representa por un dato/objeto central El objeto central es el prototipo Segmentación de clientes
42
Que es agrupación por densidad
El cluster se define como una región densa donde se concentran datos Las zonas densas están rodeadas por otras con menos densidad de puntos Cada zona densa es un cluster
43
Que es cluster jerárquico
La jerarquía de cluster se crea basándose en la distancia entre puntos Su salida es un dendrograma Útil cuando la cantidad de datos es ilimitada
44
Clustering jerárquico - enfoques
Botón Bottom-up: cada punto es un cluster Top-down: el conjunto de datos se considera un cluster, se divide recursivamente en subclusters
45
Que es clustering basado en modelos
Basado en modelos de distribución de probabilidad Clustering basado en probabilidad Cluster donde sus elementos tienen la misma probabilidad
46
Que es el método de las k-medias
Es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.
47
Que es el Score silhouette
Se refiere a un método de interpretación y validación de la coherencia dentro del análisis de grupos