Tema4 Flashcards

1
Q

¿Qué es la regresión logística y para qué se usa?

A

Es un algoritmo de clasificación que modela la probabilidad de pertenencia a una clase utilizando una función logística.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Cómo se determina la clasificación en regresión logística binaria?

A

Se compara la probabilidad obtenida con un umbral, comúnmente 0.5, para asignar la clase.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Qué es la curva ROC en clasificación?

A

Es una gráfica que muestra la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos a diferentes umbrales de clasificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué indica un valor de AUC cercano a 1 en la curva ROC?

A

Que el clasificador tiene un excelente desempeño, diferenciando bien entre clases.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cómo se adapta la regresión logística a problemas de clasificación multiclase?

A

Se usa el esquema One-vs-Rest (OvR), entrenando un clasificador binario para cada clase.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Cuál es el principio de los árboles de decisión?

A

Dividir los datos jerárquicamente en función de los valores de los atributos hasta alcanzar una clasificación clara.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Cómo se determina el mejor atributo en cada nodo de un árbol de decisión?

A

Utilizando métricas como la ganancia de información o el índice de Gini.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué significa que un árbol de decisión está sobreajustado?

A

Que es demasiado específico con los datos de entrenamiento y no generaliza bien en nuevos datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿La regresión logística se usa solo para regresión? (Sí/No)

A

No, es un algoritmo de clasificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿El modelo de regresión logística puede usarse para clasificación multiclase? (Sí/No)

A

Sí, mediante el enfoque One-vs-Rest.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Un clasificador con AUC = 0.5 tiene buen desempeño? (Sí/No)

A

No, es equivalente a una clasificación aleatoria.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Los árboles de decisión pueden manejar datos categóricos? (Sí/No)

A

Sí, pueden dividir datos en función de valores categóricos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Los árboles de decisión requieren normalización de datos? (Sí/No)

A

No, no son sensibles a la escala de los atributos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿El algoritmo CART solo produce árboles binarios? (Sí/No)

A

Sí, a diferencia de otros métodos como ID3.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿La poda de un árbol de decisión reduce el sobreajuste? (Sí/No)

A

Sí, eliminando ramas irrelevantes o poco representativas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿El modelo de regresión logística siempre genera una frontera de decisión lineal? (Sí/No)

A

Sí, en su forma básica, aunque puede mejorarse con transformaciones no lineales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

La función logística convierte valores en un rango entre ____ y ____.

A

0 y 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

La clasificación en regresión logística se basa en un ____ de probabilidad.

A

umbral.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

En clasificación multiclase, la estrategia One-vs-Rest entrena un modelo para cada ____.

A

clase.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

La métrica AUC se calcula sobre la curva ____.

21
Q

Los árboles de decisión dividen los datos en función de los ____.

A

atributos.

22
Q

Un árbol de decisión muy profundo puede sufrir ____.

A

sobreajuste.

23
Q

La métrica de Gini mide la ____.

A

pureza de los nodos.

24
Q

La poda de un árbol de decisión consiste en eliminar ____.

A

ramas irrelevantes.

25
Q

¿Qué modelo es más adecuado para clasificación binaria?
A) Regresión logística
B) Regresión lineal
C) Clustering K-means

A

A) Regresión logística

26
Q

¿Qué métrica mide la capacidad de clasificación de un modelo?
A) AUC
B) MSE
C) Entropía cruzada

27
Q

¿Qué técnica se usa para evitar el sobreajuste en árboles de decisión?
A) Aumentar la profundidad del árbol
B) Poda del árbol
C) Usar todos los atributos disponibles

A

B) Poda del árbol

28
Q

¿Cómo se elige el mejor atributo en cada nodo de un árbol de decisión?
A) Aleatoriamente
B) Con métrica de Gini o ganancia de información
C) Basándose en la media de los valores

A

B) Con métrica de Gini o ganancia de información

29
Q

¿Qué tipo de árboles genera el algoritmo CART?
A) Árboles binarios
B) Árboles n-arios
C) Árboles de clustering

A

A) Árboles binarios

30
Q

¿Cómo maneja un árbol de decisión los valores numéricos?
A) Los discretiza en categorías
B) Crea puntos de corte
C) No los puede usar

A

B) Crea puntos de corte

31
Q

¿Cuál de los siguientes algoritmos usa árboles de decisión en su construcción?
A) KNN
B) Random Forest
C) PCA

A

B) Random Forest

32
Q

¿Qué ocurre si un árbol de decisión tiene demasiadas ramas?
A) Se vuelve más preciso
B) Sufre sobreajuste
C) Generaliza mejor

A

B) Sufre sobreajuste

33
Q

Describe la función logística utilizada en regresión logística.

A

Es una función sigmoide que transforma valores en un rango entre 0 y 1.

34
Q

¿Cómo se usa la métrica AUC en evaluación de clasificadores?

A

Evalúa qué tan bien separa el modelo entre clases positivas y negativas.

35
Q

Explica cómo funciona la poda en árboles de decisión.

A

Se eliminan ramas innecesarias para reducir el sobreajuste y mejorar la generalización.

36
Q

¿Cómo afectan los atributos irrelevantes en un árbol de decisión?

A

Pueden generar divisiones innecesarias y aumentar la complejidad del modelo.

37
Q

Explica cómo funciona el método One-vs-Rest en clasificación multiclase.

A

Se crean modelos binarios para cada clase enfrentándola contra las demás.

38
Q

¿Por qué es útil la regularización en regresión logística?

A

Reduce el sobreajuste penalizando coeficientes grandes en la función de costo.

39
Q

¿Cómo se interpreta la matriz de confusión en clasificación?

A

Muestra los valores de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos para evaluar el rendimiento del modelo.

40
Q

¿Cuál es la diferencia entre sobreajuste y subajuste en clasificación?

A

El sobreajuste ocurre cuando el modelo memoriza los datos y no generaliza bien; el subajuste ocurre cuando el modelo es demasiado simple y no captura patrones importantes.

41
Q

¿Qué ventajas tiene la regresión logística frente a otros modelos de clasificación?

A

Es fácil de interpretar, rápida en entrenamiento y útil cuando los datos tienen relaciones lineales.

42
Q

¿Cómo afecta el tamaño del conjunto de datos a un árbol de decisión?

A

Con más datos, el árbol puede generar reglas más precisas; con pocos datos, es más propenso al sobreajuste.

43
Q

Explica cómo se calcula la ganancia de información en un árbol de decisión.

A

Se mide la reducción de la entropía al dividir un conjunto de datos en función de un atributo; el atributo con mayor ganancia de información se elige para dividir el nodo.

44
Q

¿Por qué los árboles de decisión pueden ser propensos al sobreajuste?

A

Porque pueden crecer demasiado, dividiendo el conjunto de datos en muchas ramas y adaptándose excesivamente a los datos de entrenamiento.

45
Q

¿Cómo funciona la regularización en regresión logística?

A

Se usa L1 (Lasso) o L2 (Ridge) para penalizar coeficientes grandes y evitar el sobreajuste, mejorando la generalización del modelo.

46
Q

¿Cómo se pueden manejar los datos desbalanceados en clasificación?

A

Se pueden usar técnicas como sobre-muestreo de la clase minoritaria, sub-muestreo de la clase mayoritaria o ajuste de pesos en la función de pérdida.

47
Q

Explica la diferencia entre CART e ID3 en la construcción de árboles de decisión.

A

ID3 solo maneja atributos categóricos y usa la ganancia de información, mientras que CART admite atributos numéricos y usa el índice de Gini.

48
Q

¿Cómo se pueden mejorar los árboles de decisión para evitar el sobreajuste?

A

Limitando la profundidad máxima, estableciendo un número mínimo de muestras por nodo o usando técnicas de poda.