Tema4 Flashcards
¿Qué es la regresión logística y para qué se usa?
Es un algoritmo de clasificación que modela la probabilidad de pertenencia a una clase utilizando una función logística.
¿Cómo se determina la clasificación en regresión logística binaria?
Se compara la probabilidad obtenida con un umbral, comúnmente 0.5, para asignar la clase.
¿Qué es la curva ROC en clasificación?
Es una gráfica que muestra la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos a diferentes umbrales de clasificación.
¿Qué indica un valor de AUC cercano a 1 en la curva ROC?
Que el clasificador tiene un excelente desempeño, diferenciando bien entre clases.
¿Cómo se adapta la regresión logística a problemas de clasificación multiclase?
Se usa el esquema One-vs-Rest (OvR), entrenando un clasificador binario para cada clase.
¿Cuál es el principio de los árboles de decisión?
Dividir los datos jerárquicamente en función de los valores de los atributos hasta alcanzar una clasificación clara.
¿Cómo se determina el mejor atributo en cada nodo de un árbol de decisión?
Utilizando métricas como la ganancia de información o el índice de Gini.
¿Qué significa que un árbol de decisión está sobreajustado?
Que es demasiado específico con los datos de entrenamiento y no generaliza bien en nuevos datos.
¿La regresión logística se usa solo para regresión? (Sí/No)
No, es un algoritmo de clasificación.
¿El modelo de regresión logística puede usarse para clasificación multiclase? (Sí/No)
Sí, mediante el enfoque One-vs-Rest.
¿Un clasificador con AUC = 0.5 tiene buen desempeño? (Sí/No)
No, es equivalente a una clasificación aleatoria.
¿Los árboles de decisión pueden manejar datos categóricos? (Sí/No)
Sí, pueden dividir datos en función de valores categóricos.
¿Los árboles de decisión requieren normalización de datos? (Sí/No)
No, no son sensibles a la escala de los atributos.
¿El algoritmo CART solo produce árboles binarios? (Sí/No)
Sí, a diferencia de otros métodos como ID3.
¿La poda de un árbol de decisión reduce el sobreajuste? (Sí/No)
Sí, eliminando ramas irrelevantes o poco representativas.
¿El modelo de regresión logística siempre genera una frontera de decisión lineal? (Sí/No)
Sí, en su forma básica, aunque puede mejorarse con transformaciones no lineales.
La función logística convierte valores en un rango entre ____ y ____.
0 y 1.
La clasificación en regresión logística se basa en un ____ de probabilidad.
umbral.
En clasificación multiclase, la estrategia One-vs-Rest entrena un modelo para cada ____.
clase.
La métrica AUC se calcula sobre la curva ____.
ROC.
Los árboles de decisión dividen los datos en función de los ____.
atributos.
Un árbol de decisión muy profundo puede sufrir ____.
sobreajuste.
La métrica de Gini mide la ____.
pureza de los nodos.
La poda de un árbol de decisión consiste en eliminar ____.
ramas irrelevantes.
¿Qué modelo es más adecuado para clasificación binaria?
A) Regresión logística
B) Regresión lineal
C) Clustering K-means
A) Regresión logística
¿Qué métrica mide la capacidad de clasificación de un modelo?
A) AUC
B) MSE
C) Entropía cruzada
A) AUC
¿Qué técnica se usa para evitar el sobreajuste en árboles de decisión?
A) Aumentar la profundidad del árbol
B) Poda del árbol
C) Usar todos los atributos disponibles
B) Poda del árbol
¿Cómo se elige el mejor atributo en cada nodo de un árbol de decisión?
A) Aleatoriamente
B) Con métrica de Gini o ganancia de información
C) Basándose en la media de los valores
B) Con métrica de Gini o ganancia de información
¿Qué tipo de árboles genera el algoritmo CART?
A) Árboles binarios
B) Árboles n-arios
C) Árboles de clustering
A) Árboles binarios
¿Cómo maneja un árbol de decisión los valores numéricos?
A) Los discretiza en categorías
B) Crea puntos de corte
C) No los puede usar
B) Crea puntos de corte
¿Cuál de los siguientes algoritmos usa árboles de decisión en su construcción?
A) KNN
B) Random Forest
C) PCA
B) Random Forest
¿Qué ocurre si un árbol de decisión tiene demasiadas ramas?
A) Se vuelve más preciso
B) Sufre sobreajuste
C) Generaliza mejor
B) Sufre sobreajuste
Describe la función logística utilizada en regresión logística.
Es una función sigmoide que transforma valores en un rango entre 0 y 1.
¿Cómo se usa la métrica AUC en evaluación de clasificadores?
Evalúa qué tan bien separa el modelo entre clases positivas y negativas.
Explica cómo funciona la poda en árboles de decisión.
Se eliminan ramas innecesarias para reducir el sobreajuste y mejorar la generalización.
¿Cómo afectan los atributos irrelevantes en un árbol de decisión?
Pueden generar divisiones innecesarias y aumentar la complejidad del modelo.
Explica cómo funciona el método One-vs-Rest en clasificación multiclase.
Se crean modelos binarios para cada clase enfrentándola contra las demás.
¿Por qué es útil la regularización en regresión logística?
Reduce el sobreajuste penalizando coeficientes grandes en la función de costo.
¿Cómo se interpreta la matriz de confusión en clasificación?
Muestra los valores de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos para evaluar el rendimiento del modelo.
¿Cuál es la diferencia entre sobreajuste y subajuste en clasificación?
El sobreajuste ocurre cuando el modelo memoriza los datos y no generaliza bien; el subajuste ocurre cuando el modelo es demasiado simple y no captura patrones importantes.
¿Qué ventajas tiene la regresión logística frente a otros modelos de clasificación?
Es fácil de interpretar, rápida en entrenamiento y útil cuando los datos tienen relaciones lineales.
¿Cómo afecta el tamaño del conjunto de datos a un árbol de decisión?
Con más datos, el árbol puede generar reglas más precisas; con pocos datos, es más propenso al sobreajuste.
Explica cómo se calcula la ganancia de información en un árbol de decisión.
Se mide la reducción de la entropía al dividir un conjunto de datos en función de un atributo; el atributo con mayor ganancia de información se elige para dividir el nodo.
¿Por qué los árboles de decisión pueden ser propensos al sobreajuste?
Porque pueden crecer demasiado, dividiendo el conjunto de datos en muchas ramas y adaptándose excesivamente a los datos de entrenamiento.
¿Cómo funciona la regularización en regresión logística?
Se usa L1 (Lasso) o L2 (Ridge) para penalizar coeficientes grandes y evitar el sobreajuste, mejorando la generalización del modelo.
¿Cómo se pueden manejar los datos desbalanceados en clasificación?
Se pueden usar técnicas como sobre-muestreo de la clase minoritaria, sub-muestreo de la clase mayoritaria o ajuste de pesos en la función de pérdida.
Explica la diferencia entre CART e ID3 en la construcción de árboles de decisión.
ID3 solo maneja atributos categóricos y usa la ganancia de información, mientras que CART admite atributos numéricos y usa el índice de Gini.
¿Cómo se pueden mejorar los árboles de decisión para evitar el sobreajuste?
Limitando la profundidad máxima, estableciendo un número mínimo de muestras por nodo o usando técnicas de poda.