Ensamble Flashcards
Define Sesgo (Bias)
Def:
Es el error causado por suposiciones demasiado simplificadas en el modelo, lo que lleva a un rendimiento pobre en los datos de entrenamiento y de prueba (subajuste).
En promedio que tan diferente es nuestra función predictora a la funcion real.
Un modelo con alto sesgo no logra capturar las relaciones subyacentes y patrones complejos en los datos, lo que resulta en predicciones que pueden ser sistemáticamente inexactas.
Define Varianza (Variance)
Def:
Es el error causado por la sensibilidad del modelo a las pequeñas variaciones en los datos de entrenamiento, lo que lleva a un rendimiento inconsistente en los datos de prueba (sobreajuste).
Que tanto $\hat{f}$ es inconsistente en las diferentes set de entrenamientos.
Modelos de ensamble
Los modelos de ensamble en machine learning son técnicas que combinan las predicciones de múltiples modelos base para producir un único modelo con un rendimiento mejorado. La idea fundamental detrás de los ensambles es que al combinar múltiples modelos, se pueden aprovechar las fortalezas individuales y mitigar sus debilidades, lo que a menudo resulta en un modelo final más robusto y preciso.
Cuales son los tipos de ensamble ?
Bagging, Boosting y stacking
Explica como funciona los arboles de decisión?
Estructuras binarias que dividen un conjunto de datos hasta obtener nodos puros. Estos arboles dividen los datos en nodos basados en condiciones y su producto final son nodos hojas que representan las clases puras.
Nombra los componentes principales de un arbol de decisión
- Ríz
- Rama
- Nodo
- Hoja
Que es la ‘INFORMATION GAIN (IG)?
Es una métrica que se utiliza para seleccionar las características que mejor dividan el conjunto de datos. Buscando subgrupos homogéneos en relación con la variable objetivo. Escensialmente es una medida de la reducciónde la entropía o impureza que resulta de dividir el conjunto de datos según una característica específica.
Que busca el arbol de decision en sus nodos?
Maximizar la IG por lo tanto minimizar la impureza para poder dividir de mejor manera el conjunto de datos.
Qué es el overfiting ?
Ocurre cuando nuestro modelo no es bueno generalizando nuevos datos. Esto significa que cuando ingreso datos que no fueron visto en el entrenamiento el modelo no los va a predecir de manera correcta.
Test acc < Training acc
Como solucionamos el overfiting?
- Tunear los hiperparámetros
- Cross validation
- Buscando un modelo menos complejo
Qué es el underfiting?
Es cuando el modelo no es lo suficientemente complejo para caracterizar la tendencia de los datos por lo que no aproxima bien una función que explique los datos de entrenamiento ni menos los datos nuevos que se le puedan pasar al modelo.
A que se debe generalmente el undefitting?
Generalmente se debe a que en el entrenamiento:
- Falta de tiempo
- No hay suficientes datos
- Un mal modelo (Tratar de usar un modelo de regresión lineal cuando en realidad tienes un modelo cuadratico, cubico etc.)
Como solucionamos el underfitting?(5)
Aumentar la complejidad del modelo (por ejemplo, agregar más capas en una red neuronal o usar un modelo más complejo).
Aumentar el número de características (features) relevantes en el modelo.
Reducir la regularización (por ejemplo, disminuir el valor de ( \lambda ) en la regularización Lasso o Ridge).
Aumentar el tiempo de entrenamiento
cambiar el algoritmo de optimización(funcion de perdida)
Explica el trade-off the sesgo y varianza y en que consiste
El trade-off entre sesgo y varianza en machine learning describe cómo ajustamos la complejidad de un modelo para optimizar su rendimiento general. Un modelo con alto sesgo podría ser demasiado simple y no captura bien la complejidad de los datos, lo que lleva a errores por generalizaciones incorrectas. Por otro lado, un modelo con alta varianza puede adaptarse demasiado a los datos de entrenamiento, incluyendo el ruido, y fallar al generalizar a nuevos datos. El objetivo es encontrar un equilibrio adecuado donde el modelo sea lo suficientemente complejo para aprender patrones significativos, pero sin sobreajustarse. Esto se maneja ajustando la complejidad del modelo y utilizando técnicas como la validación cruzada y la regularización para asegurar que el modelo generalice bien a nuevos conjuntos de datos.
Cuales son las formas comunes que se maneja el trade-off entre sesgo y varianza.
- Validación cruzada: Evaluar el rendimiento del modelo en diferentes subconjuntos de datos para ajustar la complejidad y evitar el sobreajuste.
- -Regularización (L1, L2): Penalizar los modelos excesivamente complejos para reducir la varianza sin aumentar mucho el sesgo.
- Ajuste de parámetros del modelo: Como limitar la profundidad de los árboles de decisión para simplificar el modelo y mejorar su capacidad de generalización.
4.- Selección de características: Reducir el número de variables para disminuir la complejidad y mejorar la estabilidad del modelo.
- Ajuste de parámetros del modelo: Como limitar la profundidad de los árboles de decisión para simplificar el modelo y mejorar su capacidad de generalización.