Ensamble Flashcards

1
Q

Define Sesgo (Bias)

A

Def:
Es el error causado por suposiciones demasiado simplificadas en el modelo, lo que lleva a un rendimiento pobre en los datos de entrenamiento y de prueba (subajuste).
En promedio que tan diferente es nuestra función predictora a la funcion real.
Un modelo con alto sesgo no logra capturar las relaciones subyacentes y patrones complejos en los datos, lo que resulta en predicciones que pueden ser sistemáticamente inexactas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Define Varianza (Variance)

A

Def:
Es el error causado por la sensibilidad del modelo a las pequeñas variaciones en los datos de entrenamiento, lo que lleva a un rendimiento inconsistente en los datos de prueba (sobreajuste).
Que tanto $\hat{f}$ es inconsistente en las diferentes set de entrenamientos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Modelos de ensamble

A

Los modelos de ensamble en machine learning son técnicas que combinan las predicciones de múltiples modelos base para producir un único modelo con un rendimiento mejorado. La idea fundamental detrás de los ensambles es que al combinar múltiples modelos, se pueden aprovechar las fortalezas individuales y mitigar sus debilidades, lo que a menudo resulta en un modelo final más robusto y preciso.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cuales son los tipos de ensamble ?

A

Bagging, Boosting y stacking

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Explica como funciona los arboles de decisión?

A

Estructuras binarias que dividen un conjunto de datos hasta obtener nodos puros. Estos arboles dividen los datos en nodos basados en condiciones y su producto final son nodos hojas que representan las clases puras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nombra los componentes principales de un arbol de decisión

A
  1. Ríz
  2. Rama
  3. Nodo
  4. Hoja
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Que es la ‘INFORMATION GAIN (IG)?

A

Es una métrica que se utiliza para seleccionar las características que mejor dividan el conjunto de datos. Buscando subgrupos homogéneos en relación con la variable objetivo. Escensialmente es una medida de la reducciónde la entropía o impureza que resulta de dividir el conjunto de datos según una característica específica.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que busca el arbol de decision en sus nodos?

A

Maximizar la IG por lo tanto minimizar la impureza para poder dividir de mejor manera el conjunto de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qué es el overfiting ?

A

Ocurre cuando nuestro modelo no es bueno generalizando nuevos datos. Esto significa que cuando ingreso datos que no fueron visto en el entrenamiento el modelo no los va a predecir de manera correcta.

Test acc < Training acc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como solucionamos el overfiting?

A
  • Tunear los hiperparámetros
  • Cross validation
  • Buscando un modelo menos complejo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qué es el underfiting?

A

Es cuando el modelo no es lo suficientemente complejo para caracterizar la tendencia de los datos por lo que no aproxima bien una función que explique los datos de entrenamiento ni menos los datos nuevos que se le puedan pasar al modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A que se debe generalmente el undefitting?

A

Generalmente se debe a que en el entrenamiento:
- Falta de tiempo
- No hay suficientes datos
- Un mal modelo (Tratar de usar un modelo de regresión lineal cuando en realidad tienes un modelo cuadratico, cubico etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Como solucionamos el underfitting?(5)

A

Aumentar la complejidad del modelo (por ejemplo, agregar más capas en una red neuronal o usar un modelo más complejo).

Aumentar el número de características (features) relevantes en el modelo.

Reducir la regularización (por ejemplo, disminuir el valor de ( \lambda ) en la regularización Lasso o Ridge).

Aumentar el tiempo de entrenamiento

cambiar el algoritmo de optimización(funcion de perdida)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Explica el trade-off the sesgo y varianza y en que consiste

A

El trade-off entre sesgo y varianza en machine learning describe cómo ajustamos la complejidad de un modelo para optimizar su rendimiento general. Un modelo con alto sesgo podría ser demasiado simple y no captura bien la complejidad de los datos, lo que lleva a errores por generalizaciones incorrectas. Por otro lado, un modelo con alta varianza puede adaptarse demasiado a los datos de entrenamiento, incluyendo el ruido, y fallar al generalizar a nuevos datos. El objetivo es encontrar un equilibrio adecuado donde el modelo sea lo suficientemente complejo para aprender patrones significativos, pero sin sobreajustarse. Esto se maneja ajustando la complejidad del modelo y utilizando técnicas como la validación cruzada y la regularización para asegurar que el modelo generalice bien a nuevos conjuntos de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Cuales son las formas comunes que se maneja el trade-off entre sesgo y varianza.

A
    • Validación cruzada: Evaluar el rendimiento del modelo en diferentes subconjuntos de datos para ajustar la complejidad y evitar el sobreajuste.
  1. -Regularización (L1, L2): Penalizar los modelos excesivamente complejos para reducir la varianza sin aumentar mucho el sesgo.
    • Ajuste de parámetros del modelo: Como limitar la profundidad de los árboles de decisión para simplificar el modelo y mejorar su capacidad de generalización.
      4.- Selección de características: Reducir el número de variables para disminuir la complejidad y mejorar la estabilidad del modelo.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

por que es necesaraia la validacion cruzada?

A

La validación cruzada es necesaria porque permite que el modelo sea entrenado y validado en múltiples subconjuntos del conjunto de entrenamiento, reduciendo así el riesgo de sesgo que surge al usar solo una parte de los datos. Al rotar qué datos se usan para el entrenamiento y cuáles para la validación, aseguramos que el modelo vea diferentes aspectos de los datos durante su entrenamiento. Esto ayuda a evaluar mejor la capacidad del modelo para generalizar a nuevos datos, evitando que se ajuste demasiado a un único conjunto de entrenamiento y mejorando la fiabilidad de las predicciones en datos no vistos

17
Q

Que es OOB?

A

El error Out-of-Bag, o OOB, es una técnica de validación usada en modelos de ensamble que implementan bagging, como los Random Forests. Se calcula usando los datos no seleccionados para el entrenamiento de cada modelo (datos ‘out-of-bag’) como un conjunto de prueba interno, proporcionando una estimación eficiente del error de generalización sin necesidad de un conjunto de prueba adicional.

  • 63 % en promedio es usado en el entrenamiento
  • El restante 37 % consituye el OOB
17
Q

Define Bagging

A

Múltiples modelos bases; usualmente el mismo, se entrenan de forma independiente en diferentes subconjuntos de datos que se seleccionan con reemplazo del conjunto de datos original.Esto permite que cada modelo aprenda de diferentes muestras de datos, reduciendo la varianza del modelo final. La prediccion final en clasificacion se obtiene por mayoria de votos y en regresion por el promedio de las predicciones.

18
Q

Que e sun random Forest?

A

Es un metodo de ensamble que utiliza múltiples árboles de decisión para realizar predicciones. Se basa en el principio de un grupo de modelos débiles(dt) puede combinarse para formar un modelo fuerte

19
Q

En que se diferencia Bagging y Boosting ?

A

Bagging y Boosting son técnicas de ensamble. Bagging reduce la varianza entrenando múltiples modelos independientes en subconjuntos de datos y combinando sus predicciones, usualmente con votación o promedio. Funciona bien en paralelo. Por otro lado, Boosting reduce tanto sesgo como varianza construyendo modelos secuencialmente que aprenden de los errores de los modelos anteriores, asignando más peso a los errores recientes, y combina sus predicciones de manera ponderada. Boosting es un proceso secuencial.

20
Q

Nombra los tipos de Boosting

A

1.- AdaBoost (Adaptive Boosting): Uno de los métodos de boosting más antiguos y populares que ajusta los pesos de las observaciones según los errores de los modelos anteriores.
2.- Gradient Boosting: Mejora el modelo secuencialmente usando el gradiente del error para minimizar una función de pérdida.
3.- XGBoost (Extreme Gradient Boosting): Optimización del Gradient Boosting tradicional con mejoras en la eficiencia, escalabilidad y manejo de overfitting.
4.- LightGBM (Light Gradient Boosting Machine): Similar a XGBoost pero más eficiente con grandes conjuntos de datos y manejo de datos dispersos.
5.- CatBoost: Especializado en manejar datos categóricos directamente y utiliza un esquema de codificación de características para mejorar la precisión y velocidad.

21
Q

Nombra los tipos de bagging

A

Random Forests: Es la implementación más conocida y utilizada de bagging. Entrena múltiples árboles de decisión, cada uno en un subconjunto aleatorio de los datos de entrenamiento, y utiliza la votación mayoritaria o el promedio para las predicciones.

Pasting: Similar al bagging tradicional, pero los subconjuntos de datos se seleccionan sin reemplazo, es decir, no se permite que las mismas muestras aparezcan más de una vez en el mismo subconjunto.

Bagging Regressors/Classifiers: Se pueden aplicar bagging a varios tipos de modelos predictivos, no solo a árboles de decisión. Por ejemplo, se pueden usar modelos lineales, SVMs, entre otros, como base de los modelos de ensamble en bagging.

Bootstrap Aggregating: Es el término completo para bagging y se refiere al proceso de muestreo aleatorio con reemplazo del conjunto de datos original para formar subconjuntos, sobre los cuales se entrenan modelos independientes.

22
Q

Define ADABOOST

A

Corresponde a un algoritmo de boosting que funciona entrenando secuencialmente una serie de modelos debiles (generalmente arboles). Cada modelo subsiguiente se enfoca en las instancias que fueron mal predichas por el modelo anterior, ajustando sus pesos para incrementar su importancia en el entrenamiento siguiente. Esto se hace para mejorar la precisión del modelo ensamblado final.

23
Q

¿Cómo funciona un Voting Classifier y qué tipos hay?

A

Un Voting Classifier combina las predicciones de varios modelos base mediante un voto más popular (clasificación) o promedio (regresión). Hay dos tipos: Hard Voting (votación mayoritaria) y Soft Voting (votación por ponderación).

24
Q

Explica cómo funciona el Gradient Boosting.

A

Gradient Boosting construye árboles de decisión secuencialmente, donde cada árbol nuevo intenta corregir los errores del anterior. Utiliza el error residual como etiquetas para los nuevos árboles, ajustando el modelo en áreas donde no desempeña bien.

25
Q

¿Cuáles son algunos métodos para ajustar hiperparámetros?

A

Algunos métodos para ajustar hiperparámetros incluyen Grid Search, Random Search, Optimización Basada en Gradientes y Bayesian Optimization. Estos métodos buscan encontrar la mejor combinación de hiperparámetros para mejorar el rendimiento del modelo.