Prueba 1 Flashcards
KNN Hiperparametros y Funciones de Perdida
Hiperparámetros principales:
Número de vecinos (k). Actúa como un regularizador.
Elección de la función de distancia (por ej., Euclidiana)
Esquema de ponderación (uniforme, distancia, …)
Modelo:
Funciones de pérdida típicas:
Clasificación: Accuracy (Zero-One Loss)
Regresión: Root mean squared error
KNN Fortalezas y debilidades
kNN: Fortalezas, debilidades y parámetros.
Fácil de entender, funciona bien en muchos entornos.
El entrenamiento es muy rápido, la predicción es lenta para grandes conjuntos de datos
Malo en datos de alta dimensión y dispersos/sparse (maldición de dimensionalidad)
Entropia
La entropía se utiliza para cuantificar la cantidad de aleatoriedad de una distribución de probabilidad.
Su valor varía entre 0 y log2(|C|)
Exhaustive search
Crear y evaluar todos
los modelos posibles y seleccionar el mejor modelo.
Normalmente, hay una cantidad exponencial de
modelos en el espacio de búsqueda (discreto), lo que hace que sea
inviable realizar una búsqueda exhaustiva en el espacio.
Garantiza encontrar el mejor modelo entre todos
los modelos posibles
Heuristic search
Búsqueda heurística: en cada paso de ramificación
evalúa las alternativas directas en función de la
información disponible y toma una decisión.
Una búsqueda heurística no realiza una
búsqueda exhaustiva del espacio del modelo.
El modelo seleccionado es un óptimo local.
Greedy search
Seleccione el mejor modelo en cada
paso de ramificación.
Problemas Arboles Binarios
Cómo construir características
Cuándo dejar de crecer
Podar partes irrelevantes del árbol
Soluciones Problemas Arboles Binarios
Prepoda (regla de detención temprana): detenga el algoritmo antes de que se convierta en un árbol completamente desarrollado.
Pospoda: después de que el árbol haya crecido por completo, recorte los nodos del árbol de decisión
de abajo hacia arriba
Arboles Binarios Fortalezas, debilidades y parámetros.
Árboles de decisión:
Funciona bien con características en escalas completamente diferentes, o una combinación de características binarias y continuas
No requiere normalización
Interpretable, fácilmente visualizado
Tiende a sobreajustar fácilmente.
Pre-pruning: regularizar por:
Establecer un bajo max_depth, max_leaf_nodes
Establecer un mayor min_samples_leaf (default=1)
Ensables de Arboles
Bagging / RandomForest es una técnica de reducción de varianza
Construye muchos modelos de alta varianza (sobreajuste)
Árboles de decisión típicamente profundos (aleatorios)
Cuanto más diferentes sean los modelos, mejor
La agregación (votación suave o promedio) reduce la varianza
Se puede paralelizar fácilmente
Boosting es una técnica de reducción de sesgo
Construye muchos modelos de alto sesgo (underfitting)
Típicamente árboles de decisión poco profundos
Los pesos de las muestras se actualizan para crear diferentes árboles
La agregación (votación suave o promedio) reduce el sesgo
No se puede paralelizar fácilmente
También puede construir ensambles con otros modelos
Especialmente si muestran alta varianza o sesgo
También es posible construir ensambles heterogéneos
Modelos de diferentes algoritmos
A menudo, un metaclasificador se entrena con las predicciones: Stacking
Random Forest
Dado que Bagging solo reduce la varianza (no sesgo), tiene sentido usar modelos que son de alta varianza, de bajo sesgo.
Los parámetros más importantes:
n_estimators (mayor es mejor, pero rendimientos decrecientes)
Comenzará a sub-ajustarse (el componente de error de sesgo aumenta ligeramente)
RandomForest permitir otra forma de evaluar el desempeño: out-of-bag (OOB) error
Random Forest Fortalezas, debilidades y parámetros.
RandomForest se encuentra entre los algoritmos más utilizados:
No requiere mucho 'tuning' Modelos típicamente muy precisos Maneja bien las características heterogéneas Selecciona implícitamente las características más relevantes
Desventajas:
Menos interpretable, más lento de entrenar (pero paralelizable) no funciona bien en datos dispersos (sparse) de alta dimensión (por ejemplo, texto)
AdaBoost
Representación: ensamble ponderado de modelos base
Los modelos base pueden ser construidos por cualquier algoritmo
Función de pérdida: función de pérdida ponderada de modelos base
Optimización: búsqueda glotona
Boosting General Fortalezas, debilidades y parámetros
Entre los modelos más potentes y ampliamente utilizados
Funciona bien en características heterogéneas y diferentes escalas
Requiere un ajuste cuidadoso, toma más tiempo entrenar
No funciona bien en datos dispersos (sparse) de alta dimensión
Hiperparámetros principales:
n_estimators: Más alto es mejor, pero comenzará a sobreajustar learning_rate: Tasas más bajas significan que se necesitan más árboles para obtener modelos más complejos Fijar n_estimators lo más alto posible, luego ajustar (tune) learning_rate max_depth: Típicamente se mantiene bajo (<5), reducir cuando se sobreajusta
XGBoost
XGBoost
La principal diferencia radica en el uso de técnicas de aproximación para hacerlo más rápido.
Sketching: Dadas 10000 posibles divisiones, solo considerará 300 divisiones “suficientemente buenas” por defecto
Permite graficar la curva de aprendizaje
Permite detenerse y continuar más tarde (warm-start)