Prueba 1 Flashcards

1
Q

KNN Hiperparametros y Funciones de Perdida

A

Hiperparámetros principales:
Número de vecinos (k). Actúa como un regularizador.
Elección de la función de distancia (por ej., Euclidiana)
Esquema de ponderación (uniforme, distancia, …)

Modelo:
Funciones de pérdida típicas:
Clasificación: Accuracy (Zero-One Loss)
Regresión: Root mean squared error

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

KNN Fortalezas y debilidades

A

kNN: Fortalezas, debilidades y parámetros.
Fácil de entender, funciona bien en muchos entornos.
El entrenamiento es muy rápido, la predicción es lenta para grandes conjuntos de datos
Malo en datos de alta dimensión y dispersos/sparse (maldición de dimensionalidad)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Entropia

A

La entropía se utiliza para cuantificar la cantidad de aleatoriedad de una distribución de probabilidad.
Su valor varía entre 0 y log2(|C|)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Exhaustive search

A

Crear y evaluar todos
los modelos posibles y seleccionar el mejor modelo.

Normalmente, hay una cantidad exponencial de
modelos en el espacio de búsqueda (discreto), lo que hace que sea
inviable realizar una búsqueda exhaustiva en el espacio.

Garantiza encontrar el mejor modelo entre todos
los modelos posibles

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Heuristic search

A

Búsqueda heurística: en cada paso de ramificación
evalúa las alternativas directas en función de la
información disponible y toma una decisión.

Una búsqueda heurística no realiza una
búsqueda exhaustiva del espacio del modelo.
El modelo seleccionado es un óptimo local.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Greedy search

A

Seleccione el mejor modelo en cada
paso de ramificación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Problemas Arboles Binarios

A

Cómo construir características
Cuándo dejar de crecer
Podar partes irrelevantes del árbol

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Soluciones Problemas Arboles Binarios

A

Prepoda (regla de detención temprana): detenga el algoritmo antes de que se convierta en un árbol completamente desarrollado.
Pospoda: después de que el árbol haya crecido por completo, recorte los nodos del árbol de decisión
de abajo hacia arriba

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Arboles Binarios Fortalezas, debilidades y parámetros.

A

Árboles de decisión:
Funciona bien con características en escalas completamente diferentes, o una combinación de características binarias y continuas
No requiere normalización
Interpretable, fácilmente visualizado
Tiende a sobreajustar fácilmente.
Pre-pruning: regularizar por:
Establecer un bajo max_depth, max_leaf_nodes
Establecer un mayor min_samples_leaf (default=1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Ensables de Arboles

A

Bagging / RandomForest es una técnica de reducción de varianza
Construye muchos modelos de alta varianza (sobreajuste)
Árboles de decisión típicamente profundos (aleatorios)
Cuanto más diferentes sean los modelos, mejor
La agregación (votación suave o promedio) reduce la varianza
Se puede paralelizar fácilmente

Boosting es una técnica de reducción de sesgo
Construye muchos modelos de alto sesgo (underfitting)
Típicamente árboles de decisión poco profundos
Los pesos de las muestras se actualizan para crear diferentes árboles
La agregación (votación suave o promedio) reduce el sesgo
No se puede paralelizar fácilmente
También puede construir ensambles con otros modelos
Especialmente si muestran alta varianza o sesgo
También es posible construir ensambles heterogéneos
Modelos de diferentes algoritmos
A menudo, un metaclasificador se entrena con las predicciones: Stacking

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Random Forest

A

Dado que Bagging solo reduce la varianza (no sesgo), tiene sentido usar modelos que son de alta varianza, de bajo sesgo.
Los parámetros más importantes:
n_estimators (mayor es mejor, pero rendimientos decrecientes)
Comenzará a sub-ajustarse (el componente de error de sesgo aumenta ligeramente)
RandomForest permitir otra forma de evaluar el desempeño: out-of-bag (OOB) error

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Random Forest Fortalezas, debilidades y parámetros.

A

RandomForest se encuentra entre los algoritmos más utilizados:

No requiere mucho 'tuning'
Modelos típicamente muy precisos
Maneja bien las características heterogéneas
Selecciona implícitamente las características más relevantes

Desventajas:

Menos interpretable, más lento de entrenar (pero paralelizable)
no funciona bien en datos dispersos (sparse) de alta dimensión (por ejemplo, texto)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

AdaBoost

A

Representación: ensamble ponderado de modelos base
Los modelos base pueden ser construidos por cualquier algoritmo
Función de pérdida: función de pérdida ponderada de modelos base
Optimización: búsqueda glotona

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Boosting General Fortalezas, debilidades y parámetros

A

Entre los modelos más potentes y ampliamente utilizados
Funciona bien en características heterogéneas y diferentes escalas
Requiere un ajuste cuidadoso, toma más tiempo entrenar
No funciona bien en datos dispersos (sparse) de alta dimensión

Hiperparámetros principales:

n_estimators: Más alto es mejor, pero comenzará a sobreajustar
learning_rate: Tasas más bajas significan que se necesitan más árboles para obtener modelos más complejos
    Fijar n_estimators lo más alto posible, luego ajustar (tune) learning_rate
max_depth: Típicamente se mantiene bajo (<5), reducir cuando se sobreajusta
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

XGBoost

A

XGBoost
La principal diferencia radica en el uso de técnicas de aproximación para hacerlo más rápido.
Sketching: Dadas 10000 posibles divisiones, solo considerará 300 divisiones “suficientemente buenas” por defecto
Permite graficar la curva de aprendizaje
Permite detenerse y continuar más tarde (warm-start)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

LightGBM

A

LightGBM Está diseñado para ser distribuido y eficiente con las siguientes ventajas:

Velocidad de entrenamiento más rápida y mayor eficiencia
Menor uso de memoria
Mejor accuracy
Soporte de aprendizaje paralelo, distribuido y GPU
Capaz de manejar datos a gran escala
17
Q

CatBoost

A

CatBoost
Gran calidad sin ajuste de parámetros
Soporte de características categóricas
Versión de GPU rápida y escalable
Accuracy mejorado
Predicción rápida

18
Q

SVM Debilidades, Fortalezas

A

Debilidades:
* El entrenamiento (y las pruebas) son bastante lentos debido a la programación cuadrática restringida
* Esencialmente, es un clasificador binario (hay algunos trucos para evitarlo).
* Muy sensible al ruido
* Mayor inconveniente: la elección de la función Kernel.

Fortalezas:
* El entrenamiento es relativamente fácil y la solución siempre es global y única.
* SVM no sufre la “maldición de la dimensionalidad”.
* Menos propenso al sobreajuste
* Interpretación geométrica simple y fácil de entender.

19
Q

SVM

A

El objetivo de optimización es maximizar el margin (margen)
El margin es la distancia entre el hiperplano de separación y los vectores de soporte
Los vectores de soporte son las muestras de entrenamiento más cercanas al hiperplano
Intuición: los márgenes grandes generalizan mejor, los márgenes pequeños pueden ser propensos al sobreajuste

20
Q

Parametros SVM

A

gamma ((inverso) ancho del Kernel): valores altos significa que los puntos están más separados
Los valores altos significan Gaussianas estrechas, es decir, la influencia de un punto es muy pequeña
Necesitas muchos vectores de soporte
Conduce a límites de decisión complejos, sobreajuste
C (nuestro regularizador lineal): ‘costo’ de clasificar erróneamente ejemplos de entrenamiento
C Grande: fuerza a SVM para clasificar correctamente más ejemplos
Requiere más vectores de soporte, por lo tanto, límites de decisión complejos
Para kernels polinomiales, el degree (exponente) define la complejidad de los modelos

21
Q

SVM Fortalezas, debilidades y parámetros

A

Los SVM permiten límites de decisión complejos, incluso con pocas características.

Funciona bien en datos de baja y alta dimensión.

No escala muy bien a grandes conjuntos de datos (> 100000)

Requiere un cuidadoso preprocesamiento de los datos y el ajuste de los parámetros.

Los modelos SVM son difíciles de inspeccionar

Parámetros importantes:

parámetro de regularización C
elección del kernel y parámetros específicos del kernel
    Ttípicamente fuerte correlación con C
22
Q

Beneficios y desventajas de cross-validation

A

Más robusto: cada ejemplo de entrenamiento estará en un conjunto de prueba exactamente una vez
El modelo se evalúa en todas las muestras, debe funcionar bien en todas
En una partición train-test, podemos tener
‘suerte’: todos los ejemplos sencillos están en el conjunto de prueba
‘desafortunado’: todos los ejemplos difíciles están en el conjunto de prueba
Muestra cuán sensible es el modelo al conjunto de entrenamiento exacto
Mejor estimación del rendimiento real
10-fold CV utiliza el 90% de todos los datos para el entrenamiento (frente al 75% con holdout)
Mientras más alto k, más precisa es la estimación
Desventaja: costo computacional, aproximadamente k veces más lento que el holdout
Los modelos inestables (por ejemplo, deep learning) pueden no converger en cada fold

23
Q

Stratified K-Fold cross-validation

A

Si los datos están desequilibrados, algunas clases tienen muchas menos muestras

Probable que algunas clases no estén presentes en el conjunto de pruebas

Estratificación: proporciones entre clases se conservan en cada fold
Ordenar ejemplos por clase
Separe las muestras de cada clase en k conjuntos (estratos)
Combina el estrato correspondiente en folds

24
Q

Leave-One-Out cross-validation

A

k fold cross-validation con k igual al número de muestras

Completamente imparcial (en términos de divisiones de datos), pero computacionalmente costoso

Sobreajusta en los datos utilizados para la (totalidad) evaluación
Recomendado solo para conjuntos de datos pequeños

25
Q

Accuracy

A

TP+TN/TP+TN+FP+FN

26
Q

Precision

A

Precision se usa cuando el objetivo es limitar los FPs

Ensayos clínicos: solo desea probar medicamentos que realmente funcionan
Motores de búsqueda: desea evitar malos resultados de búsqueda

Precision=TP/TP+FP

27
Q

Recall

A

Recall se usa cuando el objetivo es limitar los FNs

Diagnóstico de cáncer: uno no quiere perderse una enfermedad grave
Motores de búsqueda: no quieres omitir resultados importantes
También conocido como sensibilidad (sensitivity), hit rate, true positive rate (TPR)

Recall=TP/TP+FN

28
Q

F1-score

A

F1-score o F1-measure resume la precision y recall en una única medida (media armónica):

F1=2⋅precision⋅recallprecision+recall

29
Q
A