Aprendizaje Estadístico Flashcards
Qué es el algoritmo de aprendizaje?
son las reglas que le
permiten a la máquina de aprendizaje llevar a cabo sus tareas
qué son las variables de entrada?
Caracteríasticas o predictores
qué son las variables de salida y cómo se denominan?
se denominan etiquetas y son asignadas a los ejemplos (observaciones) como valores numéricos (regresión) o categorías (clasificación)
Para que se usa la muestra de validación?
se usa para ajustar los parámetros del algoritmo de aprendizaje
para que se usa la muestra de prueba?
se usa para evaluar el desempeño del algoritmo de aprendizaje
para que se usa la función de pérdida?
para determinar la diferencia o pérdida
qué es un hiperparámetro?
es un parámetro que se usa para controlar el proceso de aprendizaje
Para qué se usa la muestra de entrenamiento?
para estimar parámetros
tipos de muestras:
validación, prueba, entrenamiento
sabemos que La máquina de aprendizaje, 𝑓, relaciona la respuesta 𝑌 con los
predictores 𝑋 = 𝑋1⋯ 𝑋𝑛 Donde 𝜖 es un término de error con media cero e independiente de
𝑋, en este contexto 𝑓 representa la parte sistemática. Por qué se le denomina BLACKBOX a esta máquina?
porque en general no interesa su
forma funcional solo las estimaciones que de ella salen
de qué depende la precisión de la predicción?
del error reducible (variables no obsevadas o medibles) e irreducible (función inadecuada)
a qué es igual el error esperado de la estimación?
E[ f(x) - f^(x)]^2 + var(e)
cuál es el objetivo de el machine learning?
Se busca aplicar un método de aprendizaje estadístico a la muestra
de entrenamiento para estimar la máquina de aprendizaje 𝑓.
tipod de métodos de aprendizaje estadístico
paramétricos y no paramétricos
Métodos paramétricos
asume una forma funcional para la máquina de aprendizaje. Una vez se haya decidido el modelo se busca un
procedimiento para ajustar o entrenar el modelo, esto se traduce en estimar
los parámetros del modelo
Método no paramétrico
no asumen una forma funcional para la
máquina de aprendizaje, en su lugar la estiman para que se acerque a los
datos.
cuáles son las modalidades de aprendizaje?
supervisado (los datos de la muestra están etiquetados), no supervisado, semisupervisado (algunos estan etiquetados), reforzado, activo
Diferencia entre aprendizaje reforzado y activo?
En el apredizaje reforzado la fase de entrenamiento y prueba se mezclan, el aprendiz interactúa con el medio y recibe una
recompensa inmediata por esta acción, el objetivo es maximizar la
recompensa en el curso de las interacciones
Por otro lado, el aprendizaje activo el aprendiz recoge muestras de
entrenamiento adaptativamente preguntándole a un oráculo para
obtener las etiquetas de nuevos puntos.
tipos de problemas
de regresion o de clasificación
Qué medida se evalua a la hora de encontrar el mejor modelo?
el error cuadrático medio
para evaluar el modelo se busca el mse calculado sobre cuales datos?? de prueba o de entrenamiento?
de prueba
A medida que el nivel de flexibilidad del modelo aumenta
disminuye el error pero aumenta la varianza
El nivel de flexibilidad se mide por
los grados de libertad del modelo
Cuál es el mínimo MSE de prueba?
var(e)
Cuando el MSE de entrenamiento es bajo y el de prueba es alto se
dice que los datos se
sobre-ajustaron, overfitting
cuales modelos causan overfitting?
los flexibles
qué es cross validation?
El MSE de prueba se puede estimar a partir del MSE de entrenamiento
El MSE de prueba esperado se puede descomponer en la suma de
tres cantidades
la varianza de f estimado, el sesgo al cuadradi de f estimado, y la varianza de e
Cómo se puede minimizar el MSE?
escoger un método de
aprendizaje estadístico de baja varianza y bajo sesgo
Cómo se calcula el MSE de prueba esperado?
hay dos formas, o estimando f varias veces con los datos de entrenamiento y aplicandolo en un valor x en el conjunto de prueba, o sacando el promedio del error cuadrático sobre todos los valores de x en el conjunto de prueba
Qué curvas van a generarte más varianza?
flexibles
Qué curvas van a generar mayor sesgo?
las inflexibles
Cómo se conoce la relación entre sesgo, varianza y MSE del conjunto de prueba?
compromiso, trade-off, sesgo varianza
Si las etiquetas son cualitativas que se usa para medir la precisión del f estimado?
la tasa de error de entrenamiento
qué es la tasa de error de entrenamiento?
es una proporción de errores cometidos al aplicar f estimado a las observaciones de entrenamiento
en las etiquetas cualitativas, que es I?
es la función indicador, que es igual a 1 si 𝑦𝑖 ≠ ො
𝑦𝑖 y 0 si son
iguales, es decir que la observación se clasificó correctamente.
En qué consiste cross validation?
en partir aleatoriamente los datos de una
muestra entre 𝑛 submuestras de igual tamaño. Para cada 𝑖 ∈
1,
⋯
, 𝑛 el algoritmo se entrena con todas las muestras menos las
del subgrupo 𝑖 −ésimo.
Un caso especial de cross validation es : leave one out
cross-validation LOOCV.
es cuando el número de grupos
es igual al número de datos
Para qué es útil usar cross validation?
para determinar el desempeño esperado de una metodología de aprendizaje
estadístico en datos independientes y asimismo determinar el minimizador de la curva del MSE de prueba estimado, para
identificar el mejor método de aprendizaje estadístico o la mejor flexibilidad.
qué es bootstraping?
permite la obtención de nuevos conjuntos de
muestras a partir de la muestra original. (se realiza con reemplazo)
cual presenta menos sesgo, loocv o cross validation?
Loocv
cuál da valores mas precisos para el MSE, LOOCV o cross validation ?
cross validation
cual presenta menos varianza, loocv o cross validation?
cross validation