Clase 8 - Aprendizaje por refuerzo Flashcards
Aprendizaje por refuerzo
Consiste en aprender a decidir la acción más adecuada para lograr un objetivo.
- Proceso iterativo de prueba y error.
- Agente que actúa sobre un entorno.
- El comportamiento del entorno viene dado por una función de transición de estados (dado estado y acción decide cual es el siguiente) y función de refuerzo (decide que tal ha ido).
Agente
Agente debe aprender políticas de comportamiento.
En aprendizaje por refuerzo:
La función es una política de acción, x es el estado o situación en la que se encuentra el agente e y es la acción que puede ejecutar el agente.
Modelo de Markov determinista
La ejecución de una acción desde un estado siempre produce la misma transición de estado y el mismo refuerzo
Modelo MDP estocástico.
Funciones de transición y refuerzo son funciones estocásticas.
Propiedad de Markov
El estado anterior y la última acción realizada son suficientes para describir el estado actual y el refuerzo recibido.
La acción a ejecutar solo depende del estado actual.
Objetivo de planificación
Encontrar una política que decida cual es la accion que debe ejecutarse de forma que se maximice alguna medida de refuerzo a largo plazo.
Criterio de optimalidad de horizonte infinito descontado.
sum(gamma^k *refuerzo_k)
gamma == parámetro de descuento
-> los refuerzos inmediatos tienen más peso que los futuros
Función de valor-estado
Es el refuerzo acumulado que espero recibir si estoy en el estado s y me dejo guiar por la política pi.
Función valor-acción
Es el refuerzo acumulado su ahora estoy en el estado s y la primera acción que ejecuto es a y para las siguientes acciones me dejo guiar por la política pi. (la función de valor óptima es el valor máximo).
Política óptima
Es la acción que maximiza la función valor-acción.
Ecuaciones de optimalidad de Bellman
Función valor-acción óptimo: depende el refuerzo inmediato al ejecutar la acción desde el estado + gamma*el estado siguiente
Métodos montecarlo
Función de transición de estados y de refuerzo son desconocidos.
Algoritmo Q-learning
Aprendizaje por prueba y error.
- Usa factor de aprendizaje y factor de descuento.
Estrategias de selección de acciones.
- epsilon-greedy: ejecuta lo óptimo con probabilidad epsilon y acciones aleatorios con probabilidad 1-epsilon.
- Softmax: asigna a cada acción una probabilidad dependiente de Q (mayor valor de Q tiene mayor probabilidad).