Clase 8 - Aprendizaje por refuerzo Flashcards

1
Q

Aprendizaje por refuerzo

A

Consiste en aprender a decidir la acción más adecuada para lograr un objetivo.

  • Proceso iterativo de prueba y error.
  • Agente que actúa sobre un entorno.
  • El comportamiento del entorno viene dado por una función de transición de estados (dado estado y acción decide cual es el siguiente) y función de refuerzo (decide que tal ha ido).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Agente

A

Agente debe aprender políticas de comportamiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

En aprendizaje por refuerzo:

A

La función es una política de acción, x es el estado o situación en la que se encuentra el agente e y es la acción que puede ejecutar el agente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Modelo de Markov determinista

A

La ejecución de una acción desde un estado siempre produce la misma transición de estado y el mismo refuerzo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Modelo MDP estocástico.

A

Funciones de transición y refuerzo son funciones estocásticas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Propiedad de Markov

A

El estado anterior y la última acción realizada son suficientes para describir el estado actual y el refuerzo recibido.
La acción a ejecutar solo depende del estado actual.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Objetivo de planificación

A

Encontrar una política que decida cual es la accion que debe ejecutarse de forma que se maximice alguna medida de refuerzo a largo plazo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Criterio de optimalidad de horizonte infinito descontado.

A

sum(gamma^k *refuerzo_k)

gamma == parámetro de descuento
-> los refuerzos inmediatos tienen más peso que los futuros

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Función de valor-estado

A

Es el refuerzo acumulado que espero recibir si estoy en el estado s y me dejo guiar por la política pi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Función valor-acción

A

Es el refuerzo acumulado su ahora estoy en el estado s y la primera acción que ejecuto es a y para las siguientes acciones me dejo guiar por la política pi. (la función de valor óptima es el valor máximo).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Política óptima

A

Es la acción que maximiza la función valor-acción.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Ecuaciones de optimalidad de Bellman

A

Función valor-acción óptimo: depende el refuerzo inmediato al ejecutar la acción desde el estado + gamma*el estado siguiente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Métodos montecarlo

A

Función de transición de estados y de refuerzo son desconocidos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Algoritmo Q-learning

A

Aprendizaje por prueba y error.

- Usa factor de aprendizaje y factor de descuento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Estrategias de selección de acciones.

A
  • epsilon-greedy: ejecuta lo óptimo con probabilidad epsilon y acciones aleatorios con probabilidad 1-epsilon.
  • Softmax: asigna a cada acción una probabilidad dependiente de Q (mayor valor de Q tiene mayor probabilidad).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly