Aprendizado por Reforço Flashcards

Question 1

Q

O que é um processo de decisão de markov (Markov Decision Process)?

Answer

A

Um processo de decisão de Markov (MDP) é um processo de controle estocástico em tempo discreto.

Fornece a formulação matemática para um problema de RL.

Definido por SARpy

S (estados possíveis)
A (ações possíveis)
R (distribuições de recompensa)
P probabilidade transitória
gamma: fator de desconto

Question 2

Q

Defina a técnica de aprendizado por reforço (não restrita a aprendizado profundo), enfatizando os conceitos de objetivo, estado, ação e recompensa.

Answer

A

As técnicas de aprendizado por reforço envolvem um agente que interage com o ambiente por meio de ações.

Essas ações promovem uma transição de estado e seu impacto é mensurado por meio de recompensas e penalizações que o agente recebe.

O objetivo do aprendizado por reforço é obter uma política ótima, ou seja, uma função que relacione cada estado com uma ação e que seja capaz de maximizar a recompensa do agente.

Question 3

Q

Quais as principais diferenças entre aprendizado supervisionado e por reforço?

Answer

A

O aprendizado supervisionado busca mapear uma função \hat{y} = f(x, theta) baseado nos rótulos y que são fornecidos e conhecidos a priori. Geralmente, fruto de um trabalho de rotulação manual feito por um especialista.

Em um aprendizado por reforço você tem não um rótulo (label) que caracteriza a entrada. O aprendizado será baseado na interação do agente com o ambiente visando maximizar uma recompensa.

Dessa forma, com um aprendizado supervisionado a máquina poderia no máximo atingir o conhecimento do especialista que rotulou os dados. Já em aprendizado por reforço a máquina pode aprender mais através da interação com o ambiente.

Question 4

Q

Explique o que é uma política e apresente o conceito de política ótima em tomada de decisão sequencial.

Answer

A

Uma política pi é uma função de S (conjunto de estados possíveis) para A (conjunto de ações possíveis) que especifica qual ação tomar em cada estado.

Uma politica ótima é aquela que maximiza a recompensa cumulativa com desconto.

pi^max = arg max_{pi} sum_{t>=0} gamma^{t}r_t

Question 5

Q

Quais são os papéis do ator e do crítico no algoritmo actor-critic?

Answer

A

O ator (política) decide qual ação tomar, e o crítico (Q-function) diz ao ator o quanto sua ação foi boa e como ela deve se ajustar.

Assim se alivia a tarefa do crítico pois ele só tem que aprender os valores de pares (estado, ação) gerados pela política.