Aprendizado por Reforço Flashcards
O que é um processo de decisão de markov (Markov Decision Process)?
Um processo de decisão de Markov (MDP) é um processo de controle estocástico em tempo discreto.
Fornece a formulação matemática para um problema de RL.
Definido por SARpy
S (estados possíveis) A (ações possíveis) R (distribuições de recompensa) P probabilidade transitória gamma: fator de desconto
Defina a técnica de aprendizado por reforço (não restrita a aprendizado profundo), enfatizando os conceitos de objetivo, estado, ação e recompensa.
As técnicas de aprendizado por reforço envolvem um agente que interage com o ambiente por meio de ações.
Essas ações promovem uma transição de estado e seu impacto é mensurado por meio de recompensas e penalizações que o agente recebe.
O objetivo do aprendizado por reforço é obter uma política ótima, ou seja, uma função que relacione cada estado com uma ação e que seja capaz de maximizar a recompensa do agente.
Quais as principais diferenças entre aprendizado supervisionado e por reforço?
O aprendizado supervisionado busca mapear uma função \hat{y} = f(x, theta) baseado nos rótulos y que são fornecidos e conhecidos a priori. Geralmente, fruto de um trabalho de rotulação manual feito por um especialista.
Em um aprendizado por reforço você tem não um rótulo (label) que caracteriza a entrada. O aprendizado será baseado na interação do agente com o ambiente visando maximizar uma recompensa.
Dessa forma, com um aprendizado supervisionado a máquina poderia no máximo atingir o conhecimento do especialista que rotulou os dados. Já em aprendizado por reforço a máquina pode aprender mais através da interação com o ambiente.
Explique o que é uma política e apresente o conceito de política ótima em tomada de decisão sequencial.
Uma política pi é uma função de S (conjunto de estados possíveis) para A (conjunto de ações possíveis) que especifica qual ação tomar em cada estado.
Uma politica ótima é aquela que maximiza a recompensa cumulativa com desconto.
pi^max = arg max_{pi} sum_{t>=0} gamma^{t}r_t
Quais são os papéis do ator e do crítico no algoritmo actor-critic?
O ator (política) decide qual ação tomar, e o crítico (Q-function) diz ao ator o quanto sua ação foi boa e como ela deve se ajustar.
Assim se alivia a tarefa do crítico pois ele só tem que aprender os valores de pares (estado, ação) gerados pela política.