Reinforcement learning Flashcards
Reinforcement vs supervised learning
Supervised learning
• L’input successivo non dipende dagli input o dalle precedenti predizioni dell’agente
• C’è un segnale di supervisione ad ogni passo
• La loss è differenziabile rispetto ai parametri del modello
Reinforcement learning
• Le azioni dell’agente influiscono sull’ambiente e aiutano a determinare la prossima osservazione
• Le ricompense potrebbero essere scarse
• Le ricompense non sono differenziabili rispetto a parametri del modello
Expected cumulative reward, weight in expected cumulative reward
Il discount factor controlla l’importanza dei premi futuri rispetto a quelli immediati.
● Più basso è il discount factor, meno importanti saranno i premi futuri, e l’agente tenderà a concentrarsi su azioni che produrranno solo ricompense immediate.
● La ricompensa cumulativa è limitata
● Aiuta l’algoritmo a convergere
Markov decision process?
MDP è definito da: (𝓢, 𝓐, 𝓡, ℙ, 𝛾)
𝓢: set di possibili stati
𝓐: set di possibili azioni
𝓡: distribuzione delle ricompense dato (stato, azione)
ℙ: distribuzione della probabilità di transizione al prossimo stato dato (stato, azione)
𝛾: discount factor, controlla l’importanza delle ricompense future rispetto a quelle immediate (aiuta l’algoritmo a convergere)
Differenza tra Q-Learning e deep Q-Learning (a parole, niente formule)
risposta
Reinforcement learning?
- L’agente può intraprendere azioni che influiscono sullo stato dell’ambiente e osservare ricompense occasionali che dipendono dallo stato
- Una policy è una mappatura dagli stati alle azioni
- Obiettivo: apprendere una policy per massimizzare la ricompensa prevista nel tempo
come mai serve il deep Q-Learning?
- Alcuni problemi hanno moltissimi stati
* La soluzione del Deep Q-learning è di approsimare Q-values utilizzando una funzione parametrica
markov decision process, cumulative reward,reti neurali nel Q-leaning, come le uso?
risposta
Metodi policy gradient
- Invece che rappresentare indirettamente la policy tramite Q-values, è più efficiente parametrizzare la policy stessa
- In grandi spazi continui la funzione Q-values può essere troppo complicata
- Rappresentazione stocastica della policy: impara una funzione che fornisce la distribuzione di probabilità sulle azioni dallo stato corrente
- Trova i migliori parametri per massimizzare il reward usando gradient descent