Reinforcement learning Flashcards

1
Q

Reinforcement vs supervised learning

A

Supervised learning
• L’input successivo non dipende dagli input o dalle precedenti predizioni dell’agente
• C’è un segnale di supervisione ad ogni passo
• La loss è differenziabile rispetto ai parametri del modello
Reinforcement learning
• Le azioni dell’agente influiscono sull’ambiente e aiutano a determinare la prossima osservazione
• Le ricompense potrebbero essere scarse
• Le ricompense non sono differenziabili rispetto a parametri del modello

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Expected cumulative reward, weight in expected cumulative reward

A

Il discount factor controlla l’importanza dei premi futuri rispetto a quelli immediati.
● Più basso è il discount factor, meno importanti saranno i premi futuri, e l’agente tenderà a concentrarsi su azioni che produrranno solo ricompense immediate.
● La ricompensa cumulativa è limitata
● Aiuta l’algoritmo a convergere

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Markov decision process?

A

MDP è definito da: (𝓢, 𝓐, 𝓡, ℙ, 𝛾)
𝓢: set di possibili stati
𝓐: set di possibili azioni
𝓡: distribuzione delle ricompense dato (stato, azione)
ℙ: distribuzione della probabilità di transizione al prossimo stato dato (stato, azione)
𝛾: discount factor, controlla l’importanza delle ricompense future rispetto a quelle immediate (aiuta l’algoritmo a convergere)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Differenza tra Q-Learning e deep Q-Learning (a parole, niente formule)

A

risposta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Reinforcement learning?

A
  • L’agente può intraprendere azioni che influiscono sullo stato dell’ambiente e osservare ricompense occasionali che dipendono dallo stato
  • Una policy è una mappatura dagli stati alle azioni
  • Obiettivo: apprendere una policy per massimizzare la ricompensa prevista nel tempo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

come mai serve il deep Q-Learning?

A
  • Alcuni problemi hanno moltissimi stati

* La soluzione del Deep Q-learning è di approsimare Q-values utilizzando una funzione parametrica

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

markov decision process, cumulative reward,reti neurali nel Q-leaning, come le uso?

A

risposta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Metodi policy gradient

A
  • Invece che rappresentare indirettamente la policy tramite Q-values, è più efficiente parametrizzare la policy stessa
  • In grandi spazi continui la funzione Q-values può essere troppo complicata
  • Rappresentazione stocastica della policy: impara una funzione che fornisce la distribuzione di probabilità sulle azioni dallo stato corrente
  • Trova i migliori parametri per massimizzare il reward usando gradient descent
How well did you know this?
1
Not at all
2
3
4
5
Perfectly