Reinforcement Learning Flashcards
Was sind Agents?
Wann ist ein Agent autonomous?
Was sind Rational Agents?
Was sind Reflexive Agents?
Was sind Agents with internal state?
Was sind Goal-based agents?
Was sind Agents with some use function?
Beschreib den Markov Decision Process
Was besagt die Markov Property?
Not dependent on history
Was ist epsilon-greedy?
Wie wirken sich die Wahl von epsilon und beta auf epsilon-greedy aus?
Was ist eine q-table?
One-hot state encodings x One-hot action encodings
Wie funktioniert tabular rl?
Wie kann man Tabular RL mit q-tables als Deep RL realisieren?
Deep RL
Wofür ist das implicit model of action selection?
Wie funktioniert Temporal Difference (TD) Learning?
Nenn die Bellman equation
TD-learning advises to adapt the Q-value for the current (s,a). How?