Rubrik 3 Flashcards
Was sind die drei Modelle für Reinforcement Learning?
Models with finite horizon:
E(Summe über t=0 bis n (r_t)), Optimiert die Belohnung über n Zeitschritte. Der Agent macht sich keine Gedanken darüber, was nach den n Zeitschritten passiert. Dabei gibt es zwei Verwendungsarten. Einmal bleibt die Policy immer die selbe und es wird durchweg die “h-step optimal action” ausgeführt. Das nennt man receding horizon control. Die non-stationary control besagt, dass die Policy sich über Zeit ändert, der Agent die h-step optimal action für t=1 wählt, (h-1)-step optimal action für t=2 usw. bis er terminiert.
Discounted Models with infinite horizon:
E(Summe über t=0 bis unendlich (gamma^t*r_t)).
Das Modell betrachtet den Langzeit-Reward des Agenten, wobei Belohnungen in der Zukunft durch einen Diskontierungsfaktor Gamma Element von (0,1) beeinflusst werden. Dadurch konvergiert die Summe.
Average reward models:
Selbe Funktion wie finite horizon aber mit 1/h multipliziert.
Neuron erklären und aufzeichnen
Neuronen sind die Elementareinheiten eines NN. Es erhält Input von anderen Neuronen oder einer externen Quelle und verarbeitet den Input weiter. Jeder Input hat ein dazugehöriges Gewicht, welches die relative Wichtigkeit im Vergleich zu anderen Inputs beschreibt. Die gewichteten Inputs werden aufsummiert und anschließend über eine sogenannte Transferfunktion zu Outputs weiterverarbeitet.
ZEICHNEN!
Markov Prozess zeichnen und erklären!
Grafik mit Agent, Environment, State, Reward, Action