Reinforcement Learning Flashcards
Was ist Reinforcement Learning?
Lernen von sequenziellen Entscheidungen
Entscheidungen werden nicht isoliert betrachtet, sondern der gesamte Prozess
Was nutzt reinforcement Learning im Gegensatz zu (Un)supervised Learning?
“belohnende” Lernmethode
Aktionen sollen Belohnung maximieren
Ziel: Automatische Entwicklung einer möglichst optimalen Steuerung (“Policy”)
Was ist die Policy bei Reinforcement Learning?
Aus allen möglichen Aktionen soll die bestmögliche gewählt werden
-> „Taktik“ oder „Steuerung“
-> Für jede Taktik existiert eine erwartende kumulative Belohnung
Kumulative Belohnung
aufsummierte Belohnung, die ein Agent über eine gesamte Episode oder über mehrere Zeitschritte hinweg erhält.
Bewertung von Zuständen und Aktionen bei Recurrent Networks
Gebrauch bei RL
- Wie gut ist ein bestimmter zustand: langsfristige Belohnung
- Wie ist eine Aktion innerhalb eines Zustands