06 Reinforcement Learning Flashcards
Taxonomie des Reinforcement Learning
Bewertungsbasiert
- keine Strategie
- Bewertungsfunktion
Strategiebasiert
- Strategie
- Keine Bewertungsfunktion
Actor Critic
- Strategie
- Bewertungsfunktion
Markov’schere Entscheidungsprozess (MDP) - Formalisierung der squentiellen Entscheidungsfindung - Parameter
S: endlicher Satz von Zuständen A: endlicher Satz von Aktionen P: Transitionswahrscheinlichkeitsmatrix R: Belohnungsfunktion gamma: discount factor €[0,1]
Def. Zustand (State)
Ein Zustand s ist eine vollständige Beschreibung des Zustands der Welt.
Es gibt keine Informationen, die dem Zustand verborgen bleiben
Welt vollständig beobachtbar
Def. Beobachtung (Observation)
Eine Beobachtung o ist eine teiweise Beschreibung des Zustands der Welt.
Es gibt Informationen, die der Beobachtung verborgen bleiben.
Welt teilweise beobachtbar
Aktionen
Unterschiedliche Umgebungen ermöglichen unterschiedliche Arten von Aktionen
Die Menge aller gütigen Aktionen in einer bestimmten Umgebung wird als Aktionsraum bezeichnet
Aktionsräume können diskret oder kontinuierlich sein
Strategie (Policy)
Eine Strategie π beschreibt das Verhalten des Agenten
Psychologisch gesehen: Reiz-Reaktions-Modell
Abhängig vom aktuellen Zustand
Deterministische Strategie / Stochastische Strategie
Trajektorien
Eine Trajektorie tau ist eine Abfolge von Zuständen und Aktionen
Modell
Ein Modell sagt voraus, was die Umgebung als nächstes tun wird
P prognostiziert den nächsten Zustand
R prognostiziert die nächste unmittelbare Belohnung
Belohnung (Reward)
Eine Belohnung R_t ist ein skalares Feedbacksignal
Beschreibt die Güte der Aktion zu Zeitpunkt t
Der Agent versucht die kummulierte Belohnung zu maximieren
Basis für Reinforcement Learning ist die Belohnungshypothese
Def:
Ziele können als Maximierung der kummulierten Belohnung beschrieben werden.
Diskontierung
Die meisten Markov Entscheidungsprozesse werden diskontiert:
mathematisch praktisch
vermeidet unendliche Belohnungen in zyklischen Markovprozessen
Impliziert Unsicherheit über die Zukunft
Verhalten von Tiere und Mensch zeigt Präferenzen für sofortige Belohnungen
Markov Eigenschaft
Die Zukunft ist unabhängig von der Vergangenheit, wenn man die Gegenwart betrachtet
Sobald der Zustand bekannt ist, kann die Historie verworfen werden
Zustandswertfunktion (State Value Function)
V-Funktion V(s)
- Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
- Bewertet die Güte eines Zustands
Die Zustandswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zusatnd s wenn im folgenden die Strategie π verfolgt wird
Die optimale Zustandswertfunktion ist der Maximalwert über alle Strategien
Aktionswertfunktion (Action Value Function)
Q-Funktion Q(s,a)
- Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
- Bewertet die Güte eines Zustands
Die Aktionswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zustand s und der Aktion a wenn im folgenden die Stategie π verfolgt wird.
Die optimale Aktionswertfunktion st der Maximalwert über alle Strategien
Optimale Wertfunktion
Die optimale Wertfunktion gibt den bestmöglichen Wert eines MDP an
Ein MDP ist gelöst, wenn die optimale Wertfunktion bekannt ist.
Exploration vs Exploitation
Reinforcement Learning ist Trial-and-Error-Lernen
Aktionen müssen unendlich oft ausprobiert werden
Änderungen der Suchstrategie von global (Exploration) zu lokal (Exploitation) während des Lernprozesses
Beispiel: €-greedy/decreasing
- Folge Strategie π(s) mit Wahrscheinlichkeit 1-€, sonst zufällige Aktion
- € konvergiert gegen 0, € = 1/(n+1)