06 Reinforcement Learning Flashcards
Taxonomie des Reinforcement Learning
Bewertungsbasiert
- keine Strategie
- Bewertungsfunktion
Strategiebasiert
- Strategie
- Keine Bewertungsfunktion
Actor Critic
- Strategie
- Bewertungsfunktion
Markov’schere Entscheidungsprozess (MDP) - Formalisierung der squentiellen Entscheidungsfindung - Parameter
S: endlicher Satz von Zuständen A: endlicher Satz von Aktionen P: Transitionswahrscheinlichkeitsmatrix R: Belohnungsfunktion gamma: discount factor €[0,1]
Def. Zustand (State)
Ein Zustand s ist eine vollständige Beschreibung des Zustands der Welt.
Es gibt keine Informationen, die dem Zustand verborgen bleiben
Welt vollständig beobachtbar
Def. Beobachtung (Observation)
Eine Beobachtung o ist eine teiweise Beschreibung des Zustands der Welt.
Es gibt Informationen, die der Beobachtung verborgen bleiben.
Welt teilweise beobachtbar
Aktionen
Unterschiedliche Umgebungen ermöglichen unterschiedliche Arten von Aktionen
Die Menge aller gütigen Aktionen in einer bestimmten Umgebung wird als Aktionsraum bezeichnet
Aktionsräume können diskret oder kontinuierlich sein
Strategie (Policy)
Eine Strategie π beschreibt das Verhalten des Agenten
Psychologisch gesehen: Reiz-Reaktions-Modell
Abhängig vom aktuellen Zustand
Deterministische Strategie / Stochastische Strategie
Trajektorien
Eine Trajektorie tau ist eine Abfolge von Zuständen und Aktionen
Modell
Ein Modell sagt voraus, was die Umgebung als nächstes tun wird
P prognostiziert den nächsten Zustand
R prognostiziert die nächste unmittelbare Belohnung
Belohnung (Reward)
Eine Belohnung R_t ist ein skalares Feedbacksignal
Beschreibt die Güte der Aktion zu Zeitpunkt t
Der Agent versucht die kummulierte Belohnung zu maximieren
Basis für Reinforcement Learning ist die Belohnungshypothese
Def:
Ziele können als Maximierung der kummulierten Belohnung beschrieben werden.
Diskontierung
Die meisten Markov Entscheidungsprozesse werden diskontiert:
mathematisch praktisch
vermeidet unendliche Belohnungen in zyklischen Markovprozessen
Impliziert Unsicherheit über die Zukunft
Verhalten von Tiere und Mensch zeigt Präferenzen für sofortige Belohnungen
Markov Eigenschaft
Die Zukunft ist unabhängig von der Vergangenheit, wenn man die Gegenwart betrachtet
Sobald der Zustand bekannt ist, kann die Historie verworfen werden
Zustandswertfunktion (State Value Function)
V-Funktion V(s)
- Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
- Bewertet die Güte eines Zustands
Die Zustandswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zusatnd s wenn im folgenden die Strategie π verfolgt wird
Die optimale Zustandswertfunktion ist der Maximalwert über alle Strategien
Aktionswertfunktion (Action Value Function)
Q-Funktion Q(s,a)
- Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
- Bewertet die Güte eines Zustands
Die Aktionswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zustand s und der Aktion a wenn im folgenden die Stategie π verfolgt wird.
Die optimale Aktionswertfunktion st der Maximalwert über alle Strategien
Optimale Wertfunktion
Die optimale Wertfunktion gibt den bestmöglichen Wert eines MDP an
Ein MDP ist gelöst, wenn die optimale Wertfunktion bekannt ist.
Exploration vs Exploitation
Reinforcement Learning ist Trial-and-Error-Lernen
Aktionen müssen unendlich oft ausprobiert werden
Änderungen der Suchstrategie von global (Exploration) zu lokal (Exploitation) während des Lernprozesses
Beispiel: €-greedy/decreasing
- Folge Strategie π(s) mit Wahrscheinlichkeit 1-€, sonst zufällige Aktion
- € konvergiert gegen 0, € = 1/(n+1)
On-Policy / Of-Policy Learning
On-Policy Methoden evaluieren oder verbessern die Strategie, welche verwendet wird um Entscheidungen zu treffen
* Learning on the job
Off-Policy Methoden evaluieren oder verbessern eine Strategie, welche sich von der Strategie unterscheidet um Entscheidungen zu generieren
* Look over someone’s shoulder
Q-Learning - Target Network
Das Target (Sollwert wird nicht mit den aktuellen Aktionswerten des Netzes berechnet, sondern mit einer niederfrequent aktualisierten Kopie des Netzes
Periodische Aktualisierung des Target Network
Stabileres Training
- Bricht die Korrelation von Aktionswert (Q) und Target
- Resultiert in einer statischeren Verteilung der Labels
Q-Learning - Experience Replay
Ein endlicher Erfahrungsspeicher aus welchem zufällige Erfahrungen (s_t, a_t, r_t, s_t+1) gezogen werden um zu lernen
Erfahrungen werden zunächst im Erfahrungsspeicher gespeichert
Um zu lernen werden Minibatches aus zufälligen Erfahrungen aus dem Erfahrungsspeicher erstellt
Stablieres Training:
- Bricht die Korrelation von Erfahrungen welche durch Trajektorien entstehen
- Resultiert in einer statischeren Verteilung der Daten
- Führt zu besserer Dateneffizienz
Charakteristika - Q-Learning
Strategie wird nur implizit gelernt/verbessert
Lernt deterministische Strategien
Generell weniger stabil (siehe Erweiterungen)
Dateneffizient (Off-Policy)
Diskrete Aktionsräume
Strategiebasiertes Lernen
Parametrisiert die Strategie explizit
Erlaubt stochastische Strategien
Erlaubt hochdimensionale und kontinuierliche Aktionsräume
Charakteristika - Policy Gradient
Strategie wird explizit gelernt / verbessert
Erlaubt stochastische Strategien
Generell stabiler (smooth updates)
Datenineffizient (OnPolicy)
Erlaubt hochdimensionale und kontinuierliche Aktionsräume
Probleme mit Strategiegradientenmethoden
Varianz:
R(tau) wird gesampelt. Das führt zu einer hohen Varianz …
Baseline:
Jede Trajektorie mit positiver Belohnung wird wahrscheinlicher. Auch wenn jede Belohnung positiv ist. Anstatt die wahrscheinlichkeit nur dann zu erhöhen wenn die Belohnung SEHR positiv ist und zu verringern wenn sie nur minimal positiv ist, je nach reward schema.
Actor-Critic Verfahren
Statt zufälliger R(tau) zu sampeln wird ein Critic hinzugefügt, um eine Q-Funktion zu approximieren.
–> kleine Varianz (quasi kombination policy gradient und deep q)
Erweiterung durch Advantage-Funktion
A(s,a) = Q(s,a) - V(s)
–> löst das Baselineproblem, indem es den Aktionswert vom Zustandswert abzieht.
Probleme mit RL
Datenineffizienz
Performanz (oft kann man das problem mit anderen methoden besser lösen als RL)
Belohnungsfunktion (Design sehr komplex)
Lokale Optima
Generalisierungsprobleme
–> kein Standardverfahren