06 Reinforcement Learning Flashcards

1
Q

Taxonomie des Reinforcement Learning

A

Bewertungsbasiert

  • keine Strategie
  • Bewertungsfunktion

Strategiebasiert

  • Strategie
  • Keine Bewertungsfunktion

Actor Critic

  • Strategie
  • Bewertungsfunktion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Markov’schere Entscheidungsprozess (MDP) - Formalisierung der squentiellen Entscheidungsfindung - Parameter

A
S: endlicher Satz von Zuständen 
A: endlicher Satz von Aktionen 
P: Transitionswahrscheinlichkeitsmatrix 
R: Belohnungsfunktion 
gamma: discount factor €[0,1]
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Def. Zustand (State)

A

Ein Zustand s ist eine vollständige Beschreibung des Zustands der Welt.

Es gibt keine Informationen, die dem Zustand verborgen bleiben

Welt vollständig beobachtbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Def. Beobachtung (Observation)

A

Eine Beobachtung o ist eine teiweise Beschreibung des Zustands der Welt.

Es gibt Informationen, die der Beobachtung verborgen bleiben.

Welt teilweise beobachtbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Aktionen

A

Unterschiedliche Umgebungen ermöglichen unterschiedliche Arten von Aktionen

Die Menge aller gütigen Aktionen in einer bestimmten Umgebung wird als Aktionsraum bezeichnet

Aktionsräume können diskret oder kontinuierlich sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Strategie (Policy)

A

Eine Strategie π beschreibt das Verhalten des Agenten

Psychologisch gesehen: Reiz-Reaktions-Modell

Abhängig vom aktuellen Zustand

Deterministische Strategie / Stochastische Strategie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Trajektorien

A

Eine Trajektorie tau ist eine Abfolge von Zuständen und Aktionen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Modell

A

Ein Modell sagt voraus, was die Umgebung als nächstes tun wird

P prognostiziert den nächsten Zustand

R prognostiziert die nächste unmittelbare Belohnung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Belohnung (Reward)

A

Eine Belohnung R_t ist ein skalares Feedbacksignal

Beschreibt die Güte der Aktion zu Zeitpunkt t

Der Agent versucht die kummulierte Belohnung zu maximieren

Basis für Reinforcement Learning ist die Belohnungshypothese

Def:
Ziele können als Maximierung der kummulierten Belohnung beschrieben werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Diskontierung

A

Die meisten Markov Entscheidungsprozesse werden diskontiert:

mathematisch praktisch

vermeidet unendliche Belohnungen in zyklischen Markovprozessen

Impliziert Unsicherheit über die Zukunft

Verhalten von Tiere und Mensch zeigt Präferenzen für sofortige Belohnungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Markov Eigenschaft

A

Die Zukunft ist unabhängig von der Vergangenheit, wenn man die Gegenwart betrachtet

Sobald der Zustand bekannt ist, kann die Historie verworfen werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Zustandswertfunktion (State Value Function)

A

V-Funktion V(s)

  • Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
  • Bewertet die Güte eines Zustands

Die Zustandswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zusatnd s wenn im folgenden die Strategie π verfolgt wird

Die optimale Zustandswertfunktion ist der Maximalwert über alle Strategien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Aktionswertfunktion (Action Value Function)

A

Q-Funktion Q(s,a)

  • Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
  • Bewertet die Güte eines Zustands

Die Aktionswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zustand s und der Aktion a wenn im folgenden die Stategie π verfolgt wird.

Die optimale Aktionswertfunktion st der Maximalwert über alle Strategien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Optimale Wertfunktion

A

Die optimale Wertfunktion gibt den bestmöglichen Wert eines MDP an

Ein MDP ist gelöst, wenn die optimale Wertfunktion bekannt ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Exploration vs Exploitation

A

Reinforcement Learning ist Trial-and-Error-Lernen

Aktionen müssen unendlich oft ausprobiert werden

Änderungen der Suchstrategie von global (Exploration) zu lokal (Exploitation) während des Lernprozesses

Beispiel: €-greedy/decreasing

  • Folge Strategie π(s) mit Wahrscheinlichkeit 1-€, sonst zufällige Aktion
  • € konvergiert gegen 0, € = 1/(n+1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

On-Policy / Of-Policy Learning

A

On-Policy Methoden evaluieren oder verbessern die Strategie, welche verwendet wird um Entscheidungen zu treffen
* Learning on the job

Off-Policy Methoden evaluieren oder verbessern eine Strategie, welche sich von der Strategie unterscheidet um Entscheidungen zu generieren
* Look over someone’s shoulder

17
Q

Q-Learning - Target Network

A

Das Target (Sollwert wird nicht mit den aktuellen Aktionswerten des Netzes berechnet, sondern mit einer niederfrequent aktualisierten Kopie des Netzes

Periodische Aktualisierung des Target Network

Stabileres Training

  • Bricht die Korrelation von Aktionswert (Q) und Target
  • Resultiert in einer statischeren Verteilung der Labels
18
Q

Q-Learning - Experience Replay

A

Ein endlicher Erfahrungsspeicher aus welchem zufällige Erfahrungen (s_t, a_t, r_t, s_t+1) gezogen werden um zu lernen

Erfahrungen werden zunächst im Erfahrungsspeicher gespeichert

Um zu lernen werden Minibatches aus zufälligen Erfahrungen aus dem Erfahrungsspeicher erstellt

Stablieres Training:

  • Bricht die Korrelation von Erfahrungen welche durch Trajektorien entstehen
  • Resultiert in einer statischeren Verteilung der Daten
  • Führt zu besserer Dateneffizienz
19
Q

Charakteristika - Q-Learning

A

Strategie wird nur implizit gelernt/verbessert

Lernt deterministische Strategien

Generell weniger stabil (siehe Erweiterungen)

Dateneffizient (Off-Policy)

Diskrete Aktionsräume

20
Q

Strategiebasiertes Lernen

A

Parametrisiert die Strategie explizit

Erlaubt stochastische Strategien

Erlaubt hochdimensionale und kontinuierliche Aktionsräume

21
Q

Charakteristika - Policy Gradient

A

Strategie wird explizit gelernt / verbessert

Erlaubt stochastische Strategien

Generell stabiler (smooth updates)

Datenineffizient (OnPolicy)

Erlaubt hochdimensionale und kontinuierliche Aktionsräume

22
Q

Probleme mit Strategiegradientenmethoden

A

Varianz:
R(tau) wird gesampelt. Das führt zu einer hohen Varianz …

Baseline:
Jede Trajektorie mit positiver Belohnung wird wahrscheinlicher. Auch wenn jede Belohnung positiv ist. Anstatt die wahrscheinlichkeit nur dann zu erhöhen wenn die Belohnung SEHR positiv ist und zu verringern wenn sie nur minimal positiv ist, je nach reward schema.

23
Q

Actor-Critic Verfahren

A

Statt zufälliger R(tau) zu sampeln wird ein Critic hinzugefügt, um eine Q-Funktion zu approximieren.
–> kleine Varianz (quasi kombination policy gradient und deep q)

Erweiterung durch Advantage-Funktion
A(s,a) = Q(s,a) - V(s)
–> löst das Baselineproblem, indem es den Aktionswert vom Zustandswert abzieht.

24
Q

Probleme mit RL

A

Datenineffizienz

Performanz (oft kann man das problem mit anderen methoden besser lösen als RL)

Belohnungsfunktion (Design sehr komplex)

Lokale Optima

Generalisierungsprobleme

–> kein Standardverfahren