06 Reinforcement Learning Flashcards

Question 1

Q

Taxonomie des Reinforcement Learning

Answer

A

Bewertungsbasiert

keine Strategie
Bewertungsfunktion

Strategiebasiert

Strategie
Keine Bewertungsfunktion

Actor Critic

Strategie
Bewertungsfunktion

Question 2

Q

Markov’schere Entscheidungsprozess (MDP) - Formalisierung der squentiellen Entscheidungsfindung - Parameter

Answer

A

S: endlicher Satz von Zuständen 
A: endlicher Satz von Aktionen 
P: Transitionswahrscheinlichkeitsmatrix 
R: Belohnungsfunktion 
gamma: discount factor €[0,1]

Question 3

Q

Def. Zustand (State)

Answer

A

Ein Zustand s ist eine vollständige Beschreibung des Zustands der Welt.

Es gibt keine Informationen, die dem Zustand verborgen bleiben

Welt vollständig beobachtbar

Question 4

Q

Def. Beobachtung (Observation)

Answer

A

Eine Beobachtung o ist eine teiweise Beschreibung des Zustands der Welt.

Es gibt Informationen, die der Beobachtung verborgen bleiben.

Welt teilweise beobachtbar

Question 5

Q

Aktionen

Answer

A

Unterschiedliche Umgebungen ermöglichen unterschiedliche Arten von Aktionen

Die Menge aller gütigen Aktionen in einer bestimmten Umgebung wird als Aktionsraum bezeichnet

Aktionsräume können diskret oder kontinuierlich sein

Question 6

Q

Strategie (Policy)

Answer

A

Eine Strategie π beschreibt das Verhalten des Agenten

Psychologisch gesehen: Reiz-Reaktions-Modell

Abhängig vom aktuellen Zustand

Deterministische Strategie / Stochastische Strategie

Question 7

Q

Trajektorien

Answer

A

Eine Trajektorie tau ist eine Abfolge von Zuständen und Aktionen

Question 8

Q

Modell

Answer

A

Ein Modell sagt voraus, was die Umgebung als nächstes tun wird

P prognostiziert den nächsten Zustand

R prognostiziert die nächste unmittelbare Belohnung

Question 9

Q

Belohnung (Reward)

Answer

A

Eine Belohnung R_t ist ein skalares Feedbacksignal

Beschreibt die Güte der Aktion zu Zeitpunkt t

Der Agent versucht die kummulierte Belohnung zu maximieren

Basis für Reinforcement Learning ist die Belohnungshypothese

Def:
Ziele können als Maximierung der kummulierten Belohnung beschrieben werden.

Question 10

Q

Diskontierung

Answer

A

Die meisten Markov Entscheidungsprozesse werden diskontiert:

mathematisch praktisch

vermeidet unendliche Belohnungen in zyklischen Markovprozessen

Impliziert Unsicherheit über die Zukunft

Verhalten von Tiere und Mensch zeigt Präferenzen für sofortige Belohnungen

Question 11

Q

Markov Eigenschaft

Answer

A

Die Zukunft ist unabhängig von der Vergangenheit, wenn man die Gegenwart betrachtet

Sobald der Zustand bekannt ist, kann die Historie verworfen werden

Question 12

Q

Zustandswertfunktion (State Value Function)

Answer

A

V-Funktion V(s)

Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
Bewertet die Güte eines Zustands

Die Zustandswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zusatnd s wenn im folgenden die Strategie π verfolgt wird

Die optimale Zustandswertfunktion ist der Maximalwert über alle Strategien

Question 13

Q

Aktionswertfunktion (Action Value Function)

Answer

A

Q-Funktion Q(s,a)

Die Bewertungsfunktion ist eine Vorhersage der zukünftigen Belohnung
Bewertet die Güte eines Zustands

Die Aktionswertfunktion eines MDP ist die erwartete kummulierte Belohnung ausgehend vom Zustand s und der Aktion a wenn im folgenden die Stategie π verfolgt wird.

Die optimale Aktionswertfunktion st der Maximalwert über alle Strategien

Question 14

Q

Optimale Wertfunktion

Answer

A

Die optimale Wertfunktion gibt den bestmöglichen Wert eines MDP an

Ein MDP ist gelöst, wenn die optimale Wertfunktion bekannt ist.

Question 15

Q

Exploration vs Exploitation

Answer

A

Reinforcement Learning ist Trial-and-Error-Lernen

Aktionen müssen unendlich oft ausprobiert werden

Änderungen der Suchstrategie von global (Exploration) zu lokal (Exploitation) während des Lernprozesses

Beispiel: €-greedy/decreasing

Folge Strategie π(s) mit Wahrscheinlichkeit 1-€, sonst zufällige Aktion
€ konvergiert gegen 0, € = 1/(n+1)

Question 16

Q

On-Policy / Of-Policy Learning

Answer

Study These Flashcards

A

On-Policy Methoden evaluieren oder verbessern die Strategie, welche verwendet wird um Entscheidungen zu treffen
* Learning on the job

Off-Policy Methoden evaluieren oder verbessern eine Strategie, welche sich von der Strategie unterscheidet um Entscheidungen zu generieren
* Look over someone’s shoulder

Question 17

Q

Q-Learning - Target Network

Answer

Study These Flashcards

A

Das Target (Sollwert wird nicht mit den aktuellen Aktionswerten des Netzes berechnet, sondern mit einer niederfrequent aktualisierten Kopie des Netzes

Periodische Aktualisierung des Target Network

Stabileres Training

Bricht die Korrelation von Aktionswert (Q) und Target
Resultiert in einer statischeren Verteilung der Labels

Question 18

Q

Q-Learning - Experience Replay

Answer

Study These Flashcards

A

Ein endlicher Erfahrungsspeicher aus welchem zufällige Erfahrungen (s_t, a_t, r_t, s_t+1) gezogen werden um zu lernen

Erfahrungen werden zunächst im Erfahrungsspeicher gespeichert

Um zu lernen werden Minibatches aus zufälligen Erfahrungen aus dem Erfahrungsspeicher erstellt

Stablieres Training:

Bricht die Korrelation von Erfahrungen welche durch Trajektorien entstehen
Resultiert in einer statischeren Verteilung der Daten
Führt zu besserer Dateneffizienz

Question 19

Q

Charakteristika - Q-Learning

Answer

Study These Flashcards

A

Strategie wird nur implizit gelernt/verbessert

Lernt deterministische Strategien

Generell weniger stabil (siehe Erweiterungen)

Dateneffizient (Off-Policy)

Diskrete Aktionsräume

Question 20

Q

Strategiebasiertes Lernen

Answer

Study These Flashcards

A

Parametrisiert die Strategie explizit

Erlaubt stochastische Strategien

Erlaubt hochdimensionale und kontinuierliche Aktionsräume

Question 21

Q

Charakteristika - Policy Gradient

Answer

Study These Flashcards

A

Strategie wird explizit gelernt / verbessert

Erlaubt stochastische Strategien

Generell stabiler (smooth updates)

Datenineffizient (OnPolicy)

Erlaubt hochdimensionale und kontinuierliche Aktionsräume

Question 22

Q

Probleme mit Strategiegradientenmethoden

Answer

Study These Flashcards

A

Varianz:
R(tau) wird gesampelt. Das führt zu einer hohen Varianz …

Baseline:
Jede Trajektorie mit positiver Belohnung wird wahrscheinlicher. Auch wenn jede Belohnung positiv ist. Anstatt die wahrscheinlichkeit nur dann zu erhöhen wenn die Belohnung SEHR positiv ist und zu verringern wenn sie nur minimal positiv ist, je nach reward schema.

Question 23

Q

Actor-Critic Verfahren

Answer

Study These Flashcards

A

Statt zufälliger R(tau) zu sampeln wird ein Critic hinzugefügt, um eine Q-Funktion zu approximieren.
–> kleine Varianz (quasi kombination policy gradient und deep q)

Erweiterung durch Advantage-Funktion
A(s,a) = Q(s,a) - V(s)
–> löst das Baselineproblem, indem es den Aktionswert vom Zustandswert abzieht.

Question 24

Q

Probleme mit RL

Answer

Study These Flashcards

A

Datenineffizienz

Performanz (oft kann man das problem mit anderen methoden besser lösen als RL)

Belohnungsfunktion (Design sehr komplex)

Lokale Optima

Generalisierungsprobleme

–> kein Standardverfahren

06 Reinforcement Learning Flashcards

(24 cards)