07 Reinforcement Learning Flashcards

1
Q

MDP : Markov’scher Entscheidungsprozess

A

Formalisierung der sequentiellen Entscheidungsfindung

  • S (State): ein endlicher Satz von Zuständen
  • A (Action): ein endlicher Satz von Aktionen
  • P (Probability): Transitionswahrscheinlichkeitsmatrix
  • R (Reward): Belohnungsfunktion
  • gamma: dicount factor €[0,1]
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Diskontierung

A

die meisten Markov Entscheidungsprozesse werden diskontiert:

  • mathematisch praktisch
  • vermeidet unendliche Belohnungen in zyklischen Markovprozessen
  • Impliziert Unsicherheit über die Zukunft
  • Verhalten von Tier und Mensch zeigt Präferenzen für sofortige Belohnungen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Markov Eigenschaft

A

Ein Zustand erfüllt die Markov Eigenschaft wenn, und nur wenn:

P[S_t+1 | S_t] = P[S_t+1 | S1, …, S_t]

=> Die Zukunft ist unabhängig von der Vergangenheit, wenn man die Gegenwart betrachtet.
Sobald der Zustand bekannt ist, kann die Historie verworfen werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Belohnung (Reward)

A

Ziele können als Maximierung der kummulierten Belohnung beschrieben werden.

  • eine Belohnung R_t ist ein skalares Feedbacksignal
  • beschreibt die Güte der Aktion zum Zeitpunkt t
  • der Agent versucht die kummulierte Belohnung zu maximieren

Basis für Reinforcement Learning ist die Belohnungshypothese

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Strategie (Policy)

A

Eine Strategie π beschreibt das Verhalten des Agenten

  • Deterministische Strategie: a= π(s)
  • Stochasitsche Strategie: a = π(a | s) = P[A_t = a | S_t = s ]

Psychologisch gesehen: Reiz-Reaktions-Modell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Model

A

Ein Modell sagt voraus, was die Umgebung als nächstes tun wird

P prognostiziert den nächsten Zustand
R prognostiziert die nächste (unmittelbar) Belohnung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Monte Carlo Methoden (MC)

A

lernen direkt aus ERfahrungsepisoden

sind modellfrei: benötigt kein Wissen über MDP-Übergänge / Belohnungen

lernen aus kompletten Episoden: kein Bootstrapping

verwenden der einfachsten Idee: Wert = durchschnittliche Belohnung

Problem: kann nur auf episodischen MDPs angewendet werden (alle episoden müssen terminieren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Temporal-Differance Learning (TD)

A

lernt direkt aus Erfahrungsepisoden

ist modellfrei: benötigt kein Wissen über MDP-Übergänge / Belohnungen

lernt aus unvollständigen Episoden, durch Bootstrapping

aktualisiert eine Schätzung mit einer Schätzung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Bootstrapping

A

Bootstrapping (shallow backups):
aktualisierung beruht auf Schätzung:
* dynamische Programmierung
* temporal difference learning

Sampling (sample backups):
Aktualisierung beruht auf Erwartungswert
* monte carlo methoden
* temporal differance learning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Exploration vs Exploitation

A

Reinforcement Learning ist Trial-and-Error-Lernen

Aktionen müssen undendlich oft ausprobiert werden

Änderung der Suchstrategie von global (Exploration) zu lokal (Exploitation) während des Lernprozesses

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

On-Policy Learning / Off-Policy Learning

A

On-Policy Methoden evaluieren oder verbessern die Strategie, welche verwendet wird um Entscheidungen zu treffen
=> Learning on the job

Off-Policy Methoden evaluieren oder verbessern eine Strategie, welche sich von der Strategie unterscheidet um Entscheidungen zu generieren
=> Look over someones shoulder

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Lernen von Aktionssequenzen

A

Belohnung erst nach einer Sequenz von Aktionen bekannt
Schach: Züge bauen aufeinander auf (nicht nur der einzelne Zug relevant)

Belohnung erst am Ziel
Schach: erst am Spielende ist klar wer gewonnen hat

  • bei langen Aktionssequenzen kann erst am Ende der Sequenz gelernt werden
  • nachfolgende Aktionen können für den schlechten Ausgang verantwortlich sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Lernen vs Planen

A

Reinforcement learning:

  • die Umgebung ist zunächst unbekannt
  • der Agent interagiert mit der Umgebung
  • der Agent verbessert seine Strategie

Planen:

  • ein Modell der Umgebung ist bekannt
  • Der Agent führt mit seinem Modell Berechnungen durch (ohne externe Interaktion)
  • Der Agent verbessert seine Strategie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly