Offline Simulationsverfahren Flashcards
1
Q
Reinforcement Learning
A
- Nur Input wird bereitgestellt
- Verfahren bewertet/lernt Güte der Entscheidungvselbst
- Anwendung, wenn „richtige“ Entscheidung nicht offensichtlich
- Beispiel GO: Verfahren entdeckt neue Strategien
- Generelle Prozedur:
- Simuliere Pfad (Entscheidungen+Realisierungen)
- „Merke“ Beobachtungen
- Simuliere erneut
- Nutze Beobachtungen für die nächste Entscheidungs- findung
Zwei Wege des Reinforcement Learning
- „Direkter“ Weg:
- Lernen der Zuordnung von Zustand zu Entscheidung
- Häufig bei
- niedrig-dimensionalen Zuständen
- wenig Entscheidungen
- Beispiel:
- Zustand: Zeitpunkt
- Entscheidung: Springen oder nicht
- „Indirekter“ Weg:
- Lernen der Werte für (Nach-Entscheidungs)-Zustände
- Anwendung der Bellman Gleichung
- Komplexe Zustandsräume
- Viele mögliche Entscheidungen
2
Q
Wertefunktions-Approximation
A
- Lernphase: Simuliere offline, aktualisiere Werte nach jedem Simulationslauf
- Umsetzung: Ordne online Zuständen die offline Werte zu
- Values: Werte der Zustände
- Simulation: Pfad mit Realisierungen
- Wenn in einem Zustand, anfrage der Werte für sämtlich mögliche Nach-Entscheidungs-Zustände
- Auswahl mittels Bellman Gleichung
- Fortsetzung des Pfades
- Anschließend Aktualisierung der beobachteten Werte
Algorithmus
- Gegeben sei die Nach-Entscheidungs-Zustandsmenge 𝑺𝒙
- Für jeden 𝑆𝑥 ∈ 𝑺𝒙 : Setze einen initialen Wert 𝑉0(𝑆𝑥)
- Simuliere 𝑁Pfade (Realisierung+Politik)
- In Pfad 𝑛:
- Entscheidungen innerhalb der Simulation in Zustand 𝑆: Bellman Gleichung: max𝑅(𝑆,𝑥) + 𝑉𝑛−1(𝑆𝑥)
- Speichere beobachtete 𝑆𝑥 und zugehörige realisierte Werte 𝑉(𝑆𝑥)
- Nach Pfad 𝑛: Aktualisiere 𝑉𝑛 𝑆𝑥 =(1−𝛼𝑛)𝑉𝑛−1 𝑆𝑥 +𝛼𝑛𝑉(𝑆𝑥)
- Schrittgröße 𝛼𝑛
- zum Beispiel 𝛼𝑛 =1/n(Mittelwert)
- In Pfad 𝑛:
- Nach 𝑁Pfaden erhalten wir (hoffentlich) Werte nah an den optimalen Werten
Nachteile:
- Wert für jeden Nach-Entscheidungs-Zustand muss gespeichert werden
- Hoher Speicheraufwand (akzeptabel)
- Je mehr Werte, desto schwieriger ist die Approximation
- Wenig Beobachtungen
- Falsche Entscheidungen, falsche Pfade, falsche Werte (nicht akzeptabel)
- „Teufelskreis“: Falsche/Fehlende Werte führen zu falschen Werten
3
Q
(Nach-Entscheidungs-) Zustandsraum-Reduktion
A
- Anstelle des gesamten Raumes werden (Nach-Entscheidungs-)Zustände zusammengefasst
- „Ähnliche“ Zustände bekommen den gleichen Wert
- Zusammenfassen durch
- Aggregation
- Ignorieren von Attributen
- Tradeoff zwischen Detail und Verlässlichkeit
- Bias: Heterogene Zustände werden gleich bewertet
- Reliability: Nicht ausreichend viele Beobachtungen
- Simulation bleibt im vollen Detail
- Aggregation geschieht allein beim Zugriff auf die Werte
4
Q
Tradeoff: Online vs Offline
A
- Eine Kombination von online und offline Simulation könnte die Vorteile ausnutzen und die Nachteile abmildern
- Idee: Nutzung der Offline-Entscheidungspolitik als Basispolitik der Online Simulation
- →Offline-Online Simulation
5
Q
Zusammenfasung Offline Simulation
A
- Online Simulation hat Nachteile bezüglich Entscheidungsfindung in der Simulation und Laufzeit
- Offline Simulationsverfahren lernen über die Simulationsläufe die Entscheidungsgüte
- Die Wertefunktions-Approximation nutzt die aktuellen Werte zur Entscheidungsfindung und aktualisiert diese anschließend
- Zur Durchführung ist eine Zustandsraum-Reduktion notwendig
- Eine Kombination aus Online und Offline Simulation ermöglicht die Ausnutzung der jeweiligen Vorteile