Offline Simulationsverfahren Flashcards

1
Q

Reinforcement Learning

A
  • Nur Input wird bereitgestellt
  • Verfahren bewertet/lernt Güte der Entscheidungvselbst
  • Anwendung, wenn „richtige“ Entscheidung nicht offensichtlich
  • Beispiel GO: Verfahren entdeckt neue Strategien
  • Generelle Prozedur:
    • Simuliere Pfad (Entscheidungen+Realisierungen)
    • „Merke“ Beobachtungen
    • Simuliere erneut
    • Nutze Beobachtungen für die nächste Entscheidungs- findung

Zwei Wege des Reinforcement Learning

  • „Direkter“ Weg:
    • Lernen der Zuordnung von Zustand zu Entscheidung
  • Häufig bei
    • niedrig-dimensionalen Zuständen
    • wenig Entscheidungen
  • Beispiel:
    • Zustand: Zeitpunkt
    • Entscheidung: Springen oder nicht
  • „Indirekter“ Weg:
    • Lernen der Werte für (Nach-Entscheidungs)-Zustände
  • Anwendung der Bellman Gleichung
  • Komplexe Zustandsräume
  • Viele mögliche Entscheidungen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wertefunktions-Approximation

A
  • Lernphase: Simuliere offline, aktualisiere Werte nach jedem Simulationslauf
  • Umsetzung: Ordne online Zuständen die offline Werte zu
  • Values: Werte der Zustände
  • Simulation: Pfad mit Realisierungen
  • Wenn in einem Zustand, anfrage der Werte für sämtlich mögliche Nach-Entscheidungs-Zustände
  • Auswahl mittels Bellman Gleichung
  • Fortsetzung des Pfades
  • Anschließend Aktualisierung der beobachteten Werte

Algorithmus

  • Gegeben sei die Nach-Entscheidungs-Zustandsmenge 𝑺𝒙
  • Für jeden 𝑆𝑥 ∈ 𝑺𝒙 : Setze einen initialen Wert 𝑉0(𝑆𝑥)
  • Simuliere 𝑁Pfade (Realisierung+Politik)
    • In Pfad 𝑛:
      • Entscheidungen innerhalb der Simulation in Zustand 𝑆: Bellman Gleichung: max𝑅(𝑆,𝑥) + 𝑉𝑛−1(𝑆𝑥)
      • Speichere beobachtete 𝑆𝑥 und zugehörige realisierte Werte 𝑉(𝑆𝑥)
    • Nach Pfad 𝑛: Aktualisiere 𝑉𝑛 𝑆𝑥 =(1−𝛼𝑛)𝑉𝑛−1 𝑆𝑥 +𝛼𝑛෠𝑉(𝑆𝑥)
    • Schrittgröße 𝛼𝑛
    • zum Beispiel 𝛼𝑛 =1/n(Mittelwert)
  • Nach 𝑁Pfaden erhalten wir (hoffentlich) Werte nah an den optimalen Werten

Nachteile:

  • Wert für jeden Nach-Entscheidungs-Zustand muss gespeichert werden
  • Hoher Speicheraufwand (akzeptabel)
  • Je mehr Werte, desto schwieriger ist die Approximation
  • Wenig Beobachtungen
    • Falsche Entscheidungen, falsche Pfade, falsche Werte (nicht akzeptabel)
    • „Teufelskreis“: Falsche/Fehlende Werte führen zu falschen Werten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

(Nach-Entscheidungs-) Zustandsraum-Reduktion

A
  • Anstelle des gesamten Raumes werden (Nach-Entscheidungs-)Zustände zusammengefasst
  • „Ähnliche“ Zustände bekommen den gleichen Wert
  • Zusammenfassen durch
    • Aggregation
    • Ignorieren von Attributen
  • Tradeoff zwischen Detail und Verlässlichkeit
  • Bias: Heterogene Zustände werden gleich bewertet
  • Reliability: Nicht ausreichend viele Beobachtungen
  • Simulation bleibt im vollen Detail
  • Aggregation geschieht allein beim Zugriff auf die Werte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tradeoff: Online vs Offline

A
  • Eine Kombination von online und offline Simulation könnte die Vorteile ausnutzen und die Nachteile abmildern
  • Idee: Nutzung der Offline-Entscheidungspolitik als Basispolitik der Online Simulation
  • →Offline-Online Simulation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Zusammenfasung Offline Simulation

A
  • Online Simulation hat Nachteile bezüglich Entscheidungsfindung in der Simulation und Laufzeit
  • Offline Simulationsverfahren lernen über die Simulationsläufe die Entscheidungsgüte
  • Die Wertefunktions-Approximation nutzt die aktuellen Werte zur Entscheidungsfindung und aktualisiert diese anschließend
  • Zur Durchführung ist eine Zustandsraum-Reduktion notwendig
  • Eine Kombination aus Online und Offline Simulation ermöglicht die Ausnutzung der jeweiligen Vorteile
How well did you know this?
1
Not at all
2
3
4
5
Perfectly