Simulation Flashcards

1
Q

Motivation Simulation

A
  • Optimale Lösungen durch rekursive Berechnung der Werte
  • Höhere Problemkomplexität erschwert Berechnung
  • Komplexitäten:
    • Zustandsraum (Berechnung der Werte für jeden Zustand)
    • Erwartungswert (Berücksichtigung aller Transitionen)
    • Entscheidungsraum (Berücksichtigung aller Entscheidungen)
  • Idee: Abschätzung der Wertefunktion
  • Wie kann die Wertefunktion angenähert werden?
  • Simulationsverfahren: Simulation ermöglicht implizite Abbildung der Transitionen und Wahrscheinlichkeiten

Simulation im Markov-Entscheidungsprozess:

  • Eine simulierte Realisierung ordnet jedem Nach-Entscheidungs-Zustand genau einen neuen Zustand zu
  • Politik+Realisierung ergibt genau einen Pfad durch den Prozess
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Definition Simulation

A
  • Definition: Simulation is the imitation of the operation of a real-world process or system over time. (Banks et al. 1996)
  • Verwendung zur:
    • Beschreibung und Analyse des Verhaltens eines Systems
    • Beantwortung von what-if Fragen des realweltlichen Systems
    • Unterstützung beim Gestalten von realweltlichen Systemen
  • System wird für die Simulation durch ein Simulationsmodell dargestellt
  • In Simulationen wird das Modell numerisch evaluiert
  • Unterscheidung zwischen diskreten und kontinuierlichen Modellen
  • Diskret: Zustandsvariable ändert sich nur zu bestimmten diskreten Zeitpunkten
  • Häufig im betriebswirtschaftlichen Kontext
  • Beispiel: Kundenanfragen
  • Kontinuierlich: Zustandsvariablen ändern sich kontinuierlich über die Zeit
  • Häufig in der Physik und Biologie
  • Differentialgleichungen
  • Beispiel: Wettersimulation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Discrete-Event-Simulation

A
  • umfasst die Modellierung eines Systems, welches sich über die Zeit entwickelt
  • Entwicklung wird durch die Veränderung der Zustandsvariablen zu bestimmten Zeitpunkten dargestellt
  • Zeitpunkt hier ist der Eintritt eines Ereignisses, z.B. Ankunft einer neuen Kundennachfrage
  • Update des Zustands des Systems bei jedem Ereignis
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Simulation Vorteile und Nachteile

A
  • Vorteile:
    • numerische Lösung komplexer realweltlicher Systeme
    • besseres Verständnis des Systems
    • neue Politiken, Entscheidungsregeln, Informationsflüsse usw. können analysiert/getestet werden ohne das realweltliche System zu unterbrechen
    • Eintritt bestimmter Phänomene kann genauer betrachtet werden
    • Dehnung oder Raffung der Zeit möglich
  • Nachteile:
    • Stochastische Simulation ermöglicht nur Schätzungen
    • Durchführung und Analyse zeitaufwendig und kostenintensiv
    • Interpretation der Ergebnisse kann schwierig sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Online Simulation im Markov Entscheidungsprozess

A
  • Idee: Nutzen von Simulation zur Abschätzung der Wertefunktion und zur Evaluierung von Entscheidungen
  • Simulation spiegelt Transitionen und Entscheidungen im Markov Entscheidungsprozess wider
  • Eine Realisierung ordnet jedem Nach-Entscheidungs-Zustand genau einen neuen Zustand zu

Simulation zur Abschätzung der Wertefunktion:

  • Online: Ausgehend von einem spezifischen Zustand
  • Simuliere Zukunft in vollem Detail
  • Entscheide innerhalb der Simulation mit Basispolitik
  • Erhalte realisierte Werte
  • Nutze die Werte als Abschätzung der Wertefunktion
  • „Forward Programming“

Reduzierung der Komplexität:

  • Komplexitäten („Curses of Dimensionality“):
  • Zustandsraum (Berechnung der Werte für jeden Zustand)
  • Erwartungswert (Berücksichtigung aller Transitionen)
  • Entscheidungsraum (Berücksichtigung aller Entscheidungen)
  • Reduktion durch Online Simulation:
  • Zustandsraum: Wert wird allein für den aktuellen Zustand berechnet
  • Erwartungswert: Menge an 𝐿Realisierungen 𝜔1,…,𝜔𝐿
  • Entscheidungsraum: Basispolitik 𝜋𝑏
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Rollout Algorithmus

A
  • Gegeben sei Zustand 𝑆𝑘 und eine Menge an potentiellen Entscheidungen 𝑋(𝑆𝑘)
  • Generiere Nach-Entscheidungszustände 𝑆𝑘𝑥1,𝑆𝑘𝑥2,𝑆𝑘𝑥3,…
  • Für jeden Nachentscheidungszustand 𝑆𝑘𝑥:
    • Simuliere 𝐿Pfade (Realisierung+Politik)
    • Entscheidungen innerhalb der Simulation: Basispolitik 𝜋𝑏
    • Erhalte 𝐿Ergebnisse
    • Setze Wert 𝑉(𝑆𝑘𝑥)als Mittelwert der Ergebnisse
  • Wähle Entscheidung 𝑥, die 𝑅 𝑆𝑘,𝑥 + 𝑉(𝑆𝑘𝑥)maximiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Reduktion des Entscheidungsraumes

A
  • Zu-/Absage: 2 Entscheidungen
  • Routing: noch 𝑛Kunden in der Tour, 1 Anfrage: Bis zu (𝑛+
  • 1)!Möglichkeiten
  • Reduktion:
    • Explizite Entscheidung über Zu- und Absage
    • Routing-Heuristik: Beibehaltung der aktuellen Tour und Einfügen an günstigster Stelle

Zu-/Absagen und Wertefunktionen:

  • Die Annahme eines Auftrages reduziert die zur Verfügung stehenden Ressourcen zukünftige Aufträge zu bedienen. (Wert sinkt)
  • Frage: Ist es wert einen Auftrag anzunehmen?
  • Sinnvoll,
    • Wenn Ressourcenreduktion gering
    • Wenn durch Ressourceninvestition zukünftige Aufträge effizienter zu bedienen sind (Abdeckung)

2 Entscheidungspolitiken:

  • Myopic (Kurzsichtig):
    • Wertefunktion wird auf 0 gesetzt
    • Maximierung des sofortigen Nutzen
    • Kunden wird stets zugesagt, solange sie bedient werden können
  • Online Simulation: Rollout Algorithmus
    • Für jeden der zwei Nachentscheidungszustände
    • Simuliere den Rest des Tages
    • Nutze die myopic Politik als Basispolitik
    • Anzahl der Simulationsläufe 𝐿=16
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Nachteile der Online-Simulation

A
  • Stark limitierte Laufzeit
  • Keine verlässliche Simulation:
    • Wenige, gesampelte Realisierungen
    • „Suboptimale“ Entscheidungen in der Simulation
  • Fehler vergrößert sich über den Simulationsverlauf durch suboptimale Entscheidungen und angenommene Realisierungen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Simulationshorizont

A
  • Idee: Abschneiden der Simulation nach einer bestimmten Anzahl 𝐻 Entscheidungspunkten
  • Erwartet: Tradeoff zwischen Antizipation und Verlässlichkeit
    • Je länger der Simulationshorizont, desto mehr wird antizipert
    • Je kürzer der Simulationshorizont, desto verlässlicher ist die Simulation
  • Anpassung der Bellman-Gleichung
  • Simulation von höchstens 𝐻 Entscheidungspunkten
  • 𝐻 =0: myopic, 𝐻 =∞: Komplette Simulation bis zum Ende
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Zusammenfassung Simulation

A
  • Markov Entscheidungsprozesse sind oft zu komplex, um sie exakt zu lösen
  • Idee: Nutzung von Online Simulation zur Abschätzung der Wertefunktion
  • Simulation basiert auf Realisierungen und einer Basispolitik
  • Nachteile der Simulation
    • Laufzeit ist limitiert
    • Basispolitik führt zu suboptimalen Entscheidungen in der Simulation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly