(20) Optimierung & strategische Interaktion Flashcards
Spieltheorie - game theory : Entstehung
- mathematische Form der Spieltheorie seit 1940ern
- populär in Politikwissenschaft seit 1990ern
Einfachste Form eines Spiels
- Matrix für zwei Spieler
- Zeilenspieler
- Kolonnenspieler
- beide agieren simultan (gleichzeitig)
- common knowledge (beide kennen mögliche pay-offs für alle in allen Situationen)
Einfache Spiele: N =
Spieler
Einfache Spiele: Si
für jede i Element N gibt es eine Menge Si (mögliche Strategien)
Einfache Spiele: Ri
jeder Spieler hat rationale Präferenz (Ri) über Ergebnisse
Einfache Spiele: s= {s1, s2,…,si,…,sn}
jeder Spieler hat Strategie, kann als Profil dargestellt werden s= {s1, s2,…,si,…,sn}
Einfache Spiele: Vorgehen
man geht Optionen für beide Spieler durch und erstellt für jeden einzelnen ein Profil
diese Profil wird dann zu einem Gesamtprofil zusammengefügt
Bsp
N = Zeilenspieler, Kolonnenspieler
Sz = {O, U}
Sk = {L,R}
Annahmen: a > e, c > g, b > d, f > h
Rz = O > U
Rk = L > R
Profil: s = {O, L}
Gleichgewicht =
> Ergebnis, bei dem keine endogene Änderung zu erwarten ist → Stabilität(keine Garantie, dass Gleichgewicht existiert, höchstens Wahrscheinlichkeit → mixed strategies)
Dominierte Strategien
> Strategie, die nicht den höchsten Nutzen bringt, unabhängig von Strategien der anderen Spieler
- si* = dominierte Strategie
- u (si*, s_i) ≤ u (si, s_i)
- strikt dominierte Strategie
- u (si*, s_i) < u (si, s_i)
si* =
dominierte Strategie
strikt dominierte Strategie =
u (si*, s_i) < u (si, s_i)
Nash Gleichgewicht =
> Nash Gleichgewicht (s*) ist Profil (s), bei dem man sein Ergebnis nicht dadurch verbessern könnte, wenn man seine Strategie ändert (allenfalls müsste anderer es tun)
≠ pareto-optimaler Zustand
Nash: Zustand für alle könnte besser sein, es hilft mir aber nichts, wenn ich etwas tue
Beste-Antwort-Funktion
best-response-function
- eine Strategie fixieren
- schauen, was anderer Spieler unter dieser Bedingung optimalerweise machen sollte
- Antwort markieren
- so durch alle Spieler mit allen Strategien gehen (alle Permutationen)
- Ergebnis suchen, bei dem sich beste Antworten der Spieler überschneiden → Nash
best response function: Bsp. Gefangenendilemma
bz (k gesteht) = {gestehe}
bz (k schweigt) = {gestehe}
bk (z gesteht) = {gestehe}
bk (z schweigt) = {gestehe}
Nash:
bz (k gesteht) = {gestehe}
bk (z gesteht) = {gestehe}
Nash GG: Vorhersagekraft
- Nash Ggw muss nicht existieren
- Nash Ggw ist steady state
- mehrere Nash Ggw zugleich möglich
Nash GG: Effizienz
- Nash Ggw muss nicht kollektiv effizient sein
- Gefangenendilemma wäre kollektiv effizienter
- ist aber nicht so, weil nur eigener Nutzen in Vordergrund
Iteratives Ausschließen von dominierten Strategien (IAvDS)
- paarweiser Vergleich aller Spalten miteinander
- wenn eine Spalte für alle Spieler schlechter ist als die andere, ist dies dominierte Strategie, kann herausgestrichen werden - paarweiser Vergleich aller Zeilen miteinander
- wieder dominierte Strategie streichen, falls vorhanden
man arbeitet sich durch 1 & 2, bis man dies nicht mehr kann -> Gleichgewicht (kann auch mehrere oder gar keins geben)
Achtung bei IAvDS
- auch Spiel mit mehreren Gleichgewichten (oder keinem) möglich
- IAvDS muss nicht immer funktionieren
Cournot: Ausgangssituation
(weiteres Beispiel für best-response-function)
Ausgangssituation:
- ein Produkt, zwei Firmen
- Firmen entscheiden lediglich Produktionsmenge
- Firmen wollen Gewinn maximieren
- Produktionsmenge → kontinuierliche Handlungsoption, nicht vorgefertigte Kategorien
- Modell illustriert Marktimperfektion (Oligopol)
- beide Firmen haben identische Nutzungsfunktionen
Cournot: c =
Fixkosten pro produzierte Einheit
Cournot: p =
- Preis, fällt mit Menge (q)
p (q1, q2) = {Alpha - qi - qj, if Alpha > q1 + q2, else 0}
Cournot: Alpha =
irgendeine große Zahl
Cournot: πi =
Profit
- πi = qi * p - qi * c → Einsatz p in Gleichung
- πi = qi * (Alpha - qi - qj) - qi * c
Cournot: best response function (Annahmen)
beide Firmen haben identische Nutzungsfunktionen
- Firma i produziert Menge qi, sodass Profit maximal ist gegeben qj
- beste response function: optimales Produktionsvolumen ist abhängig von anderer Firma
Cournot: Vorgehensweise
1) Berechnung des Maximums von Profitformel πi (ist für beide Firmen gleich)
2) Schnittpunkt beider Funktionen (von beiden Unternehmen) berechnen
Cournot: 1) Berechnung des Maximums
πi = qi * (Alpha - qi - qj) - qi * c |Klammer auflösen
πi = Alpha * qi - qi^2 - qi * qj - qi * c |Erste Ableitung bilden
πi’ = Alpha - 2qi - qj - c = 0
zweite Ableitung ist -2, also Maximum
qi = Alpha - qj - c / 2
→ nun ist für jeden Wert von qj, Alpha und c optimale Menge qi bekannt
Cournot: 2) Schnittpunkt beider Funktionen berechnen
qi = Alpha - qj - c / 2
qj = Alpha - qi - c / 2
→ zwei Gleichungen mit zwei Unbekannten lösen
Ergebnis: qi = Alpha - c / 3
Im Cournot-Modell produzieren beide Firmen je Alpha - c / 3.
Der Gewinn ist für beide Firmen je (Alpha - c / 3)^2.
Sequentielle Spiele: Charakteristika
> ermöglichen es, Zeit zu modellieren und Reihenfolge der Spieler zu berücksichtigen
diesmal: nur Vollinformationsspiele (Jeder Spieler kennt alle pay-offs für alle)
Vollinformationsspiele =
Jeder Spieler kennt alle pay-offs für alle
sequentielle Spiele: Bestandteile
- Spielbaum
- Reihe von Gabelungen
- Äste (Handlungen)
- Geschichte (das, was vor meinem Zug gewesen ist)
- Strategie (zeigt an, welche Handlung ein Spieler an jeder Stelle macht)
- ≠ einzelne Aktion
- s1 = {L,R}
- s2 Element {(l,l), (l,r,), (r,l), (r,r)}
- Strategieprofil
- s = {L, (l,l)}
- O (s) = Ergebnis, wenn jeder Spieler seine Strategie spielt si
- Strategieprofil s* ist Nash Gleichgewicht, falls gewählte Strategie ≥ ist gegenüber nicht-Strategie
sequentielle Spiele: Strategie =
- (zeigt an, welche Handlung ein Spieler an jeder Stelle macht)
- ≠ einzelne Aktion
- s1 = {L,R}
- s2 Element {(l,l), (l,r,), (r,l), (r,r)}
O (s*) =
Ergebnis, wenn jeder Spieler seine Strategie spielt si*
Strategieprofil s* ist Nash Gleichgewicht, falls
gewählte Strategie ≥ ist gegenüber nicht-Strategie
SPNE =
Subgame perfect Nash Equlibrium
(Gleichgewichtsverfeinerung für sequentielle Spiele mit Vollinformation)
→ in sequentiellem Spiel ist Strategieprofil (s) ein SPNE, wenn in jedem Sub-Spiel auch ein Nash Equilibrium ist
SPNE: Nash Equilibrium finden:
- sub-Spiele identifizieren
- für alle sub-Spiele Nash-Gleichgewichte identifizieren→ backwards induction (ganz unten bzw. hinten anfangen)
- sich immer weiter nach oben bzw. an den Anfang arbeiten
→ wenn überall Ggw. in Sub-Spielen, dann SPNE