Megerősítéses tanulás Flashcards
Hogyan szól a megerősítéses tanulás definíciója?
A megerősítéses tanulás egy interaktív tanulási módszer, ahol az ágens a környezettel való kölcsönhatásban megtanulja az optimális döntéseket a jutalom maximalizálása érdekében.
Írja le koncepcionális szinten a megerősítéses tanulás működését. Miként interaktál az ágens a környezetével?
A megerősítéses tanulás során az ágens interaktál a környezettel, döntéseket hoz és akciókat hajt végre. A környezet visszajelzést ad az ágensnek a teljesítményéről, amely alapján az ágens tanul és frissíti a döntéshozó mechanizmusát. Az ágens célja az optimális stratégia megtalálása, amely maximalizálja a hosszú távú jutalmat. A tanulási folyamat adaptív és iteratív, az ágens tapasztalatokat szerezve fejlődik és alkalmazkodik a környezethez.
Mit értünk Marköv döntési folyamat alatt és mik az alapvető alkotó elemei?
MDP (Markov Decision Process) egy matematikai keretrendszer, amelyben az állapotok és az akciók meghatározzák a döntésekkel járó időbeli következményeket és jutalmakat. Csak az előző állapoton alapszik.
* (S, A, R, P, γ)
* S – states
A – actions
R – reward function
P – state transition probabilities
γ – discount factor γ ∈ [0, 1]
Mit értünk policy függvény alatt a megerősítéses tanuláshoz kapcsolódóan?
A policy függvény a megerősítéses tanulásban a döntéshozatali stratégiát jelöli, vagyis azt, hogy az ágens milyen akciót választ az adott állapotban.
Mit értünk value és quality függvény alatt a megerősítéses tanuláshoz kapcsolódóan?
Value függvény: Az állapotok vagy állapot-akció párosokhoz rendelt várható jutalmat vagy hasznot jelenti a megerősítéses tanulásban.
Quality függvény: Az akciók minőségét vagy értékét jelöli az adott állapotban a megerősítéses tanulás során.
Hogyan tudjuk összegezni a lépések után járó jutalmakat a megerősítéses tanulás visszacsatolásához?
A lépések után járó jutalmakat a megerősítéses tanulás során összegezhetjük a visszacsatolás számításához. Ezt gyakran a visszatérési érték (return) vagy a várható jutalom (expected reward) koncepciója alapján tesszük. Az összegzést általában a jutalmak diszkontált összegeként végezzük, ahol a jutalmaknak súlyozott összegeként kezeljük őket, ahol a jövőbeli jutalmaknak kisebb súlyt adunk a távoli időpillanatokban.
Hogyan működik a gamma (γ) jutalmak összegzésekor?
A gamma (γ) az időbeli jutalmak diszkontálására szolgál a megerősítéses tanulásban, ahol magasabb érték esetén nagyobb súlyt kapnak a távolabbi jutalmak, míg alacsonyabb érték esetén inkább a rövid távú jutalmak dominálnak.
Mit jelent a felderítés és kiaknázás a megerősítéses tanuláshoz kapcsolódóan?
Felderítés: Az ágens aktív módon kutatja a környezetét, hogy új információkat és tapasztalatokat szerezzen, még akkor is, ha ez rövid távon alacsonyabb jutalommal jár.
Kiaknázás: Az ágens a meglévő ismeretei alapján döntéseket hoz, amelyek alapján a legnagyobb várható jutalmat várja. A kiaknázás során az ágens maximálisan használja a már ismert legjobb lehetőségeket.
Hogyan szabályozza az ε értéke a felderítés és kiaknázás közötti eloszlást?
Az ε (epsilon) értéke a felderítés és kiaknázás közötti egyensúlyt szabályozza a megerősítéses tanulásban, ahol magas ε érték esetén nagyobb valószínűséggel történik felderítés, míg alacsony ε érték esetén inkább kiaknázás dominál.
Írja le a Bellman egyenlet lényegét és formalizálja is.
A Bellman egyenlet a megerősítéses tanulásban azt fejezi ki, hogy egy állapot vagy állapot-akció páros értéke az azonnali jutalom és a következő állapot (vagy állapot-akció páros) várható értéke között van összefüggésben. Ez az egyenlet a megerősítéses tanulásban az értékbecslés alapjául szolgál.