Megerősítéses tanulás Flashcards

1
Q

Hogyan szól a megerősítéses tanulás definíciója?

A

A megerősítéses tanulás egy interaktív tanulási módszer, ahol az ágens a környezettel való kölcsönhatásban megtanulja az optimális döntéseket a jutalom maximalizálása érdekében.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Írja le koncepcionális szinten a megerősítéses tanulás működését. Miként interaktál az ágens a környezetével?

A

A megerősítéses tanulás során az ágens interaktál a környezettel, döntéseket hoz és akciókat hajt végre. A környezet visszajelzést ad az ágensnek a teljesítményéről, amely alapján az ágens tanul és frissíti a döntéshozó mechanizmusát. Az ágens célja az optimális stratégia megtalálása, amely maximalizálja a hosszú távú jutalmat. A tanulási folyamat adaptív és iteratív, az ágens tapasztalatokat szerezve fejlődik és alkalmazkodik a környezethez.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mit értünk Marköv döntési folyamat alatt és mik az alapvető alkotó elemei?

A

MDP (Markov Decision Process) egy matematikai keretrendszer, amelyben az állapotok és az akciók meghatározzák a döntésekkel járó időbeli következményeket és jutalmakat. Csak az előző állapoton alapszik.
* (S, A, R, P, γ)
* S – states
A – actions
R – reward function
P – state transition probabilities
γ – discount factor γ ∈ [0, 1]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Mit értünk policy függvény alatt a megerősítéses tanuláshoz kapcsolódóan?

A

A policy függvény a megerősítéses tanulásban a döntéshozatali stratégiát jelöli, vagyis azt, hogy az ágens milyen akciót választ az adott állapotban.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mit értünk value és quality függvény alatt a megerősítéses tanuláshoz kapcsolódóan?

A

Value függvény: Az állapotok vagy állapot-akció párosokhoz rendelt várható jutalmat vagy hasznot jelenti a megerősítéses tanulásban.

Quality függvény: Az akciók minőségét vagy értékét jelöli az adott állapotban a megerősítéses tanulás során.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hogyan tudjuk összegezni a lépések után járó jutalmakat a megerősítéses tanulás visszacsatolásához?

A

A lépések után járó jutalmakat a megerősítéses tanulás során összegezhetjük a visszacsatolás számításához. Ezt gyakran a visszatérési érték (return) vagy a várható jutalom (expected reward) koncepciója alapján tesszük. Az összegzést általában a jutalmak diszkontált összegeként végezzük, ahol a jutalmaknak súlyozott összegeként kezeljük őket, ahol a jövőbeli jutalmaknak kisebb súlyt adunk a távoli időpillanatokban.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hogyan működik a gamma (γ) jutalmak összegzésekor?

A

A gamma (γ) az időbeli jutalmak diszkontálására szolgál a megerősítéses tanulásban, ahol magasabb érték esetén nagyobb súlyt kapnak a távolabbi jutalmak, míg alacsonyabb érték esetén inkább a rövid távú jutalmak dominálnak.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Mit jelent a felderítés és kiaknázás a megerősítéses tanuláshoz kapcsolódóan?

A

Felderítés: Az ágens aktív módon kutatja a környezetét, hogy új információkat és tapasztalatokat szerezzen, még akkor is, ha ez rövid távon alacsonyabb jutalommal jár.

Kiaknázás: Az ágens a meglévő ismeretei alapján döntéseket hoz, amelyek alapján a legnagyobb várható jutalmat várja. A kiaknázás során az ágens maximálisan használja a már ismert legjobb lehetőségeket.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hogyan szabályozza az ε értéke a felderítés és kiaknázás közötti eloszlást?

A

Az ε (epsilon) értéke a felderítés és kiaknázás közötti egyensúlyt szabályozza a megerősítéses tanulásban, ahol magas ε érték esetén nagyobb valószínűséggel történik felderítés, míg alacsony ε érték esetén inkább kiaknázás dominál.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Írja le a Bellman egyenlet lényegét és formalizálja is.

A

A Bellman egyenlet a megerősítéses tanulásban azt fejezi ki, hogy egy állapot vagy állapot-akció páros értéke az azonnali jutalom és a következő állapot (vagy állapot-akció páros) várható értéke között van összefüggésben. Ez az egyenlet a megerősítéses tanulásban az értékbecslés alapjául szolgál.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly