Cours 10 (IA) Flashcards

Question 1

Q

Qu’est-ce qu’une valeur, comment c’est visible ?

Answer

A

Valeur : Chaque évènement/état possède une valeur : visible par la réponse pavlovienne
Nourriture (innée)
Prédiction de nourriture : cloche (apprise)

Nourriture a une valeur innée et la prédiction de la nourriture a une valeur apprise.

Question 2

Q

Quels sont les deux éléments qui expliquent comment le cerveau attribue cette valeur ?

Answer

A

L’erreur de prédiction (EP)

Les neurones de la dopamine

Question 3

Q

De quoi dépend la croissance de la force associative ? Et de qui vient cette info (les chercheurs) ?

Answer

A

La croissance de la force associative (pairage entre stimulus conditionné (SC) ET inconditionné (SI) dépend de : à quel point le SC prédit le SI ; à quel point le SI n’est plus une surprise.

Ça vient de Rescorla et Wagner

Question 4

Q

Qceque l’erreur de prédiction ?

Answer

A

Écart (surprise) entre :
l’état (évènement) auquel on s’attend : pas de nourriture
et l’état (évènement) qui arrive : nourriture (récompense)
Cet écart se nomme «erreur de prédiction»
=𝑣𝑎𝑙𝑒𝑢𝑟 𝑛𝑜𝑢𝑟𝑟𝑖𝑡𝑢𝑟𝑒 (𝑅) −𝑣𝑎𝑙𝑒𝑢𝑟 𝑖𝑛𝑖𝑡𝑖𝑎𝑙𝑒 𝑐𝑙𝑜𝑐ℎ𝑒 (V)

Question 5

Q

Comment on appelle la réponse pavlovienne au signal qui prédit la récompense ?

Answer

A

attribution de valeur

Question 6

Q

Selon quoi on estime la meilleure action ?

Answer

A

Estimer la meilleur action selon :
L’état vers lequel cette action mène, soit la conséquence ;
et selon l’événement/état dans lequel on est, qui joue le rôle de stimulus discriminatif

Question 7

Q

Qceque représente la politique ?

Answer

A

La politique (𝛑) :
Définit le comportement de l’agent à chaque état/évènement
Centre de l’algorithme

Question 8

Q

Dans la suite d’état-action, la valeur…

Answer

A

est attribuée rétroactivement, à partir de la conséquence : la récompense

Question 9

Q

Attribution de la valeur

Answer

A

Réponse pavlovienne au signal qui produit la récompense