Cours 10 (IA) Flashcards
Qu’est-ce qu’une valeur, comment c’est visible ?
Valeur : Chaque évènement/état possède une valeur : visible par la réponse pavlovienne
Nourriture (innée)
Prédiction de nourriture : cloche (apprise)
Nourriture a une valeur innée et la prédiction de la nourriture a une valeur apprise.
Quels sont les deux éléments qui expliquent comment le cerveau attribue cette valeur ?
L’erreur de prédiction (EP)
Les neurones de la dopamine
De quoi dépend la croissance de la force associative ? Et de qui vient cette info (les chercheurs) ?
La croissance de la force associative (pairage entre stimulus conditionné (SC) ET inconditionné (SI) dépend de : à quel point le SC prédit le SI ; à quel point le SI n’est plus une surprise.
Ça vient de Rescorla et Wagner
Qceque l’erreur de prédiction ?
Écart (surprise) entre :
l’état (évènement) auquel on s’attend : pas de nourriture
et l’état (évènement) qui arrive : nourriture (récompense)
Cet écart se nomme «erreur de prédiction»
=𝑣𝑎𝑙𝑒𝑢𝑟 𝑛𝑜𝑢𝑟𝑟𝑖𝑡𝑢𝑟𝑒 (𝑅) −𝑣𝑎𝑙𝑒𝑢𝑟 𝑖𝑛𝑖𝑡𝑖𝑎𝑙𝑒 𝑐𝑙𝑜𝑐ℎ𝑒 (V)
Comment on appelle la réponse pavlovienne au signal qui prédit la récompense ?
attribution de valeur
Selon quoi on estime la meilleure action ?
Estimer la meilleur action selon :
L’état vers lequel cette action mène, soit la conséquence ;
et selon l’événement/état dans lequel on est, qui joue le rôle de stimulus discriminatif
Qceque représente la politique ?
La politique (𝛑) :
Définit le comportement de l’agent à chaque état/évènement
Centre de l’algorithme
Dans la suite d’état-action, la valeur…
est attribuée rétroactivement, à partir de la conséquence : la récompense
Attribution de la valeur
Réponse pavlovienne au signal qui produit la récompense