Cours 10 (IA) Flashcards

1
Q

Qu’est-ce qu’une valeur, comment c’est visible ?

A

Valeur : Chaque évènement/état possède une valeur : visible par la réponse pavlovienne
Nourriture (innée)
Prédiction de nourriture : cloche (apprise)

Nourriture a une valeur innée et la prédiction de la nourriture a une valeur apprise.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quels sont les deux éléments qui expliquent comment le cerveau attribue cette valeur ?

A

L’erreur de prédiction (EP)

Les neurones de la dopamine

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

De quoi dépend la croissance de la force associative ? Et de qui vient cette info (les chercheurs) ?

A

La croissance de la force associative (pairage entre stimulus conditionné (SC) ET inconditionné (SI) dépend de : à quel point le SC prédit le SI ; à quel point le SI n’est plus une surprise.

Ça vient de Rescorla et Wagner

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qceque l’erreur de prédiction ?

A

Écart (surprise) entre :
l’état (évènement) auquel on s’attend : pas de nourriture
et l’état (évènement) qui arrive : nourriture (récompense)
Cet écart se nomme «erreur de prédiction»
=𝑣𝑎𝑙𝑒𝑢𝑟 𝑛𝑜𝑢𝑟𝑟𝑖𝑡𝑢𝑟𝑒 (𝑅) −𝑣𝑎𝑙𝑒𝑢𝑟 𝑖𝑛𝑖𝑡𝑖𝑎𝑙𝑒 𝑐𝑙𝑜𝑐ℎ𝑒 (V)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Comment on appelle la réponse pavlovienne au signal qui prédit la récompense ?

A

attribution de valeur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Selon quoi on estime la meilleure action ?

A

Estimer la meilleur action selon :
L’état vers lequel cette action mène, soit la conséquence ;
et selon l’événement/état dans lequel on est, qui joue le rôle de stimulus discriminatif

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qceque représente la politique ?

A

La politique (𝛑) :
Définit le comportement de l’agent à chaque état/évènement
Centre de l’algorithme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Dans la suite d’état-action, la valeur…

A

est attribuée rétroactivement, à partir de la conséquence : la récompense

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Attribution de la valeur

A

Réponse pavlovienne au signal qui produit la récompense

How well did you know this?
1
Not at all
2
3
4
5
Perfectly