Week 7 : Matching Law Flashcards
Loi de l’effet
Thorndike (1913)
Tout comportement suivi d’une conséquence bénéfique aura tendance à être reproduit, alors qu’un comportement avec une conséquence nuisible aura tendance à être abandonné.
Boîte de Skinner
Pour ses études laboratoire, Skinner a utilisé les boîtes de Skinner : avec un rat et des stimuli (sons, lumières), un bouton et un distributeur de nourriture pour donner l’agent renforçateur, ainsi qu’un planché électrifiable dans le cas d’une dispense d’un stimulus aversif.
- Le stimulus provoque une réponse, qui produit une conséquence
Conditionnement opérant
Stimulus → réponse ⟷ conséquence
- La contingence^ de renforcement représente la relation entre les stimuli qui entraînent une réponse, qui entraîne des conséquences (appétitives ou aversives) et qui vont jouer en retour sur la probabilité de la réponse.
Seuls les comportements observables sont étudiés. Les comportements nonobservables suivraient les mêmes lois mais on n’y a pas accès.
^possibility
Renforcement et punision
Renforcement : Lorsque la fréquence d’un comportement augmente. L’agent renforçateur est la conséquence du comportement.
- Renforcement positif (social) : on ajoute un stimulus appétitif.
- Renforcement négatif : on retire un stimulus avérsif.
Punision : Lorsque la fréquence d’un comprotement diminue. L’agent punisseur est la conséquence du comportement.
- Punition positive : on ajoute un stimulus aversif.
- Punition négative : on retire un stimulus appétitif.
Il y a renfrocement uniquement si le comportement est modifié (e.i. son effet est mesurable).
Un comportement ne doit pas être renforcé à chaque occurrence pour être maintenu. De manière naturelle les renforcements deviennent de moins en moins fréquents (=augmenter les ratios ou les intervalles).
Dans ce cours, on étudie seulement l’agent renforçateur
Les programmes de renforcement
Un programme de renforcement est une règle gouvernant la distribution des renforçateurs. Il en existe deux types:
- Programmes de renforcement continu : quand les renforçateurs sont distribués après chaque occurrence du comportement.
- Programmes de renforcement intermittent : quand les renforçateurs ne suivent pas systématiquement les réponses cibles.
Parmi les programmes intermittent, on distingue les programmes à ratio et les programmes à intervalle:
- Programmes à ratio : Ils sont fondés sur le nombre de fois où le comportement apparaît. Un certain nombre de réponses est associé à chaque renforçateur. Soit ce nombre de réponses est fixe (FR), soit il est variable autour d’une moyenne (VR).
- Programmes à intervalle : Un nouveau renforçateur arrive seulement après qu’un certain intervalle de temps s’est passé suite à l’obtention du dernier renforçateur. Soit l’intervalle est fixe (FI), soit il est variable autour d’une moyenne (VI).
Par exemple, FR-5 = il faut donner un comportement 5 fois avant recevoir un renforcement. Enre une bouton de FR-5 et un de FR25, le sujet va pousser 5 fois plus souvent le bouton de FR-5.
Chaque programme induit des conséquences spécifiques sur les comportement. Il existe d’autres programmes de renforcement. En milieu naturel, il y a toujours des programmes concurrents, pour des comportements différents. Nous devons donc faire un choix.
The matching law
C’est l’étude du choix comme un comportement observable. Il y a souvent un très grand nombre de possibilités de comportements à émettre, chacun produisant ses propres conséquences. En laboratoire, on utilise un programme de renforcement concurrent, lorsque plusieurs programmes sont à l’œuvre simultanément et que l’individu est libre de changer de comportement (et de programme de renforcement).
On utilise les taux de réponses relatifs, pour quantifier le choix pour une réponse, par rapport à une autre
- Quand il y a 2 réponses possibles : B1/(B1+B2)
- Quand il y a plus que 2 réponses possibles : B1/(B1+B.autre)
- Ex. si on réponde 4 fois sur une choix que 3 d’autre : 4/(4+1+1+1) = 0.57. Son taux de réponse pour cette réponse est 57%.
De même manière, on utilise les taux de renforcement relatifs, pour quantifier le renforcement obtenu pour une réponse, par rapport à celui obtenu pour une autre réponse.
- Quand il y a 2 programmes opérants : R1/(R1+R2)
- Quand il y a plus que 2 programmes opérants : R1/(R1+R.autre)
Alors, l’individu fait ses choix en fonction de tous les programmes de renforcement en place :
- B1/(B1+B.autre) = R1/(R1+R.autre)
Il existe une relation linéaire, de pente 1 (c-à-d y=x et pas y=2x ou y=3x) entre le taux de réponses relatif et le taux de renforcement relatif.