Cours 8 Renforcement Et Extinction Flashcards
Les programmes de renforcement (les 2 sortes)
Programme de renforcement : désigne la réponse nécessaire pour obtenir un renforcement. Est-ce que le rat doit appuyer 1, deux fois… sauter
2 sortes de programme de renforcement:
Programme de renforcement continu : chaque réponse spécifique est renforcée. (Chaque fois qu’il appuie sur le levier = nourriture, chaque fois qu’Il fait quelque chose, il y a une réponse)
Programme de renforcement intermittent : seules certaines réponses sont renforcées. (Pas toutes les réponses sont renforcées, pas toujours nourriture)
(4 types)
Les 4 programmes intermittents de base
Chacun produit un mode de réponse caractéristique= les comportements stabilisés
- Programme à proportion fixe (PF n)
- Programme à proportion variable (PV n)
- Programme à intervalle fixe (IF n)
- Programme à intervalle variable (IV n)
1) Programme à proportion fixe (PF n)
Le renforcement est fonction d’un nombre n de réponses prévisibles et fixes. Ex. PF5, PF10, PF1 (ex: 4 coups de levier pour de la nourriture = PF4)
Engendre un débit de réponse rapide et l’animal prendra une courte pause après l’obtention de chaque renforçateur (= pause après renforcement)
Le graphique: 4 coups rapide, il arrête (pause renforcement), meilleure façon de dépenser le moins d’énergie et d’obtenir le plus de renforçateurs (la pause c’est pour avoir un peu plus d’énergie, car sinon épuisement)
Un programme est considéré comme très dense ou très riche lorsque le renforçateur s’avère facile à obtenir. Ex. un PF5 (vs un PF100) en 1h avec pf5 = beaucoup plus de renforçateurs qu’avec PF100
L’étirement de la proportion (de dense à moins dense) doit se faire graduellement. Car sinon le rat va être mélanger et le comportement va être bizarre
Tension de ratio (épuisement professionnel) : perturbation de la réponse suite à une demande de réponse trop exigeante. (ex, PF3000) (si le rat doit appuyer 3000 fois avant de recevoir de la nourriture, il va s’épuiser) l’enfant qui doit fabriquer des soulier s’épuise pour 1$ par jour
2) Programme à proportion variable (PV n)
Le renforcement est fonction d’un nombre moyen n de réponses, mais le nombre actuel varie et est donc imprévisible.
ex: PV4 = en moyenne c’est 4, pas fixe mais moyen, donc parfois 10, des fois 1…
Engendre typiquement un débit de réponse rapide et stable, souvent avec peu de pauses (voire aucune) après l’obtention de chaque renforçateur
Peut faciliter l’établissement d’une relation marquée par la violence.
ex: Une relation commence avec renforcement (pv2 pv3…)
De plus en plus que la relation avance, devient intermittent Et donc l’attention s’étire vers 20…30. La femme va donner plus d’attention à l’homme afin que celui-ci lui en donne plus, mais lui ça fait juste renforcer son comportement. Plus il montre de désintérêt plus il a de l’attention et cela renforce le comportement de désintérêt de l’homme.
3) Programme à intervalle fixe (IF n)
Le renforcement est fonction de la première réponse donnée après une période de temps fixe et prévisible (c.-à-d., un intervalle de n secondes).
ex: IF10 = dans les 10 secondes après son comportement, il ne faut rien faire car il ne va rien arriver. Après 10 secondes, il peut arriver quelque chose.
Un programme IF engendre typiquement un mode de réponse ondulant, soit une courbe orientée vers le haut
If10= faut que 10 secondes s’écoulent pour avoir du renforcement. Au fil du temps le rat comprend le 10 secondes et commence à faire le comportement au 10 secondes
4) Programme à intervalle variable (IV n)
Le renforcement est fonction de la première réponse donnée après un intervalle moyen de n secondes, la période variant d’un essai à l’autre et étant donc imprévisible. Pas de pauses, on ne veut pas perdre de l’énergie donc constance
Engendre typiquement un débit de réponse stable et modéré, souvent avec peu ou pas de pauses après l’obtention de chaque renforçateur
Comme ce programme entraine un débit de réponse prévisible, il sert souvent à l’étude d’autres facettes du conditionnement opérant, comme le choix entre diverses sources de renforcement. (cours 10) plus lent comme débit
Délais de réponse et pauses après l’obtention du renforcement
PF: Délais de réponse rapide
PV: Délais de réponse rapide
IF: Délais de réponse croissant
IV: Délais de réponse modéré
La comparaison des 4 programmes de base:
Les programmes à proportions (PF et PV) engendrent un débit de réponse plus rapide que celui des programmes à intervalles (IF et IV)
Ce qui est logique car le renforçateur est fonction de la réponse.
Les programmes à composante fixe (PF et IF) engendrent des pauses après l’obtention d’un renforcement
VS les programmes à composante variable (PV et IV).
Programme à composante fixe (PF et IF), la conséquence de l’obtention d’un renforçateur est qu’un certain délai va forcément précéder l’apparition du prochain renforçateur.
= pauses
- Dans le programme PF: il y a une brève pause qui suit l’obtention du renforcement, avant la production d’un autre ensemble de réponses.
- Dans programme IF: la pause après avoir obtenu le renforcement est suivie d’un débit de réponse de + en + rapide, à mesure que l’intervalle tire à sa fin et que l’apparition du renforçateur devient imminente.
Programme à composante variable (PV et IV): le fait que le renforçateur peut être présent de façon presque immédiate peu après avoir obtenu un renforçateur -> incite à répondre immédiatement après avoir reçu le renforçateur.
= réponse stable
D’autres programmes de renforcement simples : Programmes non contingents
Le renforçateur apparaît indépendamment de toute réponse. Peu importe la réponse
2 types de programmes non contingents:
1. Programme à temps fixe (TF) : le renforçateur apparaît après une période de temps prévisible et fixe, quel que soit le comportement du sujet.
2. Programme à temps variable (TV) : le renforçateur apparaît après une période de temps imprévisible et variée, quel que soit le comportement du sujet.
Le renforcement non contingent expliquerait-il les comportements superstitieux ?
Ou le reflet d’un comportement inné ?
Renforcement qu’on ne sait pas pourquoi = superstitions
Étude Ono (1987) étudiants dans cubicules, si vous faites qqchose, il y a des points rajouter (de façons non-contingente)
«Si vous faites quelque chose, des points peuvent s’ajouter au compteur»
Les joueurs et les athlètes professionnels sont très enclins à adopter des comportements superstitieux (si je tape deux fois sur le mur, que je me couche par terre et que je miale = renforcement)
Comportement superstitieux : une tentative de rendre plus prévisible une situation à priori imprévisible.
Qu’arrive-il lorsqu’un programme non contingents’ajoute à un programme de renforcement contingent régulier?
Un déclin marqué du nombre de manches lancées a été observé chez les lanceurs qui avaient signé un contrat à long terme vs un contrat d’1 an.
Je te donne de l’argent pour chaque pâtisseries/ je te donne 100000$ peu importe le nombre que tu fais de pâtisserie dans l’année. Moins d’effort. Diminution de l’implication au programme contingent si on rajoute un programme non-contingent.
Programmes de renforcement complexes : Programmes en chaîne
Voir photo
Un programme en chaîne : Consiste en une suite d’au moins 2 programmes simples,
Dans laquelle chacun a son propre SD (si j’aime ma réponse, on aura accès au renforçateurs)
Et dont le dernier produit un renforçateur terminal.
L’individu doit compléter une suite de programmes pour obtenir le renforçateur convoité.
Chaine à 2 maillons: 2 stimulus discriminatif
- Touche verte allume: le pigeon sait que s’il fait 20 coups de bec, la touche devient rouge et qu’il attend 10 secondes = nourriture
- Renforçateur = à la fin des 10 secondes
- Touche rouge = associé à la nourriture (renforçateur secondaire et plus d’être SD)
- Passe par deux touches. Réponses vont être plus rapide à la fin de la chaine car plus proche de la nourriture.
- Savoir à l’examen: quel type de comportement fait le rat (PV, IF) les programmes
- Renforçateur primaire (nourriture) renforçateur secondaire (associé à un renforçateur primaire ex: touche verte/blanche/rouge)
Chaine à 3 maillons: exemple à l’examen
Touche blanche (SD): coup bec – TV (SD/Sr): coup bec – TR (SD/Sr): coup bec – bouffe
IV 30, PV20, IR10
Moyen/stable sans pause,rapide/stable sans pause ondulant (car fixe sert à rien des début)
La différence de force de la réponse entre les premiers et les derniers maillons d’une chaîne reflète l’effet de gradient du but:
C’est un principe béhavioral référant à la hausse de la force ou de l’efficacité de la réponse qui se produit à mesure qu’on se rapproche de l’objectif à atteindre.
Enchaînement à rebours:
bon moyen d’établir une réponse dans un programme en chaine (dernier maillon de la chaine, on ajoute l’autre, jusqu’au premier)
ex: Donne de la nourriture: touche rouge (IF) et ensuite nourriture. On recule ensuite aux autres maillons et on rejoute les autres. La réponse a la touche rouge renforce la réponse à la touche verte
L’enchaînement et le façonnement forment les moyens essentiels permettant:
D’entraîner des animaux de cirque et des animaux marins à réaliser des performances remarquables.