Cours 8 Renforcement Et Extinction Flashcards
Les programmes de renforcement (les 2 sortes)
Programme de renforcement : désigne la réponse nécessaire pour obtenir un renforcement. Est-ce que le rat doit appuyer 1, deux fois… sauter
2 sortes de programme de renforcement:
Programme de renforcement continu : chaque réponse spécifique est renforcée. (Chaque fois qu’il appuie sur le levier = nourriture, chaque fois qu’Il fait quelque chose, il y a une réponse)
Programme de renforcement intermittent : seules certaines réponses sont renforcées. (Pas toutes les réponses sont renforcées, pas toujours nourriture)
(4 types)
Les 4 programmes intermittents de base
Chacun produit un mode de réponse caractéristique= les comportements stabilisés
- Programme à proportion fixe (PF n)
- Programme à proportion variable (PV n)
- Programme à intervalle fixe (IF n)
- Programme à intervalle variable (IV n)
1) Programme à proportion fixe (PF n)
Le renforcement est fonction d’un nombre n de réponses prévisibles et fixes. Ex. PF5, PF10, PF1 (ex: 4 coups de levier pour de la nourriture = PF4)
Engendre un débit de réponse rapide et l’animal prendra une courte pause après l’obtention de chaque renforçateur (= pause après renforcement)
Le graphique: 4 coups rapide, il arrête (pause renforcement), meilleure façon de dépenser le moins d’énergie et d’obtenir le plus de renforçateurs (la pause c’est pour avoir un peu plus d’énergie, car sinon épuisement)
Un programme est considéré comme très dense ou très riche lorsque le renforçateur s’avère facile à obtenir. Ex. un PF5 (vs un PF100) en 1h avec pf5 = beaucoup plus de renforçateurs qu’avec PF100
L’étirement de la proportion (de dense à moins dense) doit se faire graduellement. Car sinon le rat va être mélanger et le comportement va être bizarre
Tension de ratio (épuisement professionnel) : perturbation de la réponse suite à une demande de réponse trop exigeante. (ex, PF3000) (si le rat doit appuyer 3000 fois avant de recevoir de la nourriture, il va s’épuiser) l’enfant qui doit fabriquer des soulier s’épuise pour 1$ par jour
2) Programme à proportion variable (PV n)
Le renforcement est fonction d’un nombre moyen n de réponses, mais le nombre actuel varie et est donc imprévisible.
ex: PV4 = en moyenne c’est 4, pas fixe mais moyen, donc parfois 10, des fois 1…
Engendre typiquement un débit de réponse rapide et stable, souvent avec peu de pauses (voire aucune) après l’obtention de chaque renforçateur
Peut faciliter l’établissement d’une relation marquée par la violence.
ex: Une relation commence avec renforcement (pv2 pv3…)
De plus en plus que la relation avance, devient intermittent Et donc l’attention s’étire vers 20…30. La femme va donner plus d’attention à l’homme afin que celui-ci lui en donne plus, mais lui ça fait juste renforcer son comportement. Plus il montre de désintérêt plus il a de l’attention et cela renforce le comportement de désintérêt de l’homme.
3) Programme à intervalle fixe (IF n)
Le renforcement est fonction de la première réponse donnée après une période de temps fixe et prévisible (c.-à-d., un intervalle de n secondes).
ex: IF10 = dans les 10 secondes après son comportement, il ne faut rien faire car il ne va rien arriver. Après 10 secondes, il peut arriver quelque chose.
Un programme IF engendre typiquement un mode de réponse ondulant, soit une courbe orientée vers le haut
If10= faut que 10 secondes s’écoulent pour avoir du renforcement. Au fil du temps le rat comprend le 10 secondes et commence à faire le comportement au 10 secondes
4) Programme à intervalle variable (IV n)
Le renforcement est fonction de la première réponse donnée après un intervalle moyen de n secondes, la période variant d’un essai à l’autre et étant donc imprévisible. Pas de pauses, on ne veut pas perdre de l’énergie donc constance
Engendre typiquement un débit de réponse stable et modéré, souvent avec peu ou pas de pauses après l’obtention de chaque renforçateur
Comme ce programme entraine un débit de réponse prévisible, il sert souvent à l’étude d’autres facettes du conditionnement opérant, comme le choix entre diverses sources de renforcement. (cours 10) plus lent comme débit
Délais de réponse et pauses après l’obtention du renforcement
PF: Délais de réponse rapide
PV: Délais de réponse rapide
IF: Délais de réponse croissant
IV: Délais de réponse modéré
La comparaison des 4 programmes de base:
Les programmes à proportions (PF et PV) engendrent un débit de réponse plus rapide que celui des programmes à intervalles (IF et IV)
Ce qui est logique car le renforçateur est fonction de la réponse.
Les programmes à composante fixe (PF et IF) engendrent des pauses après l’obtention d’un renforcement
VS les programmes à composante variable (PV et IV).
Programme à composante fixe (PF et IF), la conséquence de l’obtention d’un renforçateur est qu’un certain délai va forcément précéder l’apparition du prochain renforçateur.
= pauses
- Dans le programme PF: il y a une brève pause qui suit l’obtention du renforcement, avant la production d’un autre ensemble de réponses.
- Dans programme IF: la pause après avoir obtenu le renforcement est suivie d’un débit de réponse de + en + rapide, à mesure que l’intervalle tire à sa fin et que l’apparition du renforçateur devient imminente.
Programme à composante variable (PV et IV): le fait que le renforçateur peut être présent de façon presque immédiate peu après avoir obtenu un renforçateur -> incite à répondre immédiatement après avoir reçu le renforçateur.
= réponse stable
D’autres programmes de renforcement simples : Programmes non contingents
Le renforçateur apparaît indépendamment de toute réponse. Peu importe la réponse
2 types de programmes non contingents:
1. Programme à temps fixe (TF) : le renforçateur apparaît après une période de temps prévisible et fixe, quel que soit le comportement du sujet.
2. Programme à temps variable (TV) : le renforçateur apparaît après une période de temps imprévisible et variée, quel que soit le comportement du sujet.
Le renforcement non contingent expliquerait-il les comportements superstitieux ?
Ou le reflet d’un comportement inné ?
Renforcement qu’on ne sait pas pourquoi = superstitions
Étude Ono (1987) étudiants dans cubicules, si vous faites qqchose, il y a des points rajouter (de façons non-contingente)
«Si vous faites quelque chose, des points peuvent s’ajouter au compteur»
Les joueurs et les athlètes professionnels sont très enclins à adopter des comportements superstitieux (si je tape deux fois sur le mur, que je me couche par terre et que je miale = renforcement)
Comportement superstitieux : une tentative de rendre plus prévisible une situation à priori imprévisible.
Qu’arrive-il lorsqu’un programme non contingents’ajoute à un programme de renforcement contingent régulier?
Un déclin marqué du nombre de manches lancées a été observé chez les lanceurs qui avaient signé un contrat à long terme vs un contrat d’1 an.
Je te donne de l’argent pour chaque pâtisseries/ je te donne 100000$ peu importe le nombre que tu fais de pâtisserie dans l’année. Moins d’effort. Diminution de l’implication au programme contingent si on rajoute un programme non-contingent.
Programmes de renforcement complexes : Programmes en chaîne
Voir photo
Un programme en chaîne : Consiste en une suite d’au moins 2 programmes simples,
Dans laquelle chacun a son propre SD (si j’aime ma réponse, on aura accès au renforçateurs)
Et dont le dernier produit un renforçateur terminal.
L’individu doit compléter une suite de programmes pour obtenir le renforçateur convoité.
Chaine à 2 maillons: 2 stimulus discriminatif
- Touche verte allume: le pigeon sait que s’il fait 20 coups de bec, la touche devient rouge et qu’il attend 10 secondes = nourriture
- Renforçateur = à la fin des 10 secondes
- Touche rouge = associé à la nourriture (renforçateur secondaire et plus d’être SD)
- Passe par deux touches. Réponses vont être plus rapide à la fin de la chaine car plus proche de la nourriture.
- Savoir à l’examen: quel type de comportement fait le rat (PV, IF) les programmes
- Renforçateur primaire (nourriture) renforçateur secondaire (associé à un renforçateur primaire ex: touche verte/blanche/rouge)
Chaine à 3 maillons: exemple à l’examen
Touche blanche (SD): coup bec – TV (SD/Sr): coup bec – TR (SD/Sr): coup bec – bouffe
IV 30, PV20, IR10
Moyen/stable sans pause,rapide/stable sans pause ondulant (car fixe sert à rien des début)
La différence de force de la réponse entre les premiers et les derniers maillons d’une chaîne reflète l’effet de gradient du but:
C’est un principe béhavioral référant à la hausse de la force ou de l’efficacité de la réponse qui se produit à mesure qu’on se rapproche de l’objectif à atteindre.
Enchaînement à rebours:
bon moyen d’établir une réponse dans un programme en chaine (dernier maillon de la chaine, on ajoute l’autre, jusqu’au premier)
ex: Donne de la nourriture: touche rouge (IF) et ensuite nourriture. On recule ensuite aux autres maillons et on rejoute les autres. La réponse a la touche rouge renforce la réponse à la touche verte
L’enchaînement et le façonnement forment les moyens essentiels permettant:
D’entraîner des animaux de cirque et des animaux marins à réaliser des performances remarquables.
L’extinction
Déf: C’est le non-renforcement d’une réponse précédemment renforcée, ce qui entraîne une diminution de la force cette réponse.
L’extinction est une procédure et un processus :
Procédure : le non-renforcement d’une réponse précédemment renforcée (comportement émis mais non renforcée)
Ex: arrêter de donner de la nourriture lors du comportement
Processus: l’amoindrissement de la force de la réponse jusqu’à sa disparition éventuelle (comportement s’éteins tranquillement) *donc aussi favoriser comportements désirés
Les effets secondaires de l’extinction (6)
Voir photo
PVEARD
- Le pic d’extinction: c’est la hausse temporaire de la fréquence et de l’intensité de la réponse qui a lieu au début de la procédure d’extinction. Augmenter le comportement (appuyer plein de fois sur le levier et pas de nourriture)
- La hausse de la variabilité: réfère à l’augmentation de la variabilité de la réponse pendant l’extinction. Essaie d’appuyer de différente façon sur le levier
- Le comportement émotif: c’est la frustration qui accompagne le retrait du renforcement anticipé pendant l’extinction. Pigeon bat des ailles, dire gros mots
- L’agression (ou agression de frustration): est un type de comportement émotif très souvent observé pendant l’extinction. Rude
- La résurgence: c’est la réapparition, durant l’extinction, de comportements ayant auparavant produit un renforcement. Faire un ancien comportement (ce qui marchait avant fonctionne peut-être)
-
La dépression (des symptômes de type dépressif): peut-être engendrée par l’extinction (voir diminution du niveau d’activité moyen vers la fin de l’extinction). FIG1
Après le pic, il y a une baisse du niveau d’activité
Schéma: diminution exploration de l’espace donc sx dépressif: espace pour explorer, apprend programme, retour espace et regarde niveaux activité et fait extinction (faire 5 coups pu la)
Renforcer accidentellement un effet secondaire d’une extinction.
Ex. crise de rage chez les enfants
Effet secondaire d’une extinction
Enfant qui pleure et que le parent donne un bonbon après la crise = renforcement du comportement et conséquence sur l’extinction
La résistance à l’extinction
Déf: l’ampleur avec laquelle la réponse persiste après la mise en œuvre d’une procédure d’extinction.
- Une forte résistance à l’extinction: correspond à une réponse très persistante
(qui disparait lentement)
- Une faible résistance à l’extinction: correspond à une réponse disparaissant rapidement
- Le programme de renforcement (**le + important)
Les différents facteurs qui influencent la résistance à l’extinction
En vertu de l’effet de renforcement partiel, un comportement qui s’est maintenu par suite d’un programme de renforcement intermittent (ou partiel) s’éteindra plus lentement qu’un comportement qui s’est maintenu par suite d’un programme de renforcement continu.
La résistance sera particulièrement forte si le comportement s’est établi à partir d’un programme à proportion variable (PV). Sans pause donc le chien prend une chance que tu vas lui donner de la nourriture
EX. chien qui demande de la nourriture à table et qui en obtient de temps en temps
Programme fixe, il y a une pause à la fin
- Les antécédents de renforcement
Les différents facteurs qui influencent la résistance à l’extinction
Plus les renforçateurs reçus par un individu pour un comportement ont été nombreux, plus la résistance à l’extinction est forte.
Ex. recevoir 10 bonbons vs 100 en quémandant (quantité)
Ex. recevoir 10 bonbons à chaque fois qu’il en demande, depuis 6 jours VS depuis 1 mois. (plus longue durée qui implique une plus grande quantité de renforçateurs au total)
Cependant, il existe une limite au-delà de laquelle l’ajout de renforçateurs cesse d’engendrer une résistance accrue à l’extinction.
Ex. après 2000 bonbons, la résistance à l’extinction a atteint son maximum
- L’ampleur du renforçateur
Les différents facteurs qui influencent la résistance à l’extinction
Un grand renforçateur a tendance à engendrer une plus forte résistance à l’extinction qu’un petit renforçateur
Ex. un gros morceau de nourriture VS un petit morceau de nourriture
Un renforçateur très convoité a tendance à engendrer une plus forte résistance à l’extinction qu’un renforçateur peu convoité
Ex. un steak pour un chien VS nourriture pour chien qu’il n’apprécie pas particulièrement
- Le degré de déprivation (= degré de privation du renforçateur)
Les différents facteurs qui influencent la résistance à l’extinction
Plus le degré de déprivation est prononcé, plus la résistance à l’extinction devient forte.
Ex. chien affamé vs légèrement affamé (chien qui est affamé = pas le bon temps pour faire l’extinction)
- Une expérience antérieure de l’extinction
Les différents facteurs qui influencent la résistance à l’extinction
Lorsque des séances d’extinction alternent avec des séances de renforcement, plus le nombre d’expositions antérieur à l’extinction est élevé, plus le comportement va s’éteindre rapidement au cours des expositions ultérieures.
ex: L’enfant va pleurer car la mère ne donne pas le bonbon cette fois-ci, donc déjà eu expérience extinction = diminue résistance a extinction durant expérience suivante
- Un signal d’extinction distinctif
Les différents facteurs qui influencent la résistance à l’extinction
L’extinction est facilitée par la présence d’un stimulus distinctif qui en signale le début.
= stimulus discriminatif signalant l’extinction (l’absence de renforcement) : SD (coup de sifflet qui indique que l’épreuve est fini) annonce l’extinction donc si comportement émis; pas de renforçateur (ie SD mm si enfant pleur pas de bonbon)
La récupération spontanée
Voir photo
Déf: désigne la réapparition d’une réponse éteinte, à la suite d’une période de repos consécutive à l’extinction.
La réponse opérante diminue en force et s’éteint plus rapidement d’une session d’extinction à l’autre (rappel: comme pour la RC dans le CC)
D’après Skinner, la récupération spontanée est fonction des stimuli discriminatifs (SD) associés au début de la séance.
Ex. retirer le rat de la cage, le peser et le placer dans une chambre opérante (stimulus discriminatif = contexte avant d’être exposé au stimulus) ex: l’enfant avant de rentrer dans le magasin de bonbons, il sait que s’il pleur la mère va acheter bonbons.
Ex. entrer dans le magasin de bonbon
Le renforcement différentiel des autres comportements:
Le processus d’extinction peut être grandement facilité par le renforcement d’un comportement de remplacement.
Renforcement différentiel des autres comportements (RDAC): procédure qui consiste à renforcer tout comportement autre que le comportement visé par l’extinction. *
- En mm temps extinction on fait renforcement différentiel des autres comportements (apprendre ce qu’on souhaite)
Génère comportement non-approprié et approprié
- Le processus d’extinction peut être grandement facilité par le renforcement d’un comportement de remplacement: +efficace que juste extinction qui éteint comp. indésirable
- Attenue plusieurs effets secondaires de l’extinction (ie frustration agression)
- Permet de générer un comportement plus approprié et arrête de lautre
*Ideal non contingent: pas besoin de faire qqch donc recevoir renforcement n’importe qd ie cadeau pcq je ne t’aime pas pcq bonne note
L’extinction des crises chez les jeunes enfants à l’heure d’aller au lit
Les parents pourraient renforcer par inadvertance le comportement même qui les irrite.
Solution: ça dépend des parents (alaise de laisser l’enfant pleurer ou non) intervalle fixe
Problèmes: mais l’enfant peut apprendre et pleurer plus après 10 min.
Autre alternative: Peut être fait graduellement (1min, 2, 3, 4… augmenter l’intervalle fixe)
Le contrôle du stimulus:
comportement de la personne respecte les programme = bon contrôle du stimulus
Le SD signale seulement la disponibilité du renforcement, ce qui rehausse la probabilité que le comportement (qui peut mener au renforcement) se manifeste.
On dit que ce comportement relève d’un contrôle du stimulus
Contrôle du stimulus: la présence d’un SD (= le stimulus) influence la probabilité d’apparition du comportement.
Ampoule rouge s’allume : Appuyer sur un levier -> nourriture
SD :R->SR
Ce qui est écrit est respecté
La généralisation du stimulus et la discrimination du stimulus:
Voir photo
Généralisation du stimulus: la réponse opérante tend à être produite en présence d’un stimulus semblable au SD.
Plus le stimulus est similaire au SD, plus la réponse est forte.
La discrimination du stimulus (l’inverse de la généralisation): la tendance de la réponse à se produire davantage en présence d’un stimulus donné (le SD) que d’un autre.
- Une généralisation moins prononcée = forte discrimination
- Une généralisation plus prononcée = faible discrimination
Discrimination est le contraire de la généralisation
2000Hz levier. Discrimine car gradient incliné
Résumé:
Gradient très incliné = généralisation moins prononcée = forte discrimination
Gradient peu incliné = généralisation plus prononcée = faible discrimination
Gradient de généralisation:
est une description graphique de la force de la réponse en présence de stimuli semblables au SD qui varient selon un continuum (illustre cette tendance à la généralisation).
Un gradient très incliné indique que le débit de réponse diminue fortement à mesure que les stimuli deviennent de plus en plus différents du SD = généralisation moins prononcée
Un gradient peu incliné indique que le débit de réponse diminue graduellement à mesure que les stimuli deviennent de plus en plus différents du SD = généralisation plus prononcée
L’entrainement à la discrimination
Correspond au renforcement de la réponse en présence d’un stimulus (le SD, parfois appelé S+), et non d’un autre.
Le stimulus discriminatif signalant l’extinction (l’absence de renforcement) = SD (parfois appelé S-).
Tonalité de 200 Hz : Appuyer sur un levier -> nourriture
SD (ou S+): R->SR
Tonalité de 1200 Hz : Appuyer sur un levier -> aucune nourriture
SD (ou S-): R->—
Ici, le comportement du rat relève d’un fort contrôle du stimulus
Tantôt: 2000 = nourriture
Entrainement à la discrimination: entraine à la tonalité de 2000 et entraine à ne pas répondre à 1200
L’effet de glissement de pic
Voir photo
L’entraînement à la discrimination produit souvent l’effet de glissement de pic.
Effet de glissement de pic:
le pic d’un gradient de généralisation suivant l’entraînement à la discrimination va passer du SD -> à un stimulus plus éloigné du SD.
Voir Fig 5
1) Le gradient (la pente) s’incline plus fortement sur le côté du SD après l’entraînement,
(ce qui signifie que le rat a appris à faire une distinction claire entre le SD et le SD, c’est-à-dire, à presser le levier lorsqu’il entend un son aigu et à ne pas le presser lorsqu’il entend un son grave)
2) La plus forte réponse (qui était au SD, avant l’entrainement à la discrimination) est maintenant éloignée du SD et est associée à un stimulus orienté en direction opposée au SD. (= effet de glissement de pic)
À 2200 = réponse la plus haute (subjectivement, le cerveau va vouloir répondre le plus loin possible du Striangle) donc meilleure discrimination
Les programmes multiples et le contraste comportemental
Pour étudier le contrôle du stimulus, on utilise souvent un programme multiple.
C’est un type de programme complexe
Il comprend au moins 2 programmes indépendants présentés successivement, dont chacun produit un renforcement et comporte un SD distinct.
IF 30 sec(nourriture 1) IV 30 sec (nourriture 2)
Touche rouge : coup de bec -> nourriture/touche verte : coup de bec -> nourriture/touche rouge : etc.
SD, R, SR, SD, R,SR,SD
Le contrôle du stimulus:
se révèle dans un programme multiple, lorsque l’individu répond différemment en présence des SD associés aux différents programmes.
La présence du SD ( contrôle le comportement) influence la probabilité d’apparition du comportement
2 façons:
Généralisation et discrimination
ie rat présente comportement rapide avec pauses: pas de contrôle du stimulus pour contrôler comportement (compo décrit pas comment fait=pas de contrôle?) le stimulus ne contrôle pas le comportement ou très faiblement)
Le renforçateur terminal
Différence principale avec le programme en chaine: récompense à la fin de chaque maillon/programme et au moins 2 programmes indépendant successif (chacun a son Sd)