Cours 8 Renforcement Et Extinction Flashcards

1
Q

Les programmes de renforcement (les 2 sortes)

A

Programme de renforcement : désigne la réponse nécessaire pour obtenir un renforcement. Est-ce que le rat doit appuyer 1, deux fois… sauter

2 sortes de programme de renforcement:

Programme de renforcement continu : chaque réponse spécifique est renforcée. (Chaque fois qu’il appuie sur le levier = nourriture, chaque fois qu’Il fait quelque chose, il y a une réponse)

Programme de renforcement intermittent : seules certaines réponses sont renforcées. (Pas toutes les réponses sont renforcées, pas toujours nourriture)
(4 types)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Les 4 programmes intermittents de base

A

Chacun produit un mode de réponse caractéristique= les comportements stabilisés
- Programme à proportion fixe (PF n)
- Programme à proportion variable (PV n)
- Programme à intervalle fixe (IF n)
- Programme à intervalle variable (IV n)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

1) Programme à proportion fixe (PF n)

A

Le renforcement est fonction d’un nombre n de réponses prévisibles et fixes. Ex. PF5, PF10, PF1 (ex: 4 coups de levier pour de la nourriture = PF4)

Engendre un débit de réponse rapide et l’animal prendra une courte pause après l’obtention de chaque renforçateur (= pause après renforcement)

Le graphique: 4 coups rapide, il arrête (pause renforcement), meilleure façon de dépenser le moins d’énergie et d’obtenir le plus de renforçateurs (la pause c’est pour avoir un peu plus d’énergie, car sinon épuisement)

Un programme est considéré comme très dense ou très riche lorsque le renforçateur s’avère facile à obtenir. Ex. un PF5 (vs un PF100) en 1h avec pf5 = beaucoup plus de renforçateurs qu’avec PF100

L’étirement de la proportion (de dense à moins dense) doit se faire graduellement. Car sinon le rat va être mélanger et le comportement va être bizarre

Tension de ratio (épuisement professionnel) : perturbation de la réponse suite à une demande de réponse trop exigeante. (ex, PF3000) (si le rat doit appuyer 3000 fois avant de recevoir de la nourriture, il va s’épuiser) l’enfant qui doit fabriquer des soulier s’épuise pour 1$ par jour

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

2) Programme à proportion variable (PV n)

A

Le renforcement est fonction d’un nombre moyen n de réponses, mais le nombre actuel varie et est donc imprévisible.

ex: PV4 = en moyenne c’est 4, pas fixe mais moyen, donc parfois 10, des fois 1…

Engendre typiquement un débit de réponse rapide et stable, souvent avec peu de pauses (voire aucune) après l’obtention de chaque renforçateur

Peut faciliter l’établissement d’une relation marquée par la violence.
ex: Une relation commence avec renforcement (pv2 pv3…)
De plus en plus que la relation avance, devient intermittent Et donc l’attention s’étire vers 20…30. La femme va donner plus d’attention à l’homme afin que celui-ci lui en donne plus, mais lui ça fait juste renforcer son comportement. Plus il montre de désintérêt plus il a de l’attention et cela renforce le comportement de désintérêt de l’homme.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

3) Programme à intervalle fixe (IF n)

A

Le renforcement est fonction de la première réponse donnée après une période de temps fixe et prévisible (c.-à-d., un intervalle de n secondes).

ex: IF10 = dans les 10 secondes après son comportement, il ne faut rien faire car il ne va rien arriver. Après 10 secondes, il peut arriver quelque chose.

Un programme IF engendre typiquement un mode de réponse ondulant, soit une courbe orientée vers le haut

If10= faut que 10 secondes s’écoulent pour avoir du renforcement. Au fil du temps le rat comprend le 10 secondes et commence à faire le comportement au 10 secondes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

4) Programme à intervalle variable (IV n)

A

Le renforcement est fonction de la première réponse donnée après un intervalle moyen de n secondes, la période variant d’un essai à l’autre et étant donc imprévisible. Pas de pauses, on ne veut pas perdre de l’énergie donc constance

Engendre typiquement un débit de réponse stable et modéré, souvent avec peu ou pas de pauses après l’obtention de chaque renforçateur

Comme ce programme entraine un débit de réponse prévisible, il sert souvent à l’étude d’autres facettes du conditionnement opérant, comme le choix entre diverses sources de renforcement. (cours 10) plus lent comme débit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Délais de réponse et pauses après l’obtention du renforcement

A

PF: Délais de réponse rapide
PV: Délais de réponse rapide
IF: Délais de réponse croissant
IV: Délais de réponse modéré

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

La comparaison des 4 programmes de base:

A

Les programmes à proportions (PF et PV) engendrent un débit de réponse plus rapide que celui des programmes à intervalles (IF et IV)

Ce qui est logique car le renforçateur est fonction de la réponse.

Les programmes à composante fixe (PF et IF) engendrent des pauses après l’obtention d’un renforcement
VS les programmes à composante variable (PV et IV).

Programme à composante fixe (PF et IF), la conséquence de l’obtention d’un renforçateur est qu’un certain délai va forcément précéder l’apparition du prochain renforçateur.
= pauses
- Dans le programme PF: il y a une brève pause qui suit l’obtention du renforcement, avant la production d’un autre ensemble de réponses.
- Dans programme IF: la pause après avoir obtenu le renforcement est suivie d’un débit de réponse de + en + rapide, à mesure que l’intervalle tire à sa fin et que l’apparition du renforçateur devient imminente.

Programme à composante variable (PV et IV): le fait que le renforçateur peut être présent de façon presque immédiate peu après avoir obtenu un renforçateur -> incite à répondre immédiatement après avoir reçu le renforçateur.
= réponse stable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

D’autres programmes de renforcement simples :
Programmes non contingents

A

Le renforçateur apparaît indépendamment de toute réponse. Peu importe la réponse

2 types de programmes non contingents:
1. Programme à temps fixe (TF) : le renforçateur apparaît après une période de temps prévisible et fixe, quel que soit le comportement du sujet.
2. Programme à temps variable (TV) : le renforçateur apparaît après une période de temps imprévisible et variée, quel que soit le comportement du sujet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Le renforcement non contingent expliquerait-il les comportements superstitieux ?
Ou le reflet d’un comportement inné ?

A

Renforcement qu’on ne sait pas pourquoi = superstitions

Étude Ono (1987) étudiants dans cubicules, si vous faites qqchose, il y a des points rajouter (de façons non-contingente)

«Si vous faites quelque chose, des points peuvent s’ajouter au compteur»

Les joueurs et les athlètes professionnels sont très enclins à adopter des comportements superstitieux (si je tape deux fois sur le mur, que je me couche par terre et que je miale = renforcement)

Comportement superstitieux : une tentative de rendre plus prévisible une situation à priori imprévisible.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’arrive-il lorsqu’un programme non contingents’ajoute à un programme de renforcement contingent régulier?

A

Un déclin marqué du nombre de manches lancées a été observé chez les lanceurs qui avaient signé un contrat à long terme vs un contrat d’1 an.

Je te donne de l’argent pour chaque pâtisseries/ je te donne 100000$ peu importe le nombre que tu fais de pâtisserie dans l’année. Moins d’effort. Diminution de l’implication au programme contingent si on rajoute un programme non-contingent.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Programmes de renforcement complexes : Programmes en chaîne
Voir photo

A

Un programme en chaîne : Consiste en une suite d’au moins 2 programmes simples,

Dans laquelle chacun a son propre SD (si j’aime ma réponse, on aura accès au renforçateurs)

Et dont le dernier produit un renforçateur terminal.

L’individu doit compléter une suite 
de programmes pour obtenir le renforçateur convoité.

Chaine à 2 maillons: 2 stimulus discriminatif
- Touche verte allume: le pigeon sait que s’il fait 20 coups de bec, la touche devient rouge et qu’il attend 10 secondes = nourriture

  • Renforçateur = à la fin des 10 secondes
  • Touche rouge = associé à la nourriture (renforçateur secondaire et plus d’être SD)
  • Passe par deux touches. Réponses vont être plus rapide à la fin de la chaine car plus proche de la nourriture.
  • Savoir à l’examen: quel type de comportement fait le rat (PV, IF) les programmes
  • Renforçateur primaire (nourriture) renforçateur secondaire (associé à un renforçateur primaire ex: touche verte/blanche/rouge)

Chaine à 3 maillons: exemple à l’examen
Touche blanche (SD): coup bec – TV (SD/Sr): coup bec – TR (SD/Sr): coup bec – bouffe
IV 30, PV20, IR10
Moyen/stable sans pause,rapide/stable sans pause ondulant (car fixe sert à rien des début)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

La différence de force de la réponse entre les premiers et les derniers maillons d’une chaîne reflète l’effet de gradient du but:

A

C’est un principe béhavioral référant à la hausse de la force ou de l’efficacité de la réponse qui se produit à mesure qu’on se rapproche de l’objectif à atteindre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Enchaînement à rebours:

A

bon moyen d’établir une réponse dans un programme en chaine (dernier maillon de la chaine, on ajoute l’autre, jusqu’au premier)

ex: Donne de la nourriture: touche rouge (IF) et ensuite nourriture. On recule ensuite aux autres maillons et on rejoute les autres. La réponse a la touche rouge renforce la réponse à la touche verte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

L’enchaînement et le façonnement forment les moyens essentiels permettant:

A

D’entraîner des animaux de cirque et des animaux marins à réaliser des performances remarquables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

L’extinction

A

Déf: C’est le non-renforcement d’une réponse précédemment renforcée, ce qui entraîne une diminution de la force cette réponse.

L’extinction est une procédure et un processus :

Procédure : le non-renforcement d’une réponse précédemment renforcée (comportement émis mais non renforcée)
Ex: arrêter de donner de la nourriture lors du comportement

Processus: l’amoindrissement de la force de la réponse jusqu’à sa disparition éventuelle (comportement s’éteins tranquillement) *donc aussi favoriser comportements désirés

17
Q

Les effets secondaires de l’extinction (6)
Voir photo
PVEARD

A
  1. Le pic d’extinction: c’est la hausse temporaire de la fréquence et de l’intensité de la réponse qui a lieu au début de la procédure d’extinction. Augmenter le comportement (appuyer plein de fois sur le levier et pas de nourriture)
  2. La hausse de la variabilité: réfère à l’augmentation de la variabilité de la réponse pendant l’extinction. Essaie d’appuyer de différente façon sur le levier
  3. Le comportement émotif: c’est la frustration qui accompagne le retrait du renforcement anticipé pendant l’extinction. Pigeon bat des ailles, dire gros mots
  4. L’agression (ou agression de frustration): est un type de comportement émotif très souvent observé pendant l’extinction. Rude
  5. La résurgence: c’est la réapparition, durant l’extinction, de comportements ayant auparavant produit un renforcement. Faire un ancien comportement (ce qui marchait avant fonctionne peut-être)
  6. La dépression (des symptômes de type dépressif): peut-être engendrée par l’extinction (voir diminution du niveau d’activité moyen vers la fin de l’extinction). FIG1
    Après le pic, il y a une baisse du niveau d’activité

Schéma: diminution exploration de l’espace donc sx dépressif: espace pour explorer, apprend programme, retour espace et regarde niveaux activité et fait extinction (faire 5 coups pu la)

18
Q

Renforcer accidentellement un effet secondaire d’une extinction.

A

Ex. crise de rage chez les enfants
Effet secondaire d’une extinction
Enfant qui pleure et que le parent donne un bonbon après la crise = renforcement du comportement et conséquence sur l’extinction

19
Q

La résistance à l’extinction

A

Déf: l’ampleur avec laquelle la réponse persiste après la mise en œuvre d’une procédure d’extinction.
- Une forte résistance à l’extinction: correspond à une réponse très persistante 
(qui disparait lentement)
- Une faible résistance à l’extinction: correspond à une réponse disparaissant rapidement

20
Q
  1. Le programme de renforcement (**le + important)
    Les différents facteurs qui influencent la résistance à l’extinction
A

En vertu de l’effet de renforcement partiel, un comportement qui s’est maintenu par suite d’un programme de renforcement intermittent (ou partiel) s’éteindra plus lentement qu’un comportement qui s’est maintenu par suite d’un programme de renforcement continu.

La résistance sera particulièrement forte si le comportement s’est établi à partir d’un programme à proportion variable (PV). Sans pause donc le chien prend une chance que tu vas lui donner de la nourriture

EX. chien qui demande de la nourriture à table et qui en obtient de temps en temps
Programme fixe, il y a une pause à la fin

21
Q
  1. Les antécédents de renforcement
    Les différents facteurs qui influencent la résistance à l’extinction
A

Plus les renforçateurs reçus par un individu pour un comportement ont été nombreux, plus la résistance à l’extinction est forte.

Ex. recevoir 10 bonbons vs 100 en quémandant (quantité)

Ex. recevoir 10 bonbons à chaque fois qu’il en demande, depuis 6 jours VS depuis 1 mois. (plus longue durée qui implique une plus grande quantité de renforçateurs au total)

Cependant, il existe une limite au-delà de laquelle l’ajout de renforçateurs cesse d’engendrer une résistance accrue à l’extinction.

Ex. après 2000 bonbons, la résistance à l’extinction a atteint son maximum

22
Q
  1. L’ampleur du renforçateur
    Les différents facteurs qui influencent la résistance à l’extinction
A

Un grand renforçateur a tendance à engendrer une plus forte résistance à l’extinction qu’un petit renforçateur

Ex. un gros morceau de nourriture VS un petit morceau de nourriture

Un renforçateur très convoité a tendance à engendrer une plus forte résistance à l’extinction qu’un renforçateur peu convoité

Ex. un steak pour un chien VS nourriture pour chien qu’il n’apprécie pas particulièrement

23
Q
  1. Le degré de déprivation (= degré de privation du renforçateur)
    Les différents facteurs qui influencent la résistance à l’extinction
A

Plus le degré de déprivation est prononcé, plus la résistance à l’extinction devient forte.

Ex. chien affamé vs légèrement affamé (chien qui est affamé = pas le bon temps pour faire l’extinction)

24
Q
  1. Une expérience antérieure de l’extinction
    Les différents facteurs qui influencent la résistance à l’extinction
A

Lorsque des séances d’extinction alternent avec des séances de renforcement, plus le nombre d’expositions antérieur à l’extinction est élevé, plus le comportement va s’éteindre rapidement au cours des expositions ultérieures.

ex: L’enfant va pleurer car la mère ne donne pas le bonbon cette fois-ci, donc déjà eu expérience extinction = diminue résistance a extinction durant expérience suivante

25
Q
  1. Un signal d’extinction distinctif
    Les différents facteurs qui influencent la résistance à l’extinction
A

L’extinction est facilitée par la présence d’un stimulus distinctif qui en signale le début.

= stimulus discriminatif signalant l’extinction (l’absence de renforcement) : SD (coup de sifflet qui indique que l’épreuve est fini) annonce l’extinction donc si comportement émis; pas de renforçateur (ie SD mm si enfant pleur pas de bonbon)

26
Q

La récupération spontanée
Voir photo

A

Déf: désigne la réapparition d’une réponse éteinte, à la suite d’une période de repos consécutive à l’extinction.

La réponse opérante diminue en force et s’éteint plus rapidement d’une session d’extinction à l’autre (rappel: comme pour la RC dans le CC)

D’après Skinner, la récupération spontanée est fonction des stimuli discriminatifs (SD) associés au début de la séance.

Ex. retirer le rat de la cage, le peser et le placer dans une chambre opérante (stimulus discriminatif = contexte avant d’être exposé au stimulus) ex: l’enfant avant de rentrer dans le magasin de bonbons, il sait que s’il pleur la mère va acheter bonbons.

Ex. entrer dans le magasin de bonbon

27
Q

Le renforcement différentiel des autres comportements:

A

Le processus d’extinction peut être grandement facilité par le renforcement d’un comportement de remplacement.

Renforcement différentiel des autres comportements (RDAC): procédure qui consiste à renforcer tout comportement autre que le comportement visé par l’extinction. *
- En mm temps extinction on fait renforcement différentiel des autres comportements (apprendre ce qu’on souhaite)

Génère comportement non-approprié et approprié

  1. Le processus d’extinction peut être grandement facilité par le renforcement d’un comportement de remplacement: +efficace que juste extinction qui éteint comp. indésirable
  2. Attenue plusieurs effets secondaires de l’extinction (ie frustration agression)
  3. Permet de générer un comportement plus approprié et arrête de lautre
    *Ideal non contingent: pas besoin de faire qqch donc recevoir renforcement n’importe qd ie cadeau pcq je ne t’aime pas pcq bonne note
28
Q

L’extinction des crises chez les jeunes enfants à l’heure d’aller au lit

A

Les parents pourraient renforcer par inadvertance le comportement même qui les irrite.

Solution: ça dépend des parents (alaise de laisser l’enfant pleurer ou non) intervalle fixe

Problèmes: mais l’enfant peut apprendre et pleurer plus après 10 min.

Autre alternative: Peut être fait graduellement (1min, 2, 3, 4… augmenter l’intervalle fixe)

29
Q

Le contrôle du stimulus:

A

comportement de la personne respecte les programme = bon contrôle du stimulus

Le SD signale seulement la disponibilité du renforcement, ce qui rehausse la probabilité que le comportement (qui peut mener au renforcement) se manifeste.

On dit que ce comportement relève d’un contrôle du stimulus

Contrôle du stimulus: la présence d’un SD (= le stimulus) influence la probabilité d’apparition du comportement.

Ampoule rouge s’allume : Appuyer sur un levier -> nourriture
SD :R->SR
Ce qui est écrit est respecté

30
Q

La généralisation du stimulus et la discrimination du stimulus:
Voir photo

A

Généralisation du stimulus: la réponse opérante tend à être produite en présence d’un stimulus semblable au SD.

Plus le stimulus est similaire au SD, plus la réponse est forte.

La discrimination du stimulus (l’inverse de la généralisation): la tendance de la réponse à se produire davantage en présence d’un stimulus donné (le SD) que d’un autre.
- Une généralisation moins prononcée = forte discrimination
- Une généralisation plus prononcée = faible discrimination

Discrimination est le contraire de la généralisation

2000Hz levier. Discrimine car gradient incliné

Résumé:
Gradient très incliné = généralisation moins prononcée = forte discrimination
Gradient peu incliné = généralisation plus prononcée = faible discrimination

31
Q

Gradient de généralisation:

A

est une description graphique de la force de la réponse en présence de stimuli semblables au SD qui varient selon un continuum (illustre cette tendance à la généralisation).

Un gradient très incliné indique que le débit de réponse diminue fortement à mesure que les stimuli deviennent de plus en plus différents du SD = généralisation moins prononcée

Un gradient peu incliné indique que le débit de réponse diminue graduellement à mesure que les stimuli deviennent de plus en plus différents du SD = généralisation plus prononcée

32
Q

L’entrainement à la discrimination

A

Correspond au renforcement de la réponse en présence d’un stimulus (le SD, parfois appelé S+), et non d’un autre.

Le stimulus discriminatif signalant l’extinction (l’absence de renforcement) = SD (parfois appelé S-).

Tonalité de 200 Hz : Appuyer sur un levier -> nourriture
SD (ou S+): R->SR
Tonalité de 1200 Hz : Appuyer sur un levier -> aucune nourriture
SD (ou S-): R->—
Ici, le comportement du rat relève d’un fort contrôle du stimulus

Tantôt: 2000 = nourriture
Entrainement à la discrimination: entraine à la tonalité de 2000 et entraine à ne pas répondre à 1200

33
Q

L’effet de glissement de pic
Voir photo

A

L’entraînement à la discrimination produit souvent l’effet de glissement de pic.

Effet de glissement de pic:
le pic d’un gradient de généralisation suivant l’entraînement à la discrimination va passer du SD -> à un stimulus plus éloigné du SD.
Voir Fig 5

1) Le gradient (la pente) s’incline plus fortement sur le côté du SD après l’entraînement,
(ce qui signifie que le rat a appris à faire une distinction claire entre le SD et le SD, c’est-à-dire, à presser le levier lorsqu’il entend un son aigu et à ne pas le presser lorsqu’il entend un son grave)

2) La plus forte réponse (qui était au SD, avant l’entrainement à la discrimination) est maintenant éloignée du SD et est associée à un stimulus orienté en direction opposée au SD. (= effet de glissement de pic)

À 2200 = réponse la plus haute (subjectivement, le cerveau va vouloir répondre le plus loin possible du Striangle) donc meilleure discrimination

34
Q

Les programmes multiples et le contraste comportemental

A

Pour étudier le contrôle du stimulus, on utilise souvent un programme multiple.

C’est un type de programme complexe

Il comprend au moins 2 programmes indépendants présentés successivement, dont chacun produit un renforcement et comporte un SD distinct.
IF 30 sec(nourriture 1) IV 30 sec (nourriture 2)
Touche rouge : coup de bec -> nourriture/touche verte : coup de bec -> nourriture/touche rouge : etc.
SD, R, SR, SD, R,SR,SD

35
Q

Le contrôle du stimulus:

A

se révèle dans un programme multiple, lorsque l’individu répond différemment en présence des SD associés aux différents programmes.

La présence du SD ( contrôle le comportement) influence la probabilité d’apparition du comportement

2 façons:
Généralisation et discrimination

ie rat présente comportement rapide avec pauses: pas de contrôle du stimulus pour contrôler comportement (compo décrit pas comment fait=pas de contrôle?) le stimulus ne contrôle pas le comportement ou très faiblement)
Le renforçateur terminal

Différence principale avec le programme en chaine: récompense à la fin de chaque maillon/programme et au moins 2 programmes indépendant successif (chacun a son Sd)