Cours 10 Plans de renforcement Flashcards

1
Q

Programme de renforcement continu

A
  • Se caractérise par le fait que chaque réponse spécificque est renforcée.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Effets de programme

A
  • Différentes demandes de réponse vont produire des effets complètement dissemblables sur le comportement.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Un programme de renforcement intermittent (ou partiel)

A
  • Se caractérise par le fait que seules certaines réponses sont renforcées.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

4 types de base de renforcement intermittent

A
  • à proportion fixe
  • à proportion variable
  • à intervalle fixe
  • à intervalle variable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mode de réponse caractéristique

A
  • Le mode stable qui émerge après que le sujet (ou l’organisme) a bénéficié d’une exposition prononcée au programme.
  • Ces modes stables sont appellé comportements stabilisés, par opposition aux types de comportements plus variables qui se manifestent lorsqu’un sujet commence à être exposé au programme.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Les 4 programes intermittents de base

Programme à proportion fixe (PF)

A
  • Dans un programme à proportion fixe (PF), le renforcement est fonction d’un nombre de réponses prévisibles et fixe.
  • Programme PF1 est identique à un programme de renforcement continu dans lequel chaque réponse se retrouve renforcée.
  • Ex: dans un programme PF5 un rat doit appuyer 5 fois pour obtenir a manger.
  • Un programme PF engendre généralement un débit de réponse rapide, moyenne une courte pause après l’obtention de chaque renforcateur, qui se nomme pause après renforcement.
  • Chaque pause est suivie d’une reprise relativement prompte d’un débit de réponse. C’est pourquoi la configuration habituelle d’un programme PF est qualifée de pause et réponses, soit une courte pause suivie de réponse.
  • L’adoption d’un programme à proportion plus élevée donne lieu à de plus longues pauses après l’obtention du renforcement.
  • Un programme est considéré très dense ou très riche lorsque le renforcateur s’avère facile à obtenir, et frugal lorsque le renforcateur devient difficile à obtenir.
    • PF5 Dense
    • PF100 Frugal.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

L’étirement de la proportion (tension de ratio)

A
  • le fait de passer d’une faible proportion (un programme dense/riche) à une forte proportion (programme frugal), devrait être effectué graduellement.
  • Si la proportion s’accroit trop rapidement, le comportement risque de devenir erratique et se degrader complètement.
  • De même si on élève trop la proportion imposée, le comportement peut se dégénérer entièrement.
  • Une telle dégradation du comportement s’appelle tension de ratio.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Tension de ratio

A
  • Une perturbation de la réponse attribuable à une demande de réponse trop exigeante.
  • La tension de ratio correspond à ce que désigne le terme courant ‘‘épuisement professionel’’.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Les 4 programmes intermittents de base

Programme à proportion variable (PV)

A
  • Le renforcement est fonction d’un nombre de réponses imprévisible et varié (moyenne de la variation de demande).
  • Le programme PV engendre de généralement un débit de réponse rapide et stable, souvent assorti de peu de pause àprès l’obtention du renforcement, voir aucune pause.
  • Le programme PV explique en partie la persistance de comportements mal adaptés que manifestent certaines personnes, dont les parieurs. La nature imprévisible du jeu est à l’origine du débit très rapide de ce comportement (machine a sous)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Les 4 programmes intermittents de base

Programme à intervalle fixe (IF)

A
  • Le renforcement est fonction de la première réponse donnée après une prériode de temps prévisible et fixe.
  • Dans le cas d’un programme à intervalle fixe de 30 secondes. (IF 30 secs) pour un rat, celui ci obtient un morceau de nourriture la première fois qu’il appuie un levier après une intervalle de 30 secondes. Par la suite une autre intervalle de 30 secondes doit s’écouler avant que l’action d’appuyer sur le levier ne lui procure une nouveau morceau de nourriture.
  • Engendre un mode de réponse ondulant (courbe orientée ver le haut) qui comprend une pause après l’obtention du renforcement suivie d’un débit de réponse de plus en plus rapide à mesure que l’intervalle s’écoule. (exemble regarder montre pour magasin et étude pour examen)
  • Dans un programme IF strict, toute réponse produite durant l’intervalle ne sert à essentiellement à rien.
  • Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
  • Fixe : la durée de l’intervalle ne change pas d’un renforcement à un autre

Exemple : vérifier si on a reçu un chèque de bien-être social, attendre l’autobus.

  • Comportement observé : des réponses isolées et espacées dans le temps
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Les 4 programmes intermittents de base

Programme à intervalle variable (IV)

A
  • Le renforcement est fonction de la première réponse survenant après une période de temps imprévisible et variée. (moyenne de temps)
  • Engendre un débit de réponse stable et modéré, souvent assorti à peu de pauses après l’obtention du renforcement, voir d’aucune. Engendre un débit de réponse prévisible ainsi qu’un débit de renforcement prévisible.
  • Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
  • Variable : la durée de l ’intervalle varie d ’un renforcement à un autre
    • Exemple : recomposer un numéro de téléphone occupé
  • Comportement observé : rythme de réponses lent mais assez constant.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Les programmes à durée

A
  • Dans un programme à durée, le renforcement est fonction de l’exécution d’un comportement étalé tout au long d’une certaine période de temps.
  • Plutôt imprécis, comparativement aux quatre programmes de base analysés précédemment. Dans le cas d’un programme PF, on sait précisément ce qui a été fait pour obtenir le renforçateur tandis que dans le DF (durée fixe), la personne active et paresseuse vont tout les deux l’avoir.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Programme de durée fixe (DF)

A
  • Le comportement doit être exécuté en continu pendant une période de temps prévisible et fixe. Par exemple, Julie peut autoriser son fils à écouter la télé chaque soir, aprés 2 heures d’études (DF 2h).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Programme à durée variable (DV)

A
  • Le comportement doit être exécuté en continu pendant une période de temps imprévisible et variée, Par exemple le rat doit courrir dans la petite roue pendant 60 secondes en moyenne avant d’obtenir de la nourriture, et le temps requis varie de 1 à 120 seconds au cours d’un essai donné. (DV 60 sec)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Progrmame de débit de réponse

A
  • Le renforcement est directement fonction du débit de réponse du sujet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Le renforcement différentiel du débit rapide (RDDR)

A
  • Le renforcement est fonction de la production d’au moins un certain nombre de réponse en une certaine période de temps ou, plus généralement il s’obtient moyennant un débit de réponse rapide.
  • L’expression renforcement différentiel signifie qu’un type de réponse est renforcé alors qu’un autre ne l’est pas.
  • On donne le renforcement si le debit est rapide, pas si il est lent.
17
Q

Le renforcement différentiel du débit lent (RDDL)

A
  • Une période de temps minimale doit s’écouler entre deux réponse avant l’apparition du reforçateur ou, plus généralement, le renforcement s’obtient moyennant un débit de réponse lent.
18
Q

Renforcement différentiel de réponse rythmée (RDRR)

A
  • Le renforcement est fontion de la prodution d’une suite de réponse selon un débit préétabli ou, plus généralement, il s’obtient moyennant une réponse ni trop rapide ni trop lente.
  • ex: danse
19
Q

Les programmes de renforcement non contingent (programme indépendant de la réponse)

A
  • Le renforçateur apparait indépendemment de toute réponse, En d’autres termes, il n’est pas nécéssaire de produire une réponse pur obtenir un renforçateur.
  • 2 types à taux fixe (TF) et à taux variable (TV)
  • Peut aider à résoudre les comportements non adaptés (exemple enfant qui recherche de l’attention)
  • Pousse à déployer moins d’efforts.
20
Q

Programme à temps fixe (TF)

A
  • Le renforçateur apparait apprès une prériode de temps prévisible et fixe, quel que soit le comportement du sujet. Par exemple (TF30 sec), un pigenon a accès à la nourriture toutes les 30 secondes peu importe son comportement.
  • Un programme TF comporte donc l’obtention d’un renforcateur gratuit après une période de temps prévisible.
21
Q

Programme à temps variable (TV)

A
  • Le renforçateur apparait après une période de temps imprévisible et varieé, que que soit le comportment du sujet. (TV30sec), un pigeon a accès à la nourriture après un intervalle moyen de 30 secondes, alors que l’intervalle réel,au cours d’un essai donné, varie de 1 à 60 secondes
  • Rend compte de comportements superstitieux, cherche a rendre prévisible l’imprévisible.
22
Q

Programme conjonctif

A
  • Conjonctif: Qui réunit deux choses ensemble.
  • Est un type de programme complexe dans lequel les exigences propre à au moins deux programmes simples doivent être satisfaites avant la présentation d’un renforçateur.
  • Ex: Travail: nombre d’heures hebdomadaires et l’accomplissement d’un travail suffisant pour éviter le congédiment.
23
Q

Programme ajustable

A
  • La demande de réponse change en fonction de la performance du sujet pendant qu’il répond au renforçateur précédent.
  • Par exemple: Par exemple exigences plus élevée après avoir maitriser une étape d’une activité par exemple apprendre un instrument de musique ou exigeances scolaires
  • Façonnement aussi un programme ajustable, dans la mesure ou le critère devient plus exigeant, selon la performance du sujet.
24
Q

Programme de chaîne

A
  • Consiste en une suite d’au moins deux programmes simples, ou chacun a son propre S(d) et dont le dernier produit un renforçateur terminal.
  • La personne ou l’animal doit mener à terme une suite de programme à composantes afin d’obtenir le renforçateur convoité.
  • Diffère du programme conjonctif par le fait que les programmes à composante doivent être menés à terme dans un ordre précis, ce qui n’est pas le cas dans un programme conjonctif.
  • Dans ce type de programmes, les réponses aux premiers maillons ont tendance à être plus faibles que celles reliées au maillons plus près du renforçateur terminal
25
Q

Effet du gradient de but

A
  • La hausse de la force ou de l’efficacité de la réponse qui se produit à mesure qu’on se rapproche de l’objectif à atteindre.
  • La différence d’une force de la réponse entre les premiers et les derniers maillons d’une chaine réflète bien ce principe béhavioral plus général.
26
Q

Plans de renforcement simple

A

Plan à ratio:il est basé sur le nombre de réponses

– ratio fixe (FR)

– ratio variable (VR)

Plan à intervalle : il est basé sur le délai depuis le dernier renforcement

– intervalle fixe (FI)

– intervalle variable (VI)

Chaque type de plan produit une courbe de réponses caractéristique

27
Q

Renforcement continu vs Renforcement partiel

A

Le renforcement continu : chaque réponse appropriée est suivi d’un renforcement.

Le renforcement partiel : chaque réponse appropriée n’est pas nécessairement suivi d’un renforcement.

  • L’effet du renforcement partiel :
    • ralentissement de la courbe d’apprentissage
    • résistance à l’extinction.
28
Q

Plan à ratio fixes

A

Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives

Fixe : le nombre de réponses nécessaires ne change pas.

Exemple : le travail payé à l’unité produite

Comportement observé : réponse à haute fréquence mais suivie d’une pause “post-renforcement” pour les ratio élevés (fatigue ou consommation)

29
Q

Plans à ratio variable

A

Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives

Variable : le nombre de réponses nécessaires varie d’un renforcement à l’autre

Exemple : une machine à sous, VLT de Loto-Québec

Comportement observé : effort élevé et constant

30
Q

Pourquoi est-ce que dans un programme en chaîne les réponses aux premiers maillons ont-elle tendance à être plus faibles que celles reliées au maillons plus près du renforçateur terminal?

A
  • Renforcement immédiat plus efficace que renforcement différé.
  • Plus il y a d’étapes entre les représentations des renforçateurs, moins le lien est fort.
  • Principe général de l’effet du gradient.
  • Hausse de la force ou de l’efficacité de la réponse à mesure que l’on s’approche de l’objectif