Cours 7 : Programmes de renforcement/extinction Flashcards
Programme de renforcement
La demande de réponse à satisfaire pour obtenir un renforcement
Densité du programme (e nombre de fois qu’un renforcement est obtenu par l’organisme)
Simple v. Complexe (combinaison de 2 programmes ou plus)
Programme de renforcement simple
Programme de renforcement intermittent (ou partiel): certaines réponses sont renforcées
Programme de renforcement non-contingent: le renforçateur apparaît indépendamment de toute réponse
Programme à proportion fixe (PF): le renforcement est fonction d’un nombre de réponses prévisible et fixe.
Programme à proportion variable (PV): renforcement est fonction d’un nombre de réponses imprévisible et varié.
Exemples de programmes à proportion fixe
Recevoir un dollars pour chaque devoir terminé (PF1- continu)
Un enfant qui fait 10 tableaux de multiplication est récompensé avec du temps libre (PF10)
Exemples de programmes à proportion variable
Un rat est en moyenne récompensé après 10 appuis d’un levier (PV10) avec possibilité d’appuyer jusqu’à 20 fois.
Un écureuil en moyenne déterre 30 noix (PV30) avec la possibilité de déterrer 60 trous.
Programmes à intervalle
Programme à intervalle fixe (IF): le renforcement est une fonction de la première réponse donnée après une période de temps prévisible et fixe.
Programme à intervalle variable (IV): le renforcement est une fonction de la première réponse suivie d’une période de temps imprévisible et variée.
***Tout comportement accompli durant l’intervalle est inutile pour l’obtention du renforcement.
Exemples de programmes à intervalle
Programme fixe:
Appeler sa banque et se faire dire d’attendre 10 minutes pour qu’un employé prenne son appelle (IF 10 min.)
Programme variable:
Appeler sa banque et se faire dire d’attendre pour qu’un employé prenne son appelle et qu’en moyenne on attend 30 minutes (IV 30 min)
Autres programmes de renforcement simple
Programme à durée: le renforcement est fonction de l’exécution d’un comportement étalée tout au long d’une certaine période de temps.
Programme de débit de réponse: le renforcement est directement fonction du débit de réponse du sujet.
Programme de renforcement non-contingent: le renforçateur apparaît indépendamment de toute réponse
Pas nécessaire de produire une réponse quelconque
Programmes à durée
Programmes à durée fixe (DF): le comportement doit être exécuté en continu pendant une période de temps prévisible et fixe.
Programmes à durée variable (DV): le comportement doit être exécuté en continu pendant une période de temps imprévisible et variée.
Problèmes avec les programmes à durée
Programme imprécis puisque «l’exécution continue d’un comportement» pour obtenir le renforcement peut varier.
Le comportement renforcé est indépendant du comportement de l’organisme
Potentiel de miner la motivation intrinsèque envers une activité si le renforcement ne reflète pas l’effort mis dans le comportement.
Programmes de débit de réponse
Renforcement différentiel du débit rapide (RDDR): le renforcement est une fonction de la production d’au moins un certain nombre de réponses en une certaine période de temps.
Renforcement différentiel du débit lent (RDDL): une période de temps minimale doit s’écouler entre deux réponses avant l’apparition du renforçateur.
Renforcement différentiel de réponses rythmées (RDRR): le renforcement est fonction de la production d’une suite de réponses selon un débit préétabli.
Les programmes non contingents
Programme à temps fixe (TF): le renforçateur apparaît après une période de temps prévisible et fixe, quelque soit le comportement du sujet.
Programme à temps variable (TV): le renforçateur apparaît après une période de temps imprévisible et variée, quelque soit le comportement du sujet.
Expérience des trois leviers (programmes non contingents)
Des étudiants sont placés dans des cubicules contenant trois leviers et un compteur
Les étudiants sont ensuite avisés que s’ils font quelque chose, ils auront plus de points ajoutés à leur compteur
Demander d’accumuler le plus grand nombre de points possible
En réalité, les comportements des participants n’avaient aucun effet sur leur pointage (participants divisés soit dans un programme TF ou TV)
Résultats: les participants ont adopté des comportements pour activer les leviers
Les programmes non contingents et la superstition
Comportements superstitieux en tant qu’effets secondaires du renforcement contingent d’un autre comportement
Bénéfices d’un programme non contingent
Pour réduire certaines situations ou comportements non-désirés
Un programme non contingent assure une source d’attention continue qui évite le développement de comportements mal adaptés.
Implications théoriques
Confirmation empirique de l’estime inconditionnelle (Rogers, 1959)
- L’amour, le respect et l’acceptation nécessaires pour le développement d’une personnalité saine.
Confirmation empirique des théories de Maslow (1971) sur l’éducation d’un enfant
Implications négatives d’un programme non contingent
Un programme non contingent peut aussi nuire aux débits de réponses liés à un autre programme contingent
Joueurs avec un contrat de longue durée performaient moins bien comparativement aux joueurs avec un contrat d’un an
Les programmes de renforcement complexes
Programme conjonctif: un type de programme complexe dans lequel les exigences propres à un moins deux programmes simples doivent être satisfaites avant la présentation d’un renforçateur.
Programme de renforcement ajustable
Programme ajustable: la demande de réponse change en fonction de la performance du sujet pendant qu’il répond au renforçateur précédent.
Programme de renforcement en chaîne
une suite d’au moins deux programmes simples ou chacun a son propre Sᴰ et dont le dernier produit un renforçateur terminal.
Présentation de trois maillons consistant chacun d’un programme IF60 sec.
Résultats: les pigeons ont prit de longues pauses et un débit de réponse lent pour le premier maillon (touche blanche)
Mais les pauses devenaient moins longues, et le débit de réponse plus rapide au courant du deuxième et troisième maillon
Effet du gradient de but
Une hausse de la force ou de l’efficacité de la réponse qui se produit à mesure qu’on se rapproche de l’objectif à atteindre
Enchaînement à rebours
Manière la plus efficace pour l’apprentissage en chaîne est de débuter avec le maillon terminal et d’ajouter des maillons qui se rendent au Sᴰ du maillon terminal
Solution à la faiblesse du programme en chaîne
Rendre plus visible l’achèvement de chaque maillon pour en faire des renforçateurs secondaires
Note son progrès
Théorie de la réduction des pulsions (théories du renforcement)
Un événement est renforçant dans la mesure où il se trouve associé à la réduction d’un type de pulsion physiologique
- les comportements qui mènent à la réduction d’une impulsion physiologique (le comportement est lié à l’homéostasie physiologique), le comportement est automatiquement renforcé
Problèmes avec la théorie de réduction des pulsions
Certains renforçateurs ne sont pas liés à la réduction des pulsions physiologiques
- Parfois la motivation d’accéder au renforçateur est lié
Motivation incitatrice
- Lien avec motivation intrinsèque: plaisir de faire quelque chose non pour ce que cela pourrait apporter mais plutôt pour le plaisir en soit
Le principe de Premack
Adresse le problème des renforçateurs et punisseurs en fonction de leurs effets sur le comportement (Skinner)
Voir le renforçateur en tant que comportement (plutôt qu’un stimulus)
Le processus de renforcement est alors une suite de comportements
Possibilité alors de comparer la fréquence de comportements pour déterminer si un sert de renforçateur pour un autre (comportement)
Catégorisations du principe de premack
Comportement très probable (CTB): Stimulus renforçateur
Comportement peu probable (CPP): Réponse
Le but est alors d’utiliser des CTBs pour renforcer des comportement CPPs.
Le principe met l’accent sur les probabilités relatives des comportements sous étude (CTB ou CPP)
Le comportement cible est le comportement qu’on veut apprendre
Le but est de rendre le comportement cible (CPP) plus fréquent en l’associant à la conséquence (CTB)
L’hypothèse de la déprivation de réponse
Un comportement peut servir de renforçateur à deux conditions
1) l’accès à ce comportement est restreint
2) sa fréquence se situe sous un niveau préférentiel
Le niveau préférentiel de référence est quand l’organisme peut pratiquer une activité comme il le désire.
L’organisme voudra alors faire un comportement pour se rendre à son niveau préférentiel;
Aide à expliquer quand les contingences de renforcements sont efficaces (Création d’une situation dans laquelle l’organisme est confronté à une réponse qui est sous son niveau de préférence)
L’hypothèse de la déprivation de réponse en comparaison avec le Principe de Premark
Similaire
Mais interprétation différente :
Modèle contingent qui peut mener à une hausse du comportement cible accompli par l’organisme pour satisfaire son niveau de préférence
Dans ce modèle, la fréquence du comportement est comparée à son niveau de référence (pas en référence à autre comportement– e.g. Premack)
L’approche comportementale axée sur le point de satiété
un organisme ayant librement accès à de multiples activités va répartir son comportement de façon à maximiser le renforcement global
Condition nécessaire pour la répartition optimale: les activités doivent être librement accessibles : Utilisation de la contingence pour maximiser un comportement
But : maximiser les activités pour s’approcher de son point de satiété en adoptant des compromis