Cours 10- plans de renforcement... Flashcards
Qu’est-ce qu’un renforcement continu?
Chaque réponse appropriée est suivi d’un renforcement
Relation statistique de 100%
Qu’est-ce qu’un renforcement partiel/intermittent?
Parfois la réponse n’est pas suivi de la conséquence
Quel effet à le renforcement partiel?
– ralentissement de la courbe d’apprentissage
– résistance à l’extinction
Sur quoi est basée la loi de l’effet?
Elle est basée sur l’apparition de la conséquence (l’apparition de la conséquence cause l’apprentissage)
Quel renforcement est le plus efficace et permet d’apprendre le plus vite?
Le renforcement continu
Vitesse d’acquisition est plus rapide et l’extinction aussi
Qu’est-ce que le plan à ratio?
il est basé sur le nombre de réponses
ration fixe et ratio variable
Qu’est-ce que le plan à intervalle?
il est basé sur le délai depuis le dernier renforcement
intervalle fixe et intervalle variable.
Puisqu’il y a un délai, cela crée une période réfractaire, une pause imposée
Que peut-on dire sur le plan à ratio fixe?
Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives
Fixe : le nombre de réponses nécessaires ne change pas (ce n’est donc pas une probabilité - le sujet peut prédire quand il reçoit la récompense)
Il est très proche du renforcement continu et c’est le plus utilisé en labo
Que peut-on dire sur la courbe du plan à ratio fixe?
réponse à haute fréquence mais suivie d’une pause “post-renforcement” pour les ratio élevés (fatigue ou consommation)
courbe performance très intense car le sujet veut la récompense le plus rapidement possible.
Pour quelles raison les escaliers peuvent-ils apparaître sur la courbe de performance des plans à ratio fixe?
possibilité 1: fatigue
possibilité 2: consommation
escaliers surtout présents quand ratio exigeant
Qu’est-ce que le plan à ratio variable?
Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives
Variable : le nombre de réponses nécessaires varie d’un renforcement à l’autre
On n’a pas de certitude à savoir quelle réponse sera récompensée - hasard
Quel serait un exemple de plan à ratio fixe?
Être payé après un certain nombre d’unités produites
Quelle est la meilleure manière de faire travailler quelqu’un le plus rapidement possible?
Plan à ratio fixe
Qu’est ce que les plans à ratio fixe et ratio variable ont en commun?
Produisent des réponses intenses
Quel serait un exemple de plan à ratio variable?
Les machines à sous
Comment est la courbe de performance pour les plans à ratio variable?
Beaucoup de réponses et peu de pauses (la prochain réponse est peut-être la bonne!)
Effort constant et élevé
Qu’est-ce que le plan à intervalle?
intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
On évite ainsi la fatigue
L’intervalle n’oblige pas que la personne revienne à un moment précis.
Qu’est-ce qu’un plan à fenêtres?
La conséquence est disponible entre un temps X et Y
Qu’est-ce que le plan à intervalle fixe?
intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
Fixe : la durée de l’intervalle ne change pas d’un renforcement à un autre
Comment est la courbe de performance pour un plan à intervalle fixe?
Ce sont des blocs espacés par des intervalles, prend la forme d’une vague
Ce sont des réponses isolées et espacées dans le temps
Quel serait un exemple de plan à intervalle fixe?
Aller chercher son chèque de bien-être social (une fois aux deux semaines)
Qu’est-ce que le plan à intervalle variable?
Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
Variable : la durée de l ’intervalle varie d ’un renforcement à un autre
Quel serait un exemple de plan à intervalle variable?
devoir recomposé un numéro de téléphone occupé
Comment est la courbe d’apprentissage pour le plan à intervalle variable?
rythme de réponses lent mais assez constant
Pourquoi Skinner est-il en désaccord avec la loi de l’effet de Thorndike?
De la manière dont Thorndike l’a formulée, il dit que la contiguïté est la cause de l’apprentissage tandis que Skinner dit que cela contredit la notion de contingence comme cause du conditionnement.
Que découvre Tinklepaugh?
Il étudie la permanence de l’objet chez les primates et découvre le principe de l’attente. Le principe de l’attente commence à être une exception à la loi de l’effet et c’est le début de ce qui va éventuellement rejeter l’idée béhaviorale
Comment fonctionne la première phase de l’expérience d’Hammond?
Phase 1: renforcement de 5% des réponses
- Résultat: 3000 pression de levier par heure;
C’est donc la phase de travail: pour manger, le rat doit peser le levier
Comment fonctionne la phase 2 de l’expérience d’Hammond?
Phase 2: continuation du renforcement de la phase 1, mais ajout de récompenses dans 5% des cas où aucune pression n ’a été faite
- Résultat: Le taux de réponse diminue graduellement presque à zéro
Il reçoit de la nourriture gratuitement
Le levier est toujours contingent et il n’y a pas eu d’extinction, l’alternative est seulement plus intéressante.
Que se passe-t-il dans la phase 3 dans l’expérience d’Hammond?
La phase 3 est en fait la phase 1, donc lorsque le rat réalise qu’il n’y a plus de nourriture gratuite, il retourne au levier.
À quelle conclusion arrive-t-on avec l’expérience d’Hammond?
On réalise que dans une situation X, on peut apprendre 2 réponses qui donnent la même conséquence. Il n’est pas nécessaire de réduire la contingence d’une réponse pour en apprendre une autre.
La contingence n’est donc plus la clé de l’apprentissage: c’est quoi alors?
Qu’est-ce qu’un renforçateur pour Pavlov?
Les renforçateurs sont des SI qui sont associés avec des SC
Qu’est-ce qu’un renforçateur selon Thorndike?
Les renforçateurs fournissent de la satisfaction et ceci établit des connexions entre les stimuli
Qu’est-ce qu’un renforçateur pour Skinner?
Un renforçateur est tout stimulus qui augmente la réponse qui le précède
Que développe Premack?
Il va contribuer à développer une conception différente de ce qui constitue (ou peut constituer) un renforçateur
Que préfère le cochon Newt?
Newt préfère la
recherche de racines
– la recherche de racine peut renforcer Newt
Que préfère le cochon Jack?
Jack préfère le repos
– le repos peut renforcer Jack
Quelle est la situation opérante libre dans l’expérience de Premack?
Il laisse les cochons faire ce qu’ils veulent faire pendant une heure
Que dit le principe de Premack?
Un comportement plus probable peut servir de renforcement à un comportement moins probable.
Un comportement préféré peut servir à renforcer un comportement moins préféré.
Que faut-il faire avant d’utiliser le principe de Premack?
Il faut observer pour voir ce que le sujet préfère
Qu’est-ce qu’un renforçateur selon Timberlake et Allison? Quel est le nom de la thorie?
Tout comportement produit à un niveau inférieur à son niveau optimal peut être un renforçateur.
C’est la théorie de la privation de la répone
Selon la théorie de Timberlake et Allison, est-ce que ce qui constitue un renforçateur est fixe?
Non, ce qui constitue un renforçateur change avec le contexte
La contingence n’est pas fixe