Cours 7 Flashcards by Gaëlle Marcotte

Loi de l’effet : rappel

Toute situation suivie d’une conséquence agréable : comportement augmente
Toute situation suivie d’une conséquence désagréable : comportement diminue
Pour Skinner : Dès qu’un comportement augmente : renforcement
Dès qu’un comportement diminue : punition

How well did you know this?

Not at all

Perfectly

Renforcement continu

chaque réponse appropriée est suivie d’un renforcement (garantie renforcement à chaque réponse → apprentissage rapide)
Très utile lorsqu’un comportement est façonné ou renforcé pour la première fois

How well did you know this?

Not at all

Perfectly

Renforcement partiel

chaque réponse appropriée n’est pas nécessairement suivie d’un renforcement
-le comportement entraîne parfois le renforcement, et parfois non

How well did you know this?

Not at all

Perfectly

Effets du renforcement partiel

ralentissement de la courbe d’apprentissage

- résistance à l’extinction (puisque plus long)

How well did you know this?

Not at all

Perfectly

Plan de renforcement simple

1) Plan à ratio

2) Plan à intervalle

How well did you know this?

Not at all

Perfectly

Plan à ratio

Basé sur le nombre de réponse
1- ratio fixe
2- ratio variable

How well did you know this?

Not at all

Perfectly

Plan à intervalle

basé sur le délai depuis le dernier renforcement
1- intervalle fixe
2- intervalle variable

How well did you know this?

Not at all

Perfectly

Plan à ratio fixe

Ratio : l’obtention du renforcement est conditionnelle à la production d’un nombre déterminé de réponses répétitives
Fixe : le nombre de réponses nécessaires ne change pas
Exemple : le travail payé à l’unité produite
Comportement observé : réponse à haute fréquence, mais suivie d’une pause « post-renforcement » pour les ratios élevés (fatigue ou consommation) (fatigue = fatigue musculaire, fatigue de l’individu, les plans à ratio sont épuisants) (consommation = travailler dur un moment donné, puis longue période de vacances : accumulé assez de la récompense : pause de la récompense)
Lorsqu’un individu est sur le plan ratio, c’est lui qui contrôle les récompenses.
« Tant de fois à faire cela pour avoir récompense » → amène une motivation à répéter beaucoup la réponse.
Ratio de 1/1000 ne fonctionnerait pas, ratio de 1/5 oui.
On peut augmenter graduellement les ratios, jusqu’à très loin. Le fait de le faire graduellement empêche l’extinction.

How well did you know this?

Not at all

Perfectly

Plan à ratio variable

Ratio : l’obtention du renforcement est conditionnelle à la production d’un nombre déterminé de réponses répétitives
Variable : le nombre de réponses nécessaires varie d’un renforcement à l’autre
Exemple : Une machine à sous de Loto-Québec
Comportement observé : effort élevé et constant
Les gens ne « peuvent » pas arrêter puisqu’ils ne savent pas quand la récompense peut arriver (peut-être à la prochaine réponse…)
Beaucoup plus résistant à l’extinction

How well did you know this?

Not at all

Perfectly

Plan à intervalle fixe

Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée – une seule réponse est alors suffisante
Fixe : la durée de l’intervalle ne change pas d’un renforcement à un autre
Exemple : vérifier si on a reçu un chèque de bien-être social
Comportement observé : des réponses isolées et espacées dans le temps
L’intervalle débute lorsqu’on est récompensée.
Récompense – ensuite période de temps pendant laquelle la réponse n’entraîne pas la conséquence – Réponse suivie de récompense – ainsi de suite
L’intervalle ne finit pas tant qu’il n’y a pas eu la réponse (si qqchose est disponible après tel période de temps, cette chose va le rester jusqu’à ce que la réponse soit émise)

How well did you know this?

Not at all

Perfectly

Plan à intervalle variable

Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée – une seule réponse est alors suffisante
Variable : la durée de l’intervalle varie d’un renforcement à un autre
Exemple : recomposer un numéro de téléphone occupé
Comportement observé : rythme de réponses lent, mais assez constant
Dépend de si urgent ou pas : si non → on va attendre + longtemps, si oui → on va le faire tout de suite
Dépend à quelle vitesse ont veut la récompense

How well did you know this?

Not at all

Perfectly

Programme de durée fxe

Le comportement doit être fait de manière continue pour une période de temps prédictible. (le rat doit courir pendant 60 secondes pour avoir une pilule de nourriture)

How well did you know this?

Not at all

Perfectly

Programme de durée variable

Le comportement doit être fait de manière continue pour une période de temps indéterminé

How well did you know this?

Not at all

Perfectly

Quelle est la différence entre horaire à durée fixe/variable et à intervalle fixe/variable?

Les horaires à durée fixe/variable sont beaucoup plus flou qu’à intervalle. Le comportement fait « de manière continu » peut varier de beaucoup. Dans les pans à intervalle, les rats savent exactement ce qui doit être fait.

How well did you know this?

Not at all

Perfectly

Renforcement différentiel des taux élevés

le renforcement est contingent à émettre au moins un certain nombre de réponse dans une certaine période de temps. Le renforcement est émis si la réponse est un taux élevé et non si elle est faite à un taux faible (pour ça que c’est au moins).

How well did you know this?

Not at all

Perfectly

Renforcement différentiel des taux faibles

un temps minimum doit passer entre chaque réponse pour que le renforcement soit émis.

Renforcement différentiel de la réponse stable

le renforcement est émis pour avoir répondu pas trop vite et pas trop lentement. Réponse dans plus de 10 sec, mais moins de 20 sec, par exemple.
On émet la réponse dans un intervalle fixe

Programme de renforcement non-contingent

le renforcement est émis indépendamment des réponses. Donc, pas besoin d’émettre une réponse pour obtenir le renforcement
- Fixed time : renforcement est donner à tous les 10 minutes par exemple
- Variable time : le renforcement apparaît de temps à autre
Cela amène le développement de « superstition », puisqu’on a aucun effet sur le délivrement du renforcement, mais qu’on ne le sait pas, on crée des liens dans notre tête qui n’existent pas vraiment.

Plans conjoints

requiert deux ou plus plan simple pour que le renforcement soit émis. On mixe plusieurs des plans ci-haut

Plans ajustable

Le plan change en fonction de la performance : un rat qui performe super bien, on va augmenter son intervalle pour avoir la réponse

Chained schedules

Séquence de deux ou plus plans simples qui on chacun leur propre stimulus discriminatoires.

Différence horaire conjonctif et chained schedules

chained schedules : les plans doivent être faits dans un ordre précis

Tinklepaugh découverte

Tinklepaugh démontre que les organismes apprennent à s’attendre à recevoir des renforçateurs particuliers : des singes à qui on donne une feuille de salade se montrèrent déçus quand ils « s’attendaient » à un morceau de banane
Qqchose d’agréable → fait augmenter réponse → quand on le refait on s’attend à la même récompense

L’expérience d’Hammond

L’expérience de contingence d’Hammond (1980) est apparentée au concept « Go – NoGo » :
 Phase 1 → renforcement de 5% des réponses (5% de chance de recevoir nourriture)
Résultat : 3000 pressions de levier par heure en moyenne → 150 pilules de nourriture (ils travaillent pendant 1h pour avoir un nombre de récompense)

 Phase 2 → continuation du renforcement de la phase 1, mais ajout de récompenses dans 5% des cas ou aucune pression n’a été faite (distribution de nourriture gratuite)

Résultat : le taux de réponse diminue graduellement presque à zéro (réponse d’attente à la place de presser levier → les rats ne touchent plus au levier, même s’il fonctionnait encore et même s’il n’y a pas eu extinction)
*Phase 3 et 4 répétitions de 1 et 2 (design ABAB)**

Notion de renforçateur selon Pavlov, Thorndike et Skinner

- « Les renforçateurs sont des SI qui sont associés avec des SC » selon Pavlov - « Les renforçateurs fournissent de la satisfaction et ceci établit des connexions entre les stimuli » selon Thorndike - Enfin, pour Skinner, « un renforçateur est tout stimulus qui augmente la réponse qui le précède » (pas plus explicatif que Thorndike)

Le principe de Premack

- David Premack (1925-2015) est un des grands noms de l’apprentissage cognitif et de l’étude de l’intelligence des primates - Plutôt dans sa carrière, il a commencé par être un béhavioriste progressiste - Il va contribuer à développer une conception différente de ce qui constitue (ou peut constituer) un renforçateur suite à une série d’observations faites chez le cochon Le principe de Premack : le cas de Newt : - 1 heure au choix :  28 min de recherche de racine  17 min de repos Newt préfère la recherche de racines → la recherche de racine peut renforcer Newt Le principe de Premack : le cas de Jack : - 1 heure au choix :  28 min de repos  17 min de recherche de racines Jack préfère le repos → le repos peut renforcer Jack LE PRINCIPE DE PREMACK = un comportement plus probable peut servir de renforcement à un comportement moins probable (je vous fait faire un comportement que vous n’aimez pas et ensuite, je vous donne accès au comportement que vous aimez)

Extension au principe de Premack : Timberlake et Allison

* Tout comportement produit à un niveau inférieur à son niveau optimal peut être un renforçateur * Ainsi, si le niveau optimal de préférence d’un individu est d’étudier 20% du temps et qu’il ne peut étudier que 10%, alors pouvoir étudier plus que 10% pourra servir à renforcer un autre comportement * C’est la théorie de la privation de la réponse de Timberlake et Allison « Ce qui constitue un renforçateur change avec le contexte »