Cours 7 : PLANS DE RENFORCEMENT et NOTIONS DE RENFORCATEUR Flashcards

Question

Pourquoi la performance diminue quand le ratio devient trop élevé?

Answer 1

- Fatigue (on ne peut soutenir le plan très longtemps) - Vacances (avoir tellement de récompenses, on arrête de consommer, le rat dit —> jvais prendre une pause, j’ai assez de bouffe et je vais manger)

Answer 2

Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives Variable : le nombre de réponses nécessaires varie d’un renforcement à l’autre On ne peut prévoir si la prochaine réponse va être récompensée ou non.

Answer 3

Exemple : une machine à sous de Loto-Québec - machine à sous: clairement un plan ratio (car plus on joue, plus on a de chances de gagner, MAIS le % de chances n’est pas fixe, pour pas que ce soit prévisible. Parenthèse: Observation de gens qui jouent dans une machine à sous - jouer aléatoirement: joueur non-professionnel - 2 types de joueurs professionnels - La personne qui perd, perd, perd, perd, comprend que c’est un plan à ratio (un jour va gagner) et qu’il n’y a pas d’autre choix pour gagner que le nombre de réponses. Demandent à leur ami de guetter leur place pendant qu’ils vont au toilettes. - Joueur qui regarde et va prendre la machine que les gens délaissent et essaient 15-20 minutes dessus. Comprennent que le plan à ratio variable n’est pas variable pour toujours et qu’à un bon moment ils vont finir par gagner.

Answer 4

Comportement observé : effort élevé et constant. Pas de pause. Les plans à ratio variables: comportements très persistants: «ON SAIT JAMAIS ». Courbe: pente constante (pas de pauses/escalier) et très élevée

Answer 5

Plan à intervalles.

Answer 6

Intervalle : le renforcement est disponible (pour être obtenu)seulement après une période de temps déterminée - une seule réponse est alors suffisant - Intervalle: période réfractaire où il n’y a pas de récompense.

Answer 7

Le rat peut indirectement découvrir qu’il y a un délai (Thorndike: le rat revient de plus en plus vite -> graduellement, le délai de retour va approcher de la période d’intervalle.) Comportement régulier.

Answer 8

Exemple : vérifier si on a reçu un chèque de bien-être social (intervalle: 1 mois) Autre exemple: Donner un cours à l’université, jour, heure et durée fixe. Il n’y a pas de récompense au prof (salaire) s’il se pointe et donne un cours à un autre moment.

Answer 9

Comportement observé : des réponses isolées et espacées dans le temps Courbe: longs plateaux avec réponses (grosses augmentations) à certains intervalles. Évite la fatigue et empêche d’obtenir beaucoup de récompenses en bcp de temps (vacances)

Answer 10

Avantage: Régularise les réponses, stables (ex: 9 à 5)

Answer 11

Si on veut que les gens travaillent bcp et vite, on évite les plans à intervalles.

Answer 12

Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante Variable : la durée de l ’intervalle varie d ’un renforcement à un autre

Answer 13

Exemple : recomposer un numéro de téléphone occupé

Answer 14

Les BESOINS du sujet. ex: - Si on n’a pas vraiment besoin de parler a la personne (on est en mars et pour Noël) on évite les réponses inutiles: on attend 3h (le max de la durée de l’appel) ou plus. - Si on en a VRAIIIIMENT besoin de la récompense (besoin immédiat, on prend des risques de faire des réponses inutiles): on appelle toutes les 30 secondes.

Answer 15

Comportement observé : rythme de réponses lent mais assez constant Courbe: pente constante (pas de pause/escalier) et moins élevée que pour ratio variable.

Answer 16

La contiguité (Dans la formulation même: « suivi », Skinner dit que Thorndike dit que le mécanisme est la contiguité.)

Answer 17

Skinner n'est pas d'accord car cela contredit la notion de contingence comme cause du conditionnement. - Skinner: Conséquence = l’important (R-C) - Le rat doit produire la réponse car la réponse est causative.

Answer 18

Il démontre que les organismes apprennent à s’attendre à recevoir des renforçateurs particuliers: des singes à qui on donne une feuille de salade se montrèrent déçus quand ils “s’attendaient” à un morceau de banane. La salade n'est donc pas un renforçateur dans ce cas!!! Ça dépend du contexte, des ATTENTES. Donc, la cause du conditionnement ne serait pas juste R-C comme Skinner l'a proposé :) Plus S-R-C. (comme le proposent Colwill et Rescola dans leur modèle de contingence)

Answer 19

Phase 0: on met les rats dans une boite et ils apprennent que le levier donne de la bouffe. Phase 1: renforcement de 5% des réponses (1:20) Phase 2: continuation du renforcement de la phase 1, mais ajout de récompenses dans 5% des cas où aucune pression n ’a été faite (on donne de la bouffe gratuite aléatoirement) Phases 3 & 4 répétition de 1 & 2 (design ABAB)

Answer 20

Phase 1 : 3000 pression de levier par heure; 1 pression presque par seconde. (plutôt fort) Phase 2: Le taux de réponse diminue graduellement presque à zéro. La réponse du rat: attendre et ne pas presser le levier pour recevoir de la nourriture.

Answer 21

- Selon Rescola, on aurait transféré la contingence d’une réponse à l’autre. (il n’y a q’une seule contingence) - Le rat ne devrait plus presser le levier pour les étapes subséquentes. Est-ce ce qui arrive? NON

Answer 22

Phase 3: plus de nourriture gratuite, le rat continue à presser le levier, instantanément (on n’a pas réappris à presser le levier, et pas de récupération spontanée) Phase 4: Le rat instantanément arrête de presser le levier. ON ALTERNE D'UNE CONTINGENCE À L' AUTRE!!!

Answer 23

Clairement, le rat a appris qu’il était possible d’obtenir de la nourriture de 2 façons. Le rat a appris 2 contingences pour la même conséquence. S -> R1 -> C s -> R2 -> C Ainsi, le modèle de conditionnement instrumental n’est pas comme le conditionnement classique: il est possible d’apprendre plusieurs réponses. S ——> C !!!

Answer 24

Pour Pavlov, Skinner et Thorndike, c'est la conséquence qui qui crée un apprentissage. (un pairage pas de conséquence: il n’y a pas d’apprentissage pour ce pairage.) Tinklepaugh et Premack ne sont pas d'accord.

Answer 25

renforcateur ; cochon

Answer 26

il y a de la variation individuelle dans la personnalité, s’approche un peu plus de l’humain.

Answer 27

Observer 1h de la vie de 2 cochons différents (Newt et Jack)

Answer 28

 Newt préfère (passe plus de temps à faire) la recherche de racines (travailler) Newt est un cochon travaillant – la recherche de racine peut renforcer Newt  Jack préfère le repos. Jack est un cochon fainéant. – le repos peut renforcer Jack

Answer 29

On peut utiliser un comportement comme renforçateur. (un comportement qu’on aime faire plus qu’un autre). Les comportements préférés peuvent récompenser les comportements non-préférés.

Answer 30

Tout comportement produit à un niveau inférieur à son niveau optimal (seuil de satisfaction) peut être un renforçateur. C'est la THÉORIE DE LA PRIVATION DE LA RÉPONSE: « Ce qui constitue un renforçateur change avec le contexte. »

Answer 31

C'est plus précis que ce que propose Premack car ça montre que c'est pas juste parce qu'on préfère un comportement à un autre qu'il va être une récompense. Ex: récompense de jouer au xbox —> peut ne plus être une récompense si on a joué toute la journée.

Answer 32

pouvoir étudier plus que 10 % pourra servir à renforcer un autre comportement.

Answer 33

priver quelqu’un d’aller au toilettes, le niveau d’optimal n’est pas atteint -> devient une récompense

Answer 34

privation ; relatif ; absolu