Cours 10- plans de renforcement... Flashcards

1
Q

Qu’est-ce qu’un renforcement continu?

A

Chaque réponse appropriée est suivi d’un renforcement

Relation statistique de 100%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qu’est-ce qu’un renforcement partiel/intermittent?

A

Parfois la réponse n’est pas suivi de la conséquence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quel effet à le renforcement partiel?

A

– ralentissement de la courbe d’apprentissage

– résistance à l’extinction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Sur quoi est basée la loi de l’effet?

A

Elle est basée sur l’apparition de la conséquence (l’apparition de la conséquence cause l’apprentissage)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quel renforcement est le plus efficace et permet d’apprendre le plus vite?

A

Le renforcement continu

Vitesse d’acquisition est plus rapide et l’extinction aussi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que le plan à ratio?

A

il est basé sur le nombre de réponses

ration fixe et ratio variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que le plan à intervalle?

A

il est basé sur le délai depuis le dernier renforcement
intervalle fixe et intervalle variable.
Puisqu’il y a un délai, cela crée une période réfractaire, une pause imposée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que peut-on dire sur le plan à ratio fixe?

A

Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives
Fixe : le nombre de réponses nécessaires ne change pas (ce n’est donc pas une probabilité - le sujet peut prédire quand il reçoit la récompense)
Il est très proche du renforcement continu et c’est le plus utilisé en labo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Que peut-on dire sur la courbe du plan à ratio fixe?

A

réponse à haute fréquence mais suivie d’une pause “post-renforcement” pour les ratio élevés (fatigue ou consommation)
courbe performance très intense car le sujet veut la récompense le plus rapidement possible.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Pour quelles raison les escaliers peuvent-ils apparaître sur la courbe de performance des plans à ratio fixe?

A

possibilité 1: fatigue
possibilité 2: consommation
escaliers surtout présents quand ratio exigeant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce que le plan à ratio variable?

A

Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives
Variable : le nombre de réponses nécessaires varie d’un renforcement à l’autre
On n’a pas de certitude à savoir quelle réponse sera récompensée - hasard

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quel serait un exemple de plan à ratio fixe?

A

Être payé après un certain nombre d’unités produites

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelle est la meilleure manière de faire travailler quelqu’un le plus rapidement possible?

A

Plan à ratio fixe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est ce que les plans à ratio fixe et ratio variable ont en commun?

A

Produisent des réponses intenses

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quel serait un exemple de plan à ratio variable?

A

Les machines à sous

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment est la courbe de performance pour les plans à ratio variable?

A

Beaucoup de réponses et peu de pauses (la prochain réponse est peut-être la bonne!)
Effort constant et élevé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Qu’est-ce que le plan à intervalle?

A

intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
On évite ainsi la fatigue
L’intervalle n’oblige pas que la personne revienne à un moment précis.

18
Q

Qu’est-ce qu’un plan à fenêtres?

A

La conséquence est disponible entre un temps X et Y

19
Q

Qu’est-ce que le plan à intervalle fixe?

A

intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
Fixe : la durée de l’intervalle ne change pas d’un renforcement à un autre

20
Q

Comment est la courbe de performance pour un plan à intervalle fixe?

A

Ce sont des blocs espacés par des intervalles, prend la forme d’une vague
Ce sont des réponses isolées et espacées dans le temps

21
Q

Quel serait un exemple de plan à intervalle fixe?

A

Aller chercher son chèque de bien-être social (une fois aux deux semaines)

22
Q

Qu’est-ce que le plan à intervalle variable?

A

Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
Variable : la durée de l ’intervalle varie d ’un renforcement à un autre

23
Q

Quel serait un exemple de plan à intervalle variable?

A

devoir recomposé un numéro de téléphone occupé

24
Q

Comment est la courbe d’apprentissage pour le plan à intervalle variable?

A

rythme de réponses lent mais assez constant

25
Q

Pourquoi Skinner est-il en désaccord avec la loi de l’effet de Thorndike?

A

De la manière dont Thorndike l’a formulée, il dit que la contiguïté est la cause de l’apprentissage tandis que Skinner dit que cela contredit la notion de contingence comme cause du conditionnement.

26
Q

Que découvre Tinklepaugh?

A

Il étudie la permanence de l’objet chez les primates et découvre le principe de l’attente. Le principe de l’attente commence à être une exception à la loi de l’effet et c’est le début de ce qui va éventuellement rejeter l’idée béhaviorale

27
Q

Comment fonctionne la première phase de l’expérience d’Hammond?

A

Phase 1: renforcement de 5% des réponses
- Résultat: 3000 pression de levier par heure;
C’est donc la phase de travail: pour manger, le rat doit peser le levier

28
Q

Comment fonctionne la phase 2 de l’expérience d’Hammond?

A

Phase 2: continuation du renforcement de la phase 1, mais ajout de récompenses dans 5% des cas où aucune pression n ’a été faite
- Résultat: Le taux de réponse diminue graduellement presque à zéro
Il reçoit de la nourriture gratuitement
Le levier est toujours contingent et il n’y a pas eu d’extinction, l’alternative est seulement plus intéressante.

29
Q

Que se passe-t-il dans la phase 3 dans l’expérience d’Hammond?

A

La phase 3 est en fait la phase 1, donc lorsque le rat réalise qu’il n’y a plus de nourriture gratuite, il retourne au levier.

30
Q

À quelle conclusion arrive-t-on avec l’expérience d’Hammond?

A

On réalise que dans une situation X, on peut apprendre 2 réponses qui donnent la même conséquence. Il n’est pas nécessaire de réduire la contingence d’une réponse pour en apprendre une autre.
La contingence n’est donc plus la clé de l’apprentissage: c’est quoi alors?

31
Q

Qu’est-ce qu’un renforçateur pour Pavlov?

A

Les renforçateurs sont des SI qui sont associés avec des SC

32
Q

Qu’est-ce qu’un renforçateur selon Thorndike?

A

Les renforçateurs fournissent de la satisfaction et ceci établit des connexions entre les stimuli

33
Q

Qu’est-ce qu’un renforçateur pour Skinner?

A

Un renforçateur est tout stimulus qui augmente la réponse qui le précède

34
Q

Que développe Premack?

A

Il va contribuer à développer une conception différente de ce qui constitue (ou peut constituer) un renforçateur

35
Q

Que préfère le cochon Newt?

A

Newt préfère la
recherche de racines
– la recherche de racine peut renforcer Newt

36
Q

Que préfère le cochon Jack?

A

Jack préfère le repos

– le repos peut renforcer Jack

37
Q

Quelle est la situation opérante libre dans l’expérience de Premack?

A

Il laisse les cochons faire ce qu’ils veulent faire pendant une heure

38
Q

Que dit le principe de Premack?

A

Un comportement plus probable peut servir de renforcement à un comportement moins probable.
Un comportement préféré peut servir à renforcer un comportement moins préféré.

39
Q

Que faut-il faire avant d’utiliser le principe de Premack?

A

Il faut observer pour voir ce que le sujet préfère

40
Q

Qu’est-ce qu’un renforçateur selon Timberlake et Allison? Quel est le nom de la thorie?

A

Tout comportement produit à un niveau inférieur à son niveau optimal peut être un renforçateur.
C’est la théorie de la privation de la répone

41
Q

Selon la théorie de Timberlake et Allison, est-ce que ce qui constitue un renforçateur est fixe?

A

Non, ce qui constitue un renforçateur change avec le contexte
La contingence n’est pas fixe