Cours 2 : Le conditionnement instrumental (PART 1) Flashcards

1
Q

Conditionnement instrumental, c’est quoi ?

A

La modification de la probabilité d’apparition d’un comportement due à l’apparition ou au retrait d’une conséquence (renforçateur).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Le renforçateur peut diminuer ou augmenter

A

Le renforçateur peut diminuer = punition

Ou augmenter = renforcement, l’occurence d’un comportement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Le conditionnement instrumental, est-ce un apprentissage associatif

A

OUI !! Les chercheurs ne sont pas tous d’accord à quel niveau ce fait l’apprentissage…
Par contre, c’est en effet une forme d’apprentissage puisque nous faisons référence à modifier un comportement.
(EX. Un enfant qui reçoit 2$ lorsqu’il nettoye sa chambre, donc il associe le comportement = nettoyer avec la renforçateur = la monnaie. C’est un renforçement puisque nous voulons augmenter l’occurence du comportement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qui est le père du conditionnement instrumental ?

A

Edward Thorndike

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Les propos de Thorndike ? La boite aux chats…

A

Un chat est enfermé dans une boite de laquelle il peut sortir en appuyant sur un levier.
Lorsque le chat s’échappe, il reçoit de la nourriture
Sortir de la boite n’est pas instinctif pour le chat, donc la première fois ça va arriver par hasard.
Nous allons continuer à placer le chat dans la boite à plusieurs reprises et mesurer le temps qu’il prend à sortir…
Résultats = le temps nécessaire diminue à chaque reprise, donc apprentissage faite au niveau du fonctionnement de la boite.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Une procédure avec des essais discrets, c’est quoi ?

A

C’est l’expérimentateur qui défini lorsque l’essai débute et lorsqu’elle fini.
- Le début et la fin doivent être facile à identifier
Dans le cat de la boite aux chats, l’essai débute lorsque le chat entre dans la cage et l’essai se termine lorsque le chat appuit sur le levier.
Nous utilisons les essais discrets pour que les essais sont clairement séparés les un les autres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Les paradigmes d’essais discrets sont principalement utilisés pour ?

A

Les labyrinthes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

La situation opérante libre de Skinner

A

Le comportement est émis chaque fois que l’animal le souhaite (pas comme essais discrets).
Le début et la fin ne sont pas clairement identifiables
On mesure la fréquence du comportement par unité de temps (ex. 5 comportements dans 5 minutes)
EX. On place un rat dans cage pour 2h et on mesure la fréquence du comportement au lieu de s’intéresser au comportement de façon individuelle (il a réussi à sortir de la cage dans 2 minutes).
L’objectif n’est pas de sortir de la boite, ça pourrais être de monter une rampe pour obtenir de la nourriture.
Il va se rendre à la fin pour retourner au début, répétition constante de comportements et de cycles (début-fin)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

La boite de Skinner

A

Si le rat appuie sur le levier, il reçoit une boulette de nourriture.
Au début, il appuie sur le levier par hasard
Le nombre de fois que l’animal appuie sur le levier à chaque minute augmente
Puisqu’il se fait une apprentissage, nous savons que c’est une apprentissage associatif puisque l’apprentissage se manifeste en comportement (appuyer sur le levier)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Il existe 2 façons de représenter les données dans le praradigme opérant libre

A

Nombre de réponses par minutes

Nombre de réponses cumulées

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Nombre de réponses par minute - Définir la phase d’acquisition et la phase d’extinction

A

La phase de l’acquisition : Période du comportement qui est suivis par le renforçement
EX. appuyer sur le levier pour reçevoir une boulette
La phase de l’extinction : Période ou le renforçement cesse d’être émis
EX. il va appuyer sur le levier et les boulettes ne vont pas sortir, il va finir par comprendre qu’il ne va plus en reçevoir.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Comment passe t’on de la période d’acquisition à la période d’extinction ?

A

Les comportements suivis de récompenses vont continuer à augmenter jusqua l’atteinte d’un certain plateau. Puisqu’il va atteindre la limite de récompenses qu’il peut avoir dans une certaine période de temps, minute, on assume que le comportement a été completement appris.
Ceci dit, la phase de l’extinction commence
Note : le plus l’apprentissage est robuste, plus longtemps qu’il va continuer à émettre le comportement lors de la période d’extinction.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Nombre de réponses cumulées

A

AXE X = temps
AXE Y = réponses cumulées
Chaque fois que le rat va émettre le comportement, la ligne va continuer à monter. Lorsqu’on tombe dans la période d’extinction, il continue le comportement pour un certain bout, mais éventuelle il arrête.
Plateau dans ce cas = comportement a été completement extinct.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Les composantes du conditionnement opérant

A

Stimulus - Réponse (comportement) - Conséquence

Le levier dans la boite - Appuyer sur levier - Boulette

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Situation 1 : identifier le stimulus, la réponse (comportement) et la conséquence -
Tom est turbulant en classe parce que ça fait rire ses amis

A

stimulus : être en classe
réponse : être turbulant
conséquence : faire rire ses amis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Situation 2 : Identifier le stimulus, la réponse et la conséquence -
Au centre d’achat, Annie fait une crise lorsqu’elle voit un jouet qu’elle désire parce que chaque fois qu’elle fait une crise, ses parents lui achètent le jouet pour la calmer

A

Stimulus : la crise
Réponse : ajouter le jouet
Conséquence : se calmer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Situation 3 : Identifier le stimulus, la réponse et la conséquence -
Lorsque John croise un policier en voiture, il ralentit pour ne pas avoir de contravention

A

Stimulus : croiser le police
réponse : ralentir
conséquence : éviter la contravention

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Situation 4 : Identifier le stimulus, la réponse et la conséquence -
Lorsque le professeur Boucher enseigne, Lucie est très attentive parce qu’elle veut réussir son examen

A

Stimulus : professeur Boucher qui enseigne
Réponse : être attentive
Conséquence : réussir son examen

19
Q

Le stimulus discriminatif

A

Facteur indicatif à l’apparition ou non de la conséquence,
Il indique si le comportement sera suivi d’une conséquence.
Ex. l’enfant va faire une crise au centre d’achat avec son père (sitmulus discrinatif), mais pas avec sa mère parce qu’il sait que ca ne va pas fonctionner.
Ex. Boite de Skinner, le rat aura de la nourriture en appuyant sur le levier seulement si la lumière est allumée… la lumière est le stimulus discriminatif.

20
Q

Le rat télécommandé

A

Insertion de petits électrodes dans le cortex sensoriel correspondant aux moustaches gauche et droite ainsi que sur l’aire du renforçement (dopamine relachée).
On envois des courants électriques qui stimulent dans la bonne région si le rat fait un bon comportement.
Le rat est entrainé à tourner à gauche lorsque les moustaches gauches sont stimulées et à tourner à droite lorsque les moustaches droites sont stimulées

21
Q

Qu’est-ce que les rats télécommandés pourraient nous emporter ?

A

Ils pourraient se servir utile dans des situations dangereuses ou les humains ne veulent pas explorer. Nous pourrions attacher une caméra au rat.
Ça démontre aussi que si on maitrise vraiment les procédures de comportements instrumentaux qu’on peux arriver à des comportements complexes.

22
Q

Le rat télécommandé ; stimulus discriminatif, réponse, conséquence

A

Stimulus discriminatif : Stimulation aux moustaches
Réponse : tourner à droite ou à gauche selon moustache stimulée
Conséquence : Simulation de son nerf de satisfaction

23
Q

La généralisation

A

L’apprentissage de l’association entre le stimulus discriminatif et le comportement peut être généralisé à d’autres stimuli (lumière)

24
Q

L’expérience de Guttman et Kalish (oiseaux) : sa procédure

A

Les pigeons sont entrainés à picorer un levier lorsqu’une lumière d’une fréquence donnée est allumée (ex. jaune)
Procédure -
1) On commence par la phase d’acquisition ou la lumière est tjrs allumée. Ont veux que l’animal apprend que lorsqu’il picore, il reçoit la nourriture.
Plateau = fin de la phase d’acquisition
2) Phase d’entrainement : Ils vont apprendre à discriminer entre les deux états de lumière (ouvert/ fermé). On va laisser la lumière allumée pendant 10 secondes et mesurer la fréquence.
Éteindre pour 10 secondes et arrêter de renforçer le comportement.
Éventuellement, après quelques cycles, il va comprendre qu’il reçois rien quand la lumière est éteinte et il va arrêter de picorer lorsqu’il fait noir.

25
Q

Le gradient de généralisation (test)

A

Lors de la période d’entrainment, les 3 oiseaux sont entrainés avec une lumière de couleur jaune. Lors du test, un oiseaux à la couleur jaune, l’autre orange et le dernier vert.
Plus la couleur lors du test est similaire à la couleur lors de l’entraînement (stimulus discriminatif), plus il y a de réponses au moment du test.
Plus que la couleur va être semblable, plus que les réponses vont être présentesé
Moins la couleur est semblable, moins il va répondre.

26
Q

Entrainement à la discrimination (Jenkins et Harrison (1962) - oiseaux et son

A

Groupes sans discrimination: le pigeon reçoit de la nourriture s’il picore un levier lorsqu’un son est de 1000 Hz. Il se fait entrainer à discriminer, plus le son est différent, moins le pigeon picore. Donc, ils sont capable de faire la différence entre les stimulus de différentes fréquences.
Groupe avec discrimination : le pigeon reçoit de la nourriture s’il picore un levier lorsqu’un son de 1000Hz se fait entendre, mais pas s’il picore un levier lorsqu’un son de 950 Hz se fait entendre (entrainement à la discrimination).

Les pigeons avec un entrainement à discrimination ont appris que le son de 950 Hz ne donne pas de nourriture.

27
Q

Entrainement à la discrimination (Annie et sa poupée)

A

Annie fait des crises au Walmart pour reçevoir une poupée puisqu’elle sait que son père et gêné. Elle se rend compte que lorsqu’elle va au Walmart avec son père et que c’est occupé, elle reçoit toujours la poupée.
Un jour, elle fait sa crise au Walmart et ne reçoit pas la poupée… Pourquoi ? Le magasin n’est pas occupé.
La prochaine fois, elle ne va pas faire sa crise.

28
Q

Le modelage

A

Procédure qui permet de guider les comportements vers un comportement cible à l’aide d’approximations.
Le comportement cible n’est pas quelque chose d’instinctuel, nous avons besoin de modelage.
(ex. vidéo du chien—- son = traite)

29
Q

La conséquence (renforçateurs)

A

Événement contigu à un comportement qui augmente ou diminue la probabilité d’apparition du comportement
Un renforcement positif : donner de la nourriture
Un renforcement négatif : enlever le mal de tête
Une punition positive : Donner une contravention Une punition négative : Enlever le droit de sortie

30
Q

Les programmes de renforcement : le conditionnement continu

A

Le comportement est renforcé chaque fois qu’il est émis (ex. le rat qui obtient une boulette chaque fois qu’il appuie sur le levier)
L’apprentissage est très rapide, mais l’extinction est aussi très rapide.
Réponses cumulées

31
Q

Renforçement partiel

A

Généralement, un comportement n’est pas renforcé chaque fois qu’il est émis (RP ou intermittent)
Ex. jeu de hasard ou d’argent (casino)
Un comportement peut être appris même s’il n’est renforcé qu’une partie du temps - l’apprentissage va être plus long, mais plus résistant à l’extinction.

32
Q

Rapport fixe (RF)

A

Renforçement reçu après un nombre fixe de comportements… être payé à chaque 3 pièces (RF3)
Cartes “fidélité” du mcdo… chaque 8 café est gratuit

Chaque renforçement est suivi d’une pause, plus le rapport est élevé (RF10), plus les pauses sont longues
Une fois que le comportement à repris, les pauses sont plus rares.

Extinction : lorsque le renforçateur arrête d’être émis, les pauses sont de plus en plus longue

33
Q

Rapport variable (RV)

A

Programme à rapport encore, le nombre de comportement va déterminer quand je peux avoir mon renforcement… mais !! le renforçement est reçu après un nombre MOYEN de comportements (machines à sous)

Comme le sujet ne sait pas quand il sera renforcé, le nombre de comportements augmente de façon continue, sans pause

34
Q

Intervalle fixe (IF)

A

Le renforcement est donné au 1er comportement émis après qu’une intervalle fixe se soit écoulé depuis le dernier renforcement.
(ex. une paye à chaque 2 semaines)
(ex. le rat peut avoir une boulette de nourriture s’il appuie sur le levier seulement s’il attend au moins 10 minutes après la dernière boulette)
Chaque renforçement est suivis d’une pause
ex. appuie sur levier, reçois boulette = pause de 10 minutes qui suit
La fréquence du comportement augmente lorsque le renforçement est sur le point d’être disponible (vers 8 minutes de pause, le rat va appuyer sur le levier bcp puisqu’il sait que la boulette s’en vien)

35
Q

Intervalle variable (IV)

A

Le renforçement est reçu après un intervalle de temps MOYEN qui varie d’une fois à l’autre
(ex. courrier électronique, tu check tes emails de temps en temps, desfois t’en a 4 nouveaux, desfois t’en a 0)

36
Q

Le renforçement positif :

1. l’identité du renforçement - l’effet de contraste négatif

A

Pour être efficace, le renforçement utilisé pour un comportement donné ne doit pas être moins appétitif que le renforçement précédent pour le même comportement
Ex. On mesure le taux de succion chez les nourissons
Groupe 1 : reçoit de l’eau non sucrée
Groupe 2: alternance entre de l’eau sucrée et de l’eau non sucrée

Pour le groupe 2, le taux de succion va être plus élevé pour l’eau sucrée, rendu à la 4eme session avec l’eau normal, le taux de succion est encore moins élevé

37
Q

Le renforçement positif :

2. Le délai entre le comportment et le renforçement - le délai temporel (Schlinger & Blakely 1994)

A

Un rat est placé dans une boite de Skinner : une boulette est donnée 0, 4 ou 10 secondes après la pression du levier.
S’il y a un trop gros délai entre l’action de presser sur le levier et le fait de recevoir de la nourriture, il ne fera pas le lien.

38
Q

L’interférence

A

Lorsque le délai est long, plusieurs comportements ont le temps d’être émis entre le comportement cible et la conséquence. La conséquence en vient à être associée au comportement qui précède.

39
Q

Les comportements superstitieux

A

la conséquence est associée à l’événement qui survient immédiatement avant, même s’il s’agit d’une conséquence présentée de façon complètement aléatoire.

40
Q

Les comportements superstitieux (Ono, 1987)

A

Un sujet est placé dans une pièce avec une table et des leviers
On lui dit qu’il doit faire le plus de points possibles
-les points sont accordés de façon aléatoire
-le participant se met à répéter sans arrêt les comportements qui coincident avec l’attribution d’un point

41
Q

Le renforçement positif

3. Le nombre de comportements à émettre avant d’atteindre le but - l’hypothèse de distance du but

A

Moins il reste de comportements à émettre avant d’obtenir le renforçement, plus il semble atteignable, plus le comportement sera émis souvent.
(ex. carte de café au mcdo, si on se rapproche du 10 cafés, on va visiter mcdo plus souvent, parce qu’on veux notre free café)

42
Q

Le renforçement négatif

A

Augmente la probabilité du comportement en supprimant un évènement.
Encore dans le but d’augmenter le comportement, mais on va retirer
quelque chose de désagréable chez l’individu.

43
Q

Le renforçement négatif : l’échappement

A

l’évènement aversif est présent et la réponse l’élimine

ex. prendre des aspirines pour enlever le mal de tête
(ex. acheter un jouet pour arrêter la crise de l’enfant

44
Q

Le renforçement négatif: l’évitement

A

l’évènement aversif n’est pas présent et la réponse empêche qu’il survienne

(ex. ralentir pour éviter une contravention)
(ex. faire sa chambre pour éviter d’être grondé)