Cours 5 Conditionnement Opérant Flashcards
Rappel du béhaviorisme
3 items clé
1) Emphase sur l’apprentissage et rejet de l’inné
Pour Skinner:
¡ Ton savoir = résultat de l’expérience
¡ Pas de nature humaine, nous sommes infiniment malléables (*Watson)
2) Anti-mentalisme
¡ Pas scientifique: Désirs, souhaits, buts, croyances, émotions
¡ Scientifique (qu’on peut observer): Stimulus, réponse, caractéristiques de l’environnement
3) Il n’y a pas de différence à travers les espèces
Conditionnement classique VS conditionnement opérant
Stimuli avec l’environnement =Conditionnement classique (cloche/nourriture)
Nos propres comportements en lien avec des événements importants (récompense, punition) = Conditionnement opérant
Ex: (je fais une blague = personne rit = je vais plus le faire) conséquence environnementale
Conditionnement opérant (CO)
Déf: Apprendre la relation entre des actions et des récompenses/punitions
• C’est également l’effet des conséquences du comportement sur ledit comportement (l’augmente/le diminue)
• Comportement opérant : comportement influencé par ses conséquences
Le monde autour de toi décide qui tu es
Ca sert à quoi?
Lesquelles de vos actions mènent à des résultats positifs et lesquelles ne mènent pas à des résultats positifs.
Qui est-ce qui a développé et établit le CO?
Thorndike : a établi les fondements théoriques du CO c’est lui qui a développé
Skinner : n’a pas conçu l’idée du CO (ce n’est pas son idée, il l’a développé)
Programme de recherche théorique et expérimental :
Skinner qui développe le CO
Jusqu’à quel point le conditionnement opérant peut façonner le comportement des humains et des animaux ? on mélange les deux conditionnements
La loi de l’effet de Thorndike
1ères études expérimentales du CO
«Il ne faut pas prendre pour acquis que ce sont des motifs intelligents qui sous-tendent le comportement des animaux»
Les capacités intellectuelles des animaux ne peuvent être adéquatement évaluées qu’au moyen d’une étude systématique (observation vigoureuse).
Boîte problème de Thorndike
Tu mets le chat dans la boite et tu attends
Diminution, au fil des essais, du temps nécessaire pour que le chat réussisse à sortir de la boîte.
=
Le renforcement graduel de l’action de peser sur la pédale, affaiblissement de l’erreur
Amélioration du temps entre la première fois et la 10em fois
La loi de l’effet :
Un comportement donnant lieu à un résultat satisfaisant est renforcé ou «imprimé», tandis qu’un comportement qui entraine un résultat insatisfaisant ou «irritant» se trouve affaibli ou «jugulé».
L’ampleur de l’irritation ou de la satisfaction issue des conséquences d’un comportement détermine si celui-ci se répétera.
Bref: Le sentiment est ce qui nous pousse à faire l’action ou non
La sélection par les conséquences de Skinner
Skinner a étendu les principes du CO et l’a vraiment développé
L’expérience du rat dans la boite
1) Il a réalisé les répercussions de ce principe dans la compréhension et la modification du comportement.
2) Standardisation des recherches : milieu bien contrôlé
Boîte de Skinner (procédure opérante libre)
- Procédure opérante libre : pas d’essai particulier, réponse disponible en tout temps. La boite en est un exemple (CO)
- L’essai discret : des essais particuliers avec un début et une fin qui sont identifiables et qui requiert donc une plus grande implication du chercheur. Pas essai discret ici, plus l’expérience de Pavlov (CC)
Problème avec la boite: on ne peut pas tout faire avec l’instrument, petite boite donc pas d’orientation spatiale, seulement un rat donc pas de social. Seulement choc électrique ou nourriture.
Skinner reformule l’effet de Thorndike qu’il qualifie de mentaliste (conséquences= satisfaisantes ou irritantes) en affirmant que la probabilité future d’un comportement est influencée par les conséquences de celui-ci.
La différence entre le CC vs CO (prise 2)
La nature de la réponse
CC: la réponse existe déjà et est une réponse prédéterminée (ex. saliver). C’est juste le stimulus qui est nouveau.
¡ Comportement involontaire
CO: la réponse est quelque chose que l’animal ne faisait pas avant. (ex. appuyer sur un levier)
¡ + volontaires et régis par leurs conséquences (plutôt que par les stimuli qui les précèdent) le rat décide de peser sur la pédale
C’est un type d’apprentissage se caractérisant par le fait suivant :
la probabilité future d’un comportement est influencée par les conséquences de celui-ci.
CO est le regroupement de 3 éléments :
1) Une réponse (R comportement)
2) Une conséquence (R (renforcement) et P (punition))
3) Un stimulus discriminatif (précède la réponse) SD (as-tu accès à la récompense ou non, est-ce que je dois faire le comportement afin de recevoir une réponse)
1) Le comportement opérant (la réponse)
C’est une classe de réponses produites qui engendrent certaines conséquences
Ces conséquences influencent la probabilité ou la force future de ces réponses.
Réponse opérante ou un opérant (= le comportement) -> conséquences -> probabilité de reproduire la réponse (ou force)
2) Les conséquences opérantes : le renforçateur et le punisseur
Ce qui va augmenter ou diminuer le comportement
Ont lieu après le comportement :
Renforçateur (SR): stimulus renforçateur
¡ Conséquence qui renforce un comportement
¡ La probabilité future de ce comportement s’accroit (ex. appuyer sur le levier)
Appuyer sur l’évier (Réponse opérante) = nourriture (Stimulus renforçateur)
Punisseur (SP): stimulus punisseur
¡ Conséquence qui affaiblit un comportement
¡ La probabilité future de ce comportement s’amoindrit (ex. raconter une blague)
Raconter une blague (R) = on fronce les sourcils (Sp) (négatif)
Un renforçateur pour moi n’est pas nécessairement du renforcement chez l’autre
Renforçateurs/Punisseurs VS Renforcement/Punition
Renforçateurs/Punisseurs=
les conséquences précises (du comportement) qui servent à accroitre ou affaiblir un comportement
Ex. La nourriture
Renforcement/Punition=
procédure qui fait en sorte qu’une certaine conséquence modifie la force d’un comportement.
Ex. Utiliser de la nourriture pour accroitre la force de l’action d’appuyer sur un levier
Extinction:
l’affaiblissement d’un comportement par abandon de son renforcement. (+ doux, mais + lent que la punition)
- Les antécédents opérants : le stimulus discriminatif
Lorsqu’un comportement est constamment renforcé ou puni en présence de certains stimuli = ceux-ci vont commencer à influencer l’apparition du comportement.
Ex. appuyer sur un levier ne procure de la nourriture que lorsqu’une tonalité est audible
Tonalité (Sd) : levier (R) = nourriture (Sr)
SD: stimulus en présence duquel une réponse se trouve renforcée et en l’absence duquel elle ne l’est pas.
¡ C’est un signal qui indique qu’une réponse sera suivie d’un renforçateur.
Suzanne (Sd) : raconte une blague (R) = elle rit (Sr)
C’est un signal, Suzanne rit (signal) = elle me trouve drôle
L’intensité du comportement est différente, et ne déclenche pas lui-même le comportement