Cours #5 Conditionnement opérant Flashcards
Quelle est l’autre façon de dire conditionnement opérant?
Apprentissage instrumental
À quoi sert le conditionnement opérant ou instrumental?
Il vise à contrôler le comportement (la réponse à un stimulus ou à des
stimuli) par ses conséquences, c’est-à-dire par ce qui suit le
comportement (la réponse) dans le temps.
Quelle est la définition du conditionnement opérant?
Le comportement est suivi d’une conséquence de façon à en
modifier son niveau opérant, soit augmenter ou diminuer sa
fréquence d’apparition.
Il est possible de modifier le comportement d’un organisme en
utilisant des conséquences comment?
plaisantes (appétitives) ou
déplaisantes (aversives)
L’apprentissage instrumental est une modification de quoi?
Entrainé par quoi?
De quelle façon?
-une modification de la probabilité
de réapparition d’une réponse,
-entraînée par l’apparition ou le retrait d’un événement particulier, le
renforçateur,
-de façon contingente à la réponse.
Pourquoi on dit que le conditionnement est instrumental?
parce que l’effet
est obtenu à partir du comportement, soit l’instrument
Explique le test de la cage de Thornike
Enfermer un chat affamé dans
une cage (boîte à problème)
-Placer de la nourriture à proximité
-Observer les comportements du chat et le temps qu’il utilise
pour trouver la solution et sortir de la cage
-Ces observations permettent de comprendre comment
s’opère l’apprentissage
Quels sont les 4 aspects du test de la cage de thorndike?
- Apprentissage par essais et erreurs
- La solution est trouvée par hasard
- D’un essai à l’autre, diminution progressive des réactions
inutiles - En fin d’apprentissage, le chat ouvre immédiatement le
loquet
Quel est le résultat du test de la cage de thorndike ? (2)
Le temps utilisé pour trouver la solution diminue d’un essai à
l’autre
Il obtient le même résultat (la même courbe d’apprentissage)
d’un animal à l’autre
La courbe d’apprentissage de Thorndike
de plus en plus vite
Explique la loi des effets de Thorndike? (conséquences positives ou négative)
Un comportement qui produit une conséquence agréable ou qui
élimine ou prévient une conséquence désagréable aura
tendance à se répéter
Un comportement qui produit une conséquence désagréable ou
qui prévient (élimine) une conséquence agréable aura tendance
à disparaître.
Les comportements sont acquis en fonction de quoi?
Leur effet dans
l’environnement
Quels sont les éléments de base de la loi des effets des Thorndike?
S : R –>C (conséquence)
Stimulus entraine une réponse qui produit une conséquence
Pour Thorndike, l’apprentissage est un processus comment?
Associatif caractérisé par la formation de connexions
entre deux éléments en contiguïté spatiale.
Comment sont les connections sont pour Thorndike?
Ces connexions sont fixées, renforcées par la répétition (ou
affaiblies si les essais sont supprimés)
Ces connexions sont renforcées ou affaiblies par l’effet des
conséquences (positive ou négative)
Le renforçateur c’est quoi?
La conséquence.
est un événement consécutif
à une action et qui a pour effet de modifier, à la hausse ou à la
baisse, la probabilité de réapparition de cette action
Le renforçateur peut être de quelle nature?
appétitive ou aversive
La relation de nécessité entre la réponse et la conséquence est
appelée ________. Le ______ est un type particulierde contingence.
Contingence
Renforcement
La contingence renvoie à quoi?
La relation séquentielle de dépendance entre deux
événements
La contingence spécifie quoi?
les conditions sous
lesquelles un comportement entraîne une conséquence donnée
L’association en contingence d’un comportement et d’un stimulus
entraîne quoi?
une modification du comportement
Quels sont les 4 types de contingence?
Récompense (Renforcement positif)
Échappement / Évitement (Renforcement négatif)
Punition (Punition positive)
Omission (Punition négative)
Qu’est-ce que les 4 types de contingence font?
Récompense –> ajouter effet positif
Échappement / Évitement–> Retirer effet negatif
Punition –> Ajouter effet négatif
Omission–> Retier effet positif
Renforcement c’est quoi?
Augmentation de la
probabilité de
réapparition du
comportement
Punition c’est quoi?
Diminution de la
probabilité de
réapparition du
comportement
Aller voir tablo diapo 25
bien comprendre diapo 25 à 30
Les quatre types d’apprentissage peuvent être analysés selon 3
points de vue lesquelles ?
Les types d’entraînement
La nature de la contingence
Les effets comportementaux
Diapo 32 bien comprendre
Comment déterminer la nature de l’apprentissage instrumentale?
(4 questions)
-Quel est le comportement cible?
-Quel est l’effet attendu sur la probabilité de réapparition de
la réponse?
-La réponse provoque-t-elle la présence ou l’absence de
l’événement “conséquence”?
-L’événement “conséquence” est-il aversif ou appétitif?
Conditionnement classique VS conditionnement opérant
–>Classique : la relation s’établit entre un SN et un SI. Le
comportement du sujet n’a aucun effet sur l’apparition des
stimuli.
–>Opérant : la relation s’établit entre une réponse et sa
conséquence. Le comportement détermine une
conséquence, c’est-à-dire l’apparition ou la disparition du
renforçateur.
Quelles sont les 2 situations d’apprentissage instrumental?
Situations à essaies discrets et situations à effets continus
C’est la quoi une situation à essaies discrets?
Labyrinthes, boîtes d’évitement, etc.
-Le début et la fin des essais sont faciles à identifier. On peut les
compter. Ce qui se passe entre les essais n’a pas d’importance
C’est quoi une situation à essaies continues?
Situations opérantes libres (boîte de Skinner)
Le début et la fin des essais ne sont pas clairement identifiés
C’est quoi le faconnement?
Quand est-il utilisé?
–>Cette procédure consiste à renforcer des approximations
successives du comportement. À la toute fin, seul le comportement désiré sera renforcé. (Ex.: Enfant :
entraînement à la continence).
–>Le façonnement est généralement utilisé lorsque des
réponses complexes doivent être apprises ou lorsque les
réponses ne font pas partie du répertoire comportemental de
l’organisme
Le façonnement c’est _ __________ de nouveaux comportements
l’acquisition
Le façonnement par approximations successives est quoi?
Le façonnement consiste à quoi?,
- une méthode pour acquérir un comportement absent ou peu
fréquent d’un organisme.
-à renforcer, de façon différentielle et successive, les comportements se rapprochant de plus en plus
du comportement désiré.
La technique du façonnement vise à quoi?
Il suffit de faire quoi?
Ainsi?
-à programmer une série
d’étapes, entre le comportement de base, tel qu’il existe avant
tout apprentissage, et la réponse terminale qu’on cherche à
faire émettre par l’organisme.
-de renforcer progressivement et
systématiquement chacune de ces séquences d’action, jusqu’à
amener l’organisme à adopter le comportement désiré
-l’organisme va peu à peu fournir la réponse souhaitée,
grâce à une « récompense », associée à chaque acte allant dans
le sens de cette réponse terminale
Selon skinner et les béhavioristes, la plupart des comportements humains se façonnerait de quelle façon?
Par le façonnement dans le conditionnement opérant
Le façonnement intervient dans quelle sphère?
Éducation de l’enfant
Relation de couple
Divers aspects de la vie en société
Chaque fois qu’un individu veut l’apparition d’un comportement de la part d’une personne ou d’un groupe, il est possible de quoi?
d’imaginer et de mettre en place les renforçateurs qui augmentent les chances de les voir se produire
Qu’est-ce que le stimulus discriminatif? Sd (contexte)
Dans une situation, il peut avoir d’autres sitmuli que le stimulus renforçateur.
Il signale un occasion de répondre
Le sujet discriminer, ou fait la différence entre un stimulus et un autre.
Donne moi l’exemple d’un stimulus discriminatif.
- Lorsqu’une lumière est allumée, un pigeon sera renforcé par de la nourriture lorsqu’il picore sur un disque. En circulation, les panneaux indicateurs sont des stimuli discriminatif.
-le geste du professeur (par exemple, lever la main ou un signal verbal comme “Posez vos questions maintenant”) est un stimulus discriminatif. Cela indique à l’étudiant que c’est le moment approprié pour lever la main et poser une question. Si l’étudiant tente de poser une question à un autre moment, comme lorsque le professeur parle sans avoir donné ce signal, il risque de ne pas être invité à parler.
Quels sont les types de renforcateurs?
Primaires et secondaire
C’est quoi un renforcateur primaire?
Nomme les
Nécessite aucun entraînement préalable.
Biologiquement important: nourriture, eau, sexe, attention, approbation, décharge éléctrique
Sensoriels: Ont une valeur renforçante uniquement à cause de la simple stimulation des organes sensoriels
L’autostimulation cérébrale
C’est quoi un renforçateur secondaire?
Stimulus qui entraîne ue satisfaction n’ayant pas de valeur biologique intrisèque.
Ils acquièrent des propriétés renforçantes à la suite de pairage successifs avec un renforçateur primaire: argent, bien matériels, économie de jetons
Caractéristiques de renforçateurs secondaires ou conditionnés: La prévisibilité.
Qu’est-ce que le principe de Premack?
Une réponse à forte probabilité naturelle d’apparition peut renforçer une réponse dont la probabilité d’apparition est plus faible.
Ex : Faire ses devoirs (Réponse cible, faible probabilité) pour aller jouer avec ses amis (renforçateur, probabilité très élevé)
En rendant ce second comportement contingent au premier, les parents visent à augmenter la probabilité de la première réponse.
La valeur du renforcateur (appétitif ou aversif), et par conséquent, la force du conditionnemen t, sont reliées a quoi? explique
La quantité et la qualité du renforcateur.
Plus grande est la récompense, plus fort sera le comportement.
ex: Les animaux courent plus vite dans un labyrinthe lorsque chaque course leur donne plus de nourriture
Les humains achètent plus de billet de loterie pour des prix d’un million de dollars que pour les prix moins alléchants
Explique c’est quoi l’effet de contraste.
La valeur d’un renforçateur n’est pas absolue. l’effet renforçant devient plus prononcé lorsque le renforçateur peut être comparé avec une autre quantité du renforçateur. Le comportement peut être emplifié ou diminué à la suite d’une telle comparaison
Qu’est-ce que la contiguité temporelle?
Le délai de renforcement/punition: Un délais court permet généralement un meilleur apprentissage parcequ’il diminue la probabilité qu’il y ait interférence entre d’autres réponses er le renforçateur
Qu’est-ce que la contingence réponse-conséquence?
La contigence est aussi importante qu’en conditionnement classique. Tout le conditionnement instrumental repose sur la corrélation entre la réponse et la conséquence. Si aucune relation n’existe, il n’y aura aucun apprentissage.
-L’absence de relation de contingence entre le comportement et ses conséquences produits le phénomène de résignation acquise (impuissance acquise)
Qu’est-ce que l’acquisition.
Elle peut mener à une modification du comportement à la hausse ou à la baisse, mais il s’agit d’apprendre une nouvelle contingence qui n’était pas en fonction auparavant.
Qu’est-ce que l’extinction?
Consiste à cesser de renforcer une réponse. Il faut donc qu’il y ait eu établissement d’une contingence auparavant pour qu’il puisse y avoir extinction.
Ex: R: pleurnicher Sr: bonbons
R: pleurnicher –: aucun bonbon
Apprentissage: arrêter de pleurnicher
Qu’est-ce que la récupération spontanée?
l’extinction risque d’être suivie d’une récupération spontanée
–> c’est la réapparition d’une r.ponse éteinte,à la suite d’une période de repos consécutive à l’extinction
Ex: épicerie après extinction
R: pleurnicher un peu –: aucun bonbon, mais de moins en moins fort
Demande plusieurs visites à l’épicerie sans bonbon pour faire éteindre complètement le comportement.
Qu’est-ce que l’impuissance acquise?
-Expérience avec les chiens et les rats donnant naissance à l’impuissance acquise
-Décharges électriques occasionnelles sur le plancher de la cage
-apprentissage de l’animal: presser un levier pour empêcher les chocs ou changer de compartiment pour circuler librement.
-L’animal demeure donc fonctionnel
Impuissance acquise : expérerience avec les chiens :
-Expérience exécutée avec un 2e chien, une donnée est modifiée :
le passage entre les planchers est bloqué où il n’y a pas de levier
-Lorsqu’aucune des actions n’est efficace, le chien devient :
Impuissant, amorphe, apathique ; Abandonne ses actions ;
Manifeste des symptômes de dépression
-Retour des comportements normaux après quelques semaines
-L’expérience est répétée lorsque les deux chiens sont adultes
-Cette fois, la cage du second chien n’est pas modifiée et l’accès
pour changer de compartiment est accessible
-Dès que les décharges électriques débutent, le premier chien
saute spontanément de l’autre côté de la cage
-Le second chien, malgré l’ouverture pour la fuite, ne le fait pas; il
demeure passivement sur place et présente les mêmes
symptômes dépressifs que lors de la première expérience
Qu’est-ce que le renforcement continu?
Chaque fois que le comportement est adoptée.
Chaque réponse est renforcée ou punie. Plus rapide
Qu’est-ce que le renforcement partiel/intermittent?
Le renforcement n’est pas renforcé à chaque fois qu’il apparaît .
Seulement un certain nombre de réponses sont renforcées ou punies.
Plus efficace et plus résistant à l’extinction
Il y a combien de façon de renforcer partiellement le comportement?
Qu’est-ce que font ces programmes?
Nommes les
4
Les 4 programmes de base produisent une forme comportementale particulière
-Programme à intervalles fixes
-Programmes à intervalles variables
-Programmes à rapport fixe
-Programme à rapport variable
Programmes à intervalles fixes:
Le renforcement survient après la première réponse émise
après un intervalle de temps fixe.
Ex. : Préparation d’un plat au four, le manger dans une heure
Programmes à intervalles variables:
Le renforcement survient après la première réponse émise
après un intervalle de temps moyen.
Ex. : Contraventions aux automobilistes
première fois que police te vois, elle te donne une contravention, elle va pas attendre à la prochaine fois.
intervalle de temps moyen = tu sais pas quand la police va être la
Programmes à rapport fixe:
Le renforcement survient après un nombre fixe de réponses
Ex. : Le 5e changement d’huile est gratuit
Programmes à rapport variable:
Le renforcement survient après un nombre variable de réponses
Ex : Jouer dans les machines à sous, la personne peut gagner un
prix après seulement quelques essais alors que d’autres fois, elle
peut jouer de très nombreux tours sans gagner. Le rapport est
aléatoire.
Combien y’a de programme de renforcement simple?
nomme les
3
-Programme à durée
-Programme de débit de réponse
-Programmes non-contingents
Programme à durée:(2)
–>Programme à durée fixe (DF) : renforcement si comportement
exécuté en continu durant une période « X » prévisible et fixe
-Ex. : pouvoir écouter la TV 1 h si 2 h d’études (DF2)
—>Programme à durée variable (DV) : renforcement si comportement exécuté en continu durant une période
imprévisible et variable
Ex. : donner un biscuit à des moments variés (pour une
moyenne d’un biscuit aux 30 minutes) (DV30) à un jeune qui
doit étudier
Programme de débit de réponse: (3)
–>Renforcement différentiel du débit rapide (RDDR) :
renforcement est fonction d’un certain nombre de réponses
durant un certain délai de temps.
Ex. : participant récompensé si 20 hot-dogs / 1 minute
–>Renforcement différentiel du débit lent (RDDL) : durée de temps
minimal nécessaire (débit lent)
Ex. : se brosser lentement les dents
–>Renforcement différentiel de réponses rythmées (RDRR) : débit
préétabli (ni trop vite ni trop lent)
Ex. : course à pied : renforcer un rythme moyen.
Programmes non contigents: (2)
présence du renforçateur même
si aucune réponse.
–>Programme à temps fixe (TF) : renforçateur après une période
« X » prévisible et fixe
Ex. : cadeau à Noël pour tous, peu importe si gentil (TF1)
–>Programme à temps variable (TV) : renforçateur après une
période « X » imprévisible et variable, peu importe le
comportement du sujet
Ex. : rencontrer par hasard un ami d’enfance aux 3 mois
Programmes de renforcement complexe: (3)
Combinaison d’au moins deux programmes simples
–>Programmes conjonctifs : exigences d’au moins deux programmes
simples avant la présentation d’un renforçateur.
Ex. : reçoit un salaire si nb h/sem. travail + réalisation tâches
–>Programmes ajustables : la réponse change en fonction de la
performance du sujet.
Ex. : exigences plus grandes pour bon élève (avant renforcement
si 80 %, maintenant renforcement si 85 %)
–>Programmes en chaîne : 2 programmes simples ayant un ordre de
présentation. Chacun a son Sd et le dernier produit un
renforçateur terminal.
Ex. : Prérequis > 49 % pour un 2e cours pour obtenir diplôme
Donne les 5 caractéristiques de la punition.
-La punition n’implique pas nécessairement une douleur
physique.
-Pour être efficace, une punition doit être intense, immédiate
(contiguë) et contingente (survenir à chaque réponse).
-Une punition intense sensibilise les individus aux punitions
subséquentes.
-Des avertissements et des punitions peu sévères habituent les
organismes aux punitions subséquentes.
-La punition devient plus efficace si utilisée conjointement avec
le renforcement positif des autres comportements désirés.