Cours 2&3 Flashcards
Le conditionnement instrumental utilise quel méthode?
La méthode expérimentale
Conditionnement instrumental
modification de la probabilité d’apparition d’un comportement due à l’apparition ou au retrait d’une conséquence (renforçateur). Le renforçateur peut diminuer (punition) ou augmenter (renforcement) l’occurrence d’un comportement
Apprentissage associatif
un comportement est associé une conséquence (un stimulus, une réponse, l’environnement, etc.)
la situation opérante libre
Skinner a développé une nouvelle procédure de sorte que le comportement est émis chaque fois que l’animal le souhaite.
On mesure la fréquence du comportement par unité de temps. Le début et la fin d’un essaie n’est pas clairement identifiable.
On mesure le nombre de fois que l’animal fait le comportement par minute.
Les composantes du CO
Stimulus - Réponse - Conséquence
Stimulus discriminatif
il indique si le comportement sera suivi d’une conséquence. Ex: l’auto de police
la présence de SD diminue l’efficacité de la punition, car le comportement qui n’a pas été puni a tendance à réapparaître lorsqu’il n’a pas de risque d’être puni
La généralisation
l’apprentissage de l’association entre le stimulus discriminatif et le comportement peut être généralisé à d’autres stimuli. Ex: lumière jaune = toute lumière.
Le gradient de généralisation
Plus la couleur lors du test est similaire à la couleur lors de l’entrainement (SD) plus il y de réponse au moment du test
Entrainement a la discrimination
l’animal peut discriminer les sons s’il est entraîner a la discrimination, avec la technique du modelage
Modelage
procédure qui permet de guider les comportements vers un comportement cible à l’aide d’approximation. Augmente toujours la difficulté pour réussir des taches complexes
Les programmes de renforcement
Conditionnement continu
Renforcement partiel : rapport fixe, variable - intervalle fixe, variable
Conditionnement continu
comportement est renforcé a chaque fois qu’il est émis. L’apprentissage est très rapide mais l’extinction aussi.
Renforcement partiel (intermittent)
Comportement n’est renforcé chaque fois qu’il est émis. Apprentissage plus long mais plus résistant. Ex: jeu de hasard.
Deux types: fixe et variable
Rapport fixe
Renforcement après un nombre fixe de comportement. Chaque renforcement est suivi d’une pause, plus le rapport est élever plus les pauses sont longues. Une fois que le comportement a repris les pauses sont plus rares.
Rapport variable
Renforcement a un nombre moyen de comportement. Ex: machine a sous. Comme le sujet ne sais pas quand il sera renforcer, le nombre de comportement augmente de façon continue, sans pause.
Intervalle fixe
Le renforcement est donné au 1er comportement émis après un intervalle fixe de temps se soit écoulé depuis le dernier renforcement, la fréquence du comportement augmente.
Intervalle variable
Le renforcement est reçu après un intervalle de temps moyen qui varie d’une fois à l’autre. Ex: courriel électronique
Plusieurs facteurs modulent l’efficacité du renforcement positif
- l’identité du renforcement
- Le délai entre le comportement et le renforcement
- Le nombre de comportement à émettre avant d’atteindre le but
l’identité du renforcement
le renforcement doit être autant appétitif que le renforcement précédant sinon le comportement va diminuer (effet de contraste négatif)
Délai entre le comportement et le renforcement
si le délai entre les deux est long il peut avoir de l’interférence. Plusieurs comportements ont le temps d’être émis entre le comportement cible et la conséquence. La conséquence va être associé au comportement qui le précède.
Les comportements superstitieux
Forme d’interférence. Lorsque la conséquence est associé a un comportement précédant de façon aléatoire.
Le nombre de comportement à émettre avant d’atteindre le but
moins il reste de comportement à émettre avant d’obtenir le renforcement, plus il semble atteignable, plus le comportement sera émis souvent
Renforcement négatif
augmente la probabilité du comportement en supprimant un événement aversif.
- Échappement
- Évitement
- Échappement
événement aversif présent et la réponse l’élimine. ex: aspirine
- Évitement
événement aversif non présent et la réponse empêche qu’il survienne. Ex: ralentir quand voie policier
Facteurs qui modulent la punition
- la contiguïté entre le comportement et la punition
2. L’intensité de la punition
la contiguïté entre le comportement et la punition
la punition doit survenir rapidement après le comportement pour que l’individu fait l’association entre les deux.
Résignation acquise
un sentiment d’impuissance permanente et générale qui résulte du vécu. Ce sentiment est provoqué par le fait d’être plongé, de façon durable ou répétée, dans des situations en lesquelles l’individu ne peut agir ou ne peut échapper.
Prévention : le placer dans une situation qu’il peut s’échapper avant
Inconvénient entre punition et récompense
l’inconvénient occasionné par la punition doit être plus pénible que le plaisir tiré du renforcement
Les comportements alternatifs
Lorsqu’une alternative est possible le sujet modifie son comportement plus facilement. S’il n’y a pas d’alternative le comportement tend à persister malgré la punition.
Les problèmes de la punition
- Doit être administrer de façon très rigoureuse pour voir la disparition totale du comportement
- Indique le comportement à ne pas faire, mais pas celui qu’il faut faire
Le renforcement différentiel
un comportement indésirable peut être éliminé en combinant
- l’entrainement par omission (comportement non désiré est puni par le retrait de stimulus appétitf (PN))
et
- le renforcement des autres comportements : les autres comportements sont renforcés par l’ajout du stimulus appétitif.
Qu’est ce qui est appris en conditionnement instrumental?
S - R - C
Association réponse - conséquence
un changement au niveau de la conséquence amènera un changement au niveau de la réponse.
- L’arrêt du renforcement amènera un changement au niveau de la réponse
- la caractéristique de la conséquence affectent l’occurrence du comportement
Association stimulus - réponse
La conséquence permet l’apprentissage de l’association S - R. À force de faire un comportement il devient un automatise.
Le comportement de choix
Deux ou plus comportements sont soumis à des programmes de renforcement différents.
Comment les comportements seront-ils distribués?
La loi d’appariement
le comportement est réparti selon la probabilité d’être renforcé.
Permet de calculer le % de comportement pour les deux options
% d’occurrence du cmpt A = Fréquence du cmpt A / Fréquence de cmpt total
Le point idéal
Les ressources (T/A) sont réparties de sorte à générer le niveau de satisfaction le plus élevé
Répond a la question : comment l’individu réparti sont temps entre les différentes activités
N’importe quelle activité peut devenir un renforcement, tant que sont accès est restreint
L’expérience de Prémack (rat: eau, roue)
Le délai des renforcements
- Parfois, il faut choisir entre un petit renforcement maintenant ou un gros plus tard.
- Certains R ont des valeurs plus élevé que d’autre, cette valeur décroit rapidement avec le délai.
- L’attrait d’un R est positivement lié a sa valeur et négativement lié au délai pour l’avoir
Contrôle de soi et délai
- prendre des décisions à l’avance peut aider à choisir le meilleur renforcement
- pour les personnes les plus impulsives, l’effet délai est accentué
Les bases biologiques
le circuit de la récompense est basé sur la production de dopamine.
Un R positif active la libération de dopamine
Bloquer la sécrétion de dopamine après un apprentissage mène a l’extinction du comportement