Cours 6 Flashcards
John B. Watson
- Critiquait les structuralistes (puisque le structuralisme ne serait pas capable de tout expliquer : la psycho expérimentale était vague et les événements mentaux étaient difficiles à décrire) et la méthode d’introspection qui est peu fiable
- Solution au fait que la psycho expérimentale était vague et peu fiable : faire de la psycho une science objective : c’est-à-dire basé seulement sur ce que l’on peut observer
- Le behaviorisme selon Watson : science naturelle qui focus sur l’étude de l’influence de l’environnement sur le comportement observable : CETTE MÉTHODE IGNORAIT LES PENSÉES + LES FEELINGS
- Il croyait que le comportement des animaux s’appliquait aussi au comportement des humains
- Vu de l’apprentissage très mécanique : selon lui, les humains naissent avec des réflexes fondamentaux et 3 émotions (love/rage/fear). Tout le reste est appris
- Watson est donc un peu considéré comme un extrémiste
B.F. Skinner
o Né à Susquehanna, en Pennsylvanie
o Carrière d’écrivain
o PhD (Harvard) 1931
o Professeur + chercheur à l’U. du Minnesota, Indiana, retour à Harvard en 1948
o Décès en 1990 de la leucémie : il est resté un béhavioriste radical jusqu’à sa mort
o Béhaviorisme radical :
Influence de l’environnement sur les comportements observables
Rejette événements internes pour expliquer le comportement
Les pensées et les sentiments sont des comportements qui ont eux-mêmes besoin d’être expliqués (il ne rejette donc pas complétement les événements interne, comme le fait Watson)
Selon lui : l’apprentissage de comment on se sent se fait ainsi : on apprend que la douleur fait « mal » parce qu’on se faire dire que quand on se cogne un orteil : ça fait mal. Cette manière d’étiqueter les sentiments n’est pas très précise
DONC, Skinner rejetait les événements internes pour expliquer les comportements, à la place, il focussait sur l’environnement comme la cause ultime pour autant les comportements observables que non-observable (interne).
Grande appréciation pour l’influence des facteurs génétiques sur l’apprentissage et le comportement.
Countercontrol : la manipulation délibérée des événements environnementaux pour modifier leur impact sur notre comportement.
• Impact comparable à Freud dans son importance (mais opposé dans les théories)
Début année 80 : apparition psycho cognitive : a réduit de bcp la quantité de gens qui pratiquaient avec le béhaviorisme. Psycho cognitive = + complète comme théorie
• Skinner = moins bien vu par les médias, mais n’a jamais placé des enfants dans sa « boîte de Skinner »
• Faisait des expériences sur les animaux : pour lui les résultats étaient généralisables des animaux aux humains, il n’aurait donc pas fait d’expérience avec un humain.
La boîte de Skinner
o La boite de Skinner n’est qu’une façon pratique de gérer les conditions d’apprentissage
Invente cette boîte puisqu’il remarque un manque de standardisation : il remarque que tout le monde fait ses petites choses et que la standardisation ne semble pas exister.
Il doit y avoir de la standardisation pour pouvoir comparer les recherches.
Skinner décide donc d’utiliser une boîte ou il y aura TOUT.
La boîte est idéale pour les expériences du conditionnement classique ou instrumental : grande contribution méthodologique
La boîte comprend un plancher en métal, avec des trous par exemple : facilite expérimentation et gagne du temps
Avec ses boîtes, Skinner abandonnera l’idée que tous les comportements pouvaient être analysé en termes de réflexes
Il en vient donc à la conclusion que les comportements peuvent être divisés en 2 catégories : 1) les reflexive-type behavior : conditionnement classique et 2) conditionnement opérant
Standardisation définition
uniformisation des outils et des concepts
Thorndike
- Intéressé dans l’intelligence animale
- Découverte de la loi de l’effet à travers son expérience : les comportements qui mènent à une certaine satisfaction sont renforcés et ceux qui mènent à un mécontentement sont affaiblit.
Les situations expérimentales : 2 grandes catégories
1- L’essai discret
2- La situation opérante libre
L’essai discret
des essais particuliers avec un début et une fin qui sont identifiables ; il requière une plus grande implication du chercheur ; plus efficace.
Comme expérience de Thorndike : le chat entre, expérimente et sort.
Le début et la fin sont très claires.
Avantage essai discret
la fin claire permet un apprentissage facile pour l’animal : permet à l’animal de mieux identifier la conséquence
La situation opérante libre
pas d’essai particulier, réponse disponible en tout temps, mais pour période fixée à l’avance ; plus réaliste.
Il y a une situation : on place le rat pendant une période de temps, le rat peut ou peut ne pas faire le nombre de réponse qu’il veut.
La fréquence des réponses est mesurée plutôt que le temps que sa prend pour avoir une réponse.
Le paradigme instrumental
- SITUATION-RÉPONSE-CONSÉQUENCE
- Sd → R → Sr (ou C pour conséquence) (Sr = conséquence, stimulus renforçant)
- Dérivé de la loi de l’effet de Thorndike
- Dans une situation de stimulation (Sd), une réponse (R) est suivie d’un stimulus renforçant (Sr/conséquence).
- Essentiellement : comportements qui sont influencés par leur conséquence
Sd : stimulus discriminatif
- dit au rat “si tu fais cette réponse, tu vas avoir cette conséquence”
Stimulus qui indique automatiquement quelque chose.
Signal qui indique qu’une réponse va être suivie d’un renforcement
“Set the occasion for” : indique simplement que la conséquence est maintenant disponible
Sdp
stimulus discriminatoire pour la punition : exemple → le chat va apprendre à ne pas miauler quand il voit une bouteille d’eau
Striangle
stimulus discriminatoire pour l’extinction : le stimulus signale l’absence de renforcement (cloche : prese levier : pas de nourriture. Cloche = donc absence de nourriture)
Comparaison conditionnement classique et instrumental
• Classique
- RC est automatique
- RC prépare pour la RI
- S’apprend par la contingence
Animal réagissait au stimulus : la réponse était essentiellement un réflexe. On présentait le stimulus et on avait un réponse qui suivait automatiquement.
La réponse ne cause pas de conséquence (salivation n’amène pas nourriture)
• Instrumental
- R est émise
- R nous amène à Sr
- S’apprend par la contingence
La réponse de l’animal est volontaire, ce n’est plus automatique, ce n’est plus un réflexe.
La réponse cause une conséquence : elle produit un effet
Similitudes avec le conditionnement classique
- Loi de la pratique
- Loi de l’intensité des stimuli (+ grosse récompense, par exemple)
- Extinction (ne pas renforcer un comportement qui l’a été auparavant → processus beaucoup plus doux que la punition et beaucoup plus lent) et récupération spontanée (sur conditionnement et sur extinction aussi)
- Importance de la contiguïté (si pas assez de contiguïté : on n’associera pas, si on puni longtemps après : ça ne fonctionnera pas non plus)
- Importance de la contingence
- Blocage et masquage
- Généralisation et discrimination
Type de contingence : conditionnement classique
lien statistique entre les 2 stimulus
Type de contingence : conditionnement opérant
lien entre comportement (réponse) et conséquence
Renforcement
Toute situation Sd-R-C dans laquelle l’effet de C sur R est d’augmenter la probabilité de la réponse R.
Conséquence n’est pas nécessairement agréable : mais elle augmente la réponse (masochiste, par exemple)
Renforcement immédiat VS retardé
le renforcement immédiat a un meilleur impact que le renforcement retardé
Renforcement primaire
le stimulus a l’habileté inné de renforcer le comportement : l’efficacité peut être liée à un état de privation
Renforcement secondaire
le stimulus est renforçant puisqu’il a été associé à quelque chose qui était renforçant (un événement peut être à la fois un renforcement primaire et secondaire (souper de noël par exmeple)
Renforcement intrinsèque
renforcement qui provient simplement de faire la chose : on fait quelque chose puisque c’est intrinsèquement agréable : motivation intrinsèque
Renforcement extrinsèque
exemple : lire ce livre seulement pour l’exam. la conséquence qui me motive est la bonne note à l’exam
Renforcement naturel
une conséquence prévisible d’un comportement dans un contexte en particulier (exemple : de l’argent est une conséquence naturelle de vendre qqchose)
Renforcement artificiel
une conséquence non prévisible d’un comportement dans un contexte particulier : délibérément arranger pour modifier un comportement
Punition
Toute situation Sd-R-C dans laquelle l’effet de C sur R est de diminuer la probabilité de la réponse R
C’est le comportement qui est renforcé ou puni et non la personne.
- La même chose pourrait être un renforcement ou une punition, ce qui les distingues est l’effet sur le comportement.
Types de contingence : positive
Toute situation Sd-R-C pour laquelle la conséquence C de R est l’apparition d’un stimulus qui n’était pas présent auparavant
Types de contingence : négative
Toute situation Sd-R-C pour laquelle la conséquence C de R est la disparition d’un stimulus présent auparavant
Renforcement positif
- Le renforcement positif consiste à donner au sujet un stimulus agréable, c’est un événement qui augmenter la fréquence d’apparition d’un comportement grâce à un stimulus « agréable »
Par exemple : une gâterie pour un chien qui fait le beau
Très efficace
Renforcement positif : problèmes associés
1) Il faut donner quelque chose : il y a un coût. (Coûte quelque chose à la personne qui fait ses expérimentations)
2) Dudley avec ses cadeaux à noël : « il n’y en a que 23 ! » → attitude que tout est suivi d’une récompense : motivation externe → si on renforce de manière positive externe de manière massive : ça fonctionne, mais ça nuit au développement de la motivation interne (motivation interne = importante pour une bonne santé mentale
Renforcement négatif
- Le renforcement négatif consiste à supprimer un stimulus désagréable ou douloureux, c’est un événement qui augmente la fréquence d’apparition d’un comportement grâce à un retrait ou à l’arrêt d’un stimulus « désagréable »
Par exemple : prendre une aspirine qui fait disparaître un mal de tête.
Pour que ça fonctionne : la personne doit déjà être dans une situation aversive. Si la personne est actualisée : ça ne fonctionnera pas (fonctionnement optimal), mais la plupart du temps, notre vie n’est pas optimal.
Renforcement négatif : associé avec 2 types de comportement
1- Comportement d’évasion
2- Comportement d’évitement
Comportement d’évasion
Le comportement en tant que tel enlève le stimulus aversif
Comportement d’évitement
Le comportement empêche d’entrer en contact avec le stimulus aversif
la motivation en-dessous de ce type de comportement est moins apparent.
La réponse d’évitement est très persistante et ne s’éteint pas vraiment : le fait de l’éviter ne permet pas une exposition assez longue au CS pour que la peur conditionnée devienne complètement éteinte. Quand peur est incluse : on parle de two-process theory
One-process theory : le rat agit pour diminuer la conséquence de l’événement aversif et non pour diminuer la peur qui y est associée.
La punition positive
- Procédure par laquelle la probabilité de fréquence d’apparition d’un comportement tend à diminuer suite à l’ajout d’un stimulus « aversif » ou conséquence désagréable contingente au comportement cible
Par exemple : l’ajout d’une obligation, d’une douleur
Les effets nocifs de la punition positive
1) Agressivité passive : forme subtile d’agressivité caractérisée par la bouderie, la procrastination, l’entêtement et l’inefficacité intentionnelle.
Position de faiblesse → infériorité de pouvoir → apparaît agressivité passive.
Agressivité passive = faire exprès pour énerver l’autre, puisqu’on ne peut pas être agressif autant.
L’agressivité passive va engendrer de la frustration chez la personne qui a causé cette agressivité passive.
2) Intensification de l’agressivité chez celui qui administre la punition. Cercle vicieux : le « punisseur » est renforcé d’avoir puni ; le « puni » est renforcé d’adopter des attitudes de soumission, mais aussi d’agressivité passive.
L’autre personne fait quelque chose qui nous dérange : ont puni (comportement), conséquence de notre comp. → l’autre arrête (renforcement négatif) = le punisseur va apprendre que punir est efficace (et va augmenter) = cercle vicieux → pente glissante de la punition
3) L’apprentissage de l’agressivité par le sujet puni
J’apprends que punir est efficace : j’en suis témoin. Enfants qui ont été abusés : probabilité qu’ils soient à leur tout abuseur = supérieure à la moyenne
4) Comportement d’évitement de la punition : l’exemple de l’adolescent qui va éviter l’endroit de la punition (la maison) et mentir.
S’enfuir : évitement → cela nous retire de la punition : si on ne juge pas la punition raisonnable : encourage comportement d’évitement.
La punition négative
- Procédure par laquelle la probabilité de fréquence d’apparition d’un comportement tend à diminuer suite au retrait contingent d’un stimulus agréable, dit « appétitif ».
Par exemple : retrait d’un privilège, d’un droit
« I talk to other women → My girlfriend ignores me”
effets de la punition négative
Les mêmes effets que la punition positive peuvent être causés, mais pas autant
2 types de base de la punition négative
1) Time-out (mise à l’écart)
2) Response cost (coût de la réponse)
Time-out
la perte d’accès à un renforcement positif (donc à quelque chose d’agréable) pour une période de temps brève suivant un comportement problématique.
Exemple : parents modernes qui envoie l’enfant quelque minute dans le « coin »
Le time-out va fort probablement être inefficace si le time-out contexte est plus renforçant que la punition.
Aussi, le time-out ne doit pas être trop long!
Response cost
enlever un renforcement spécifique après un comportement problématique.
Exemple : recevoir un ticket = perte d’argent
Avantage : la sévérité peut facilement être ajusté
Désavantage : devoir identifiez clairement le renforcement qui, si enlevé, aura un impact sur le comportement : donc une analyse plus profonde que le time-out
Différence entre extinction et punition négative
Extinction : le comportement ne mène à rien
Punition négative : le comportement mène au retrait de quelque chose que la personne possèderait autrement
Punition intrinsèque
L’activité en elle-même est une punition
Punition extrinsèque
L’activité est suivie par un événement séparé qui sert de punition
Punition primaire
événements qu’on naît en n’aimant pas : exemples → choc électrique, chaleur intense et bruit fort.
Punition secondaire
événement qui devient une punition puisqu’il a été associé avec une autre punition : exemple → une cloche qui a été pairé avec un choc
Punition généralisée
Un événement qui est devenu une punition parce qu’il a été, dans le passé, associé avec plusieurs autres punitions. Exemple : des regards désobligeants ont été associés avec plusieurs événements non-plaisant
Avantages punition
- Peut être utile quand il faut supprimer rapidement un comportement potentiellement dangereux chez un jeune enfant
- La punition peut parfois mener à une amélioration dans le comportement social (après un time-out, par exemple, la personne veut « se réconcilier »)
- Peut parfois améliorer l’humeur (moins de pleurs par exemple)
- La punition peut augmenter l’attention que l’enfant porte à l’environnement
Pour maximiser les chances que la punition soit efficace
- Punition immédiate plutôt que retardé
- La punition devrait suivre le comportement à chaque fois
- La punition devrait être assez forte pour supprimer le comportement, sans toutefois être trop intense
- La punition négative est préférée à la punition positive
- La punition est plus efficace lorsqu’elle est accompagnée d’une explication
- La punition pour un comportement inapproprié devrait être combiné avec du renforcement positif pour le comportement approprié
La théorie de la supression conditionnée de la punition
Assume que la punition n’affaiblit pas un comportement, mais produit plutôt une réponse émotionnelle qui interfère avec la fréquence du comportement.
La théorie de l’évitement de la punition
La punition contiendrait un type de conditionnement d’évitement dans lequel la réponse d’évitement consisterait à faire n’importe quel autre comportement que celui puni
L’approche de la punition de Premack
Un low-probabilité behavior peut être utilisé pour punir un high-probability behavior
Résignation apprise
même expérience avec les chiens qu’on a vu en psycho sociale
Névrose expérimentale
Maladie induite expérimentalement quand des animaux développent des syndromes neurotic après des événements imprédictibles
Le façonnement
- Les comportements ne peuvent pas être renforcés s’ils ne se produisent pas.
- Or, attendre après l’apparition de la réponse n’est pas pratique (la première réponse sera longue à apparaître.
- Skinner proposera le façonnement comme solution :
Des approximations successives sont renforcées
Débuter avec un critère large pour le renforcement
Augmenter graduellement le critère
Exemple : - Le rat doit tourner à gauche (vers ou il y a le levier) et non à droite
- Récompense le rat pour tourner à gauche
- Il va apprendre rapidement et toujours tourner à gauche
- Cesse de récompenser le rat pour tourner à gauche, récompense le rat qui se rapproche du mur gauche
- Diminue le temps pour l’apprentissage 1
Le conditionnement instrumental est beaucoup plus résistant à l’extinction que le conditionnement classique
Tout est alors faisable (ou presque…)
On peut faire apprendre à peu près n’importe quoi avec le façonnement (théoriquement) SAUF : la limite suivante : limite biologique des espèces.
Contre-préparation → certains pairages ne marchent pas
Apprentissage de chaînes comportementales
- Faire l’apprentissage des réponses indépendamment
- Commencer par le dernier comportement dans la chaîne
- Ajouter des liens à la chaîne en ordre inverse (vers le premier comportement)
- Pour établir la chaîne, chaque comportement est renforcé par la possibilité de faire la réponse suivante.
Le rat : bonne mémoire spatiale : s’ils sont récompensés à un endroit : ils resteront là.
Tant qu’on reste dans le champ de vision du rat (avec la nourriture), ça fonctionnera.