HC4> Chapter 8: Basic processes of learning Flashcards
1
Q
- Wat is klassieke conditionering? Hoe heeft Pavlov een conditioned response ontdekt?
- Wat is habituation?
- Hoe ging pavlov te werk? Welke termen gebruikt hij om klassieke conditionering uit te leggen?
A
- Klassieke conditionering is een learning proces dat nieuwe reflexes creert. Een reflex is een simpele, relatief automatische stimulus-response sequence mediated door het nervous system. (produceert wel een nieuwe stimulus-response sequence). Pavlov ontdekte een conditioned response door een onderzoek naar de digestive system van honden te kijken. Honden kwijlen als ze eten krijgen. Hij leerde dat honden verschillende salivary secretions produceren in response to different foods.
- Een simpel effect van ervaring op reflexes, een vermindering in reflexive response wanneer de stimulus vaker herhaald wordt achter elkaar. (het produceert geen nieuwe stimulus-response sequence, maar verzwakt alleen een bestaande).
- Pavlov’s benadering:
‘Conditioned reflex’
Een neutrale stimulus, zoals een bel roept geen response (kwijlen) op. Maar als het gecombineerd wordt met een unconditioned stimulus (eten) voor meerdere trials dan wordt de neutrale stimulus een conditioned stimulus en dan roept het wel een response op (kwijlen)
- Unconditioned stimulus: the food giving to the dogs (dit geef je aan de hond)
- Unconditioned respons: saliva production
- Conditioned stimulus: bel die dezelfde saliva productie produceert, zonder het eten te geven. (dit conditioneer je bij de hond om eten te verwachten).
- Conditioned response: saliva production
»> De hond heeft een nieuwe conditie geleerd.
2
Q
- Hoe wordt een response extinguished? En wat is sponteous recovery?
- Wat betekent generalization? En wat is discrimination training?
- Waarom geloofde Pavlov dat het dier niet een stimulus-response connectie leert, maar eigenlijk een connectie tussen twee stimuli?
A
- De vraag was of de hond nog steeds zal kwijlen als hij de bel zal horen, maar telkens geen eten zou krijgen. Zonder eten, zorgde elke keer wanneer de hond de bel hoorde voor minder kwijl. En uiteindelijk geen kwijl na het horen van de bel, zonder eten = dit heet extinction. Maar dit betekent niet dat de hond compleet naar een unconditioned state keert. Dus de conditionering is niet helemaal verloren during extinction, maar is inhibited, na een lange tijd wordt het disinhibited. Dus de volgende keer kan de conditionering opnieuw geleerd worden = dit heet sponteous recovery.
- Generalization= Na conditionering, laten dieren de conditioned response zien niet alleen op de conditioned stimulus maar ook op nieuwe stimuli dat lijkt op de orignele stimulus. Dus honden kwijlen bij stimuli die het meest op elkaar lijken, hoe minder de stimuli lijkt op de orginele, hoe minder kwijl dan. > Kan zelfs zo ver doorgaan dat de betekenis van stimlus, niet alleen de fysieke kenmerken een ene basis kan vormen voor de generalization in klassieke conditionering: met woorden zoals good and bad. Bij good > woorden of zinnen die betekenis geven aan goed: kwijlen en bij woorden van bad niet.
Discrimination training= De generalization tussen twee stimuli kan opgehefd worden als de respons to one stimulus is reinforced terwijl de andere response to another stimulus is extinguished. Dus een verschil maken tussen een zwart en een grijs scherm. Bij het zwarte scherm krijgt de hond wel eten en bij het grijze scherm niet. En dan begint conditionering: geen eten bij beide schermen > dan kwijlt de hond nog steeds bij het zwarte scherm, maar niet bij het grijze scherm. - Dus conditioned stimulus met unconditioned stimulus. Omdat de bel is gecombineerd met het eten is er een (neural) band gevormd tussen de twee stimuli in het brein, waardoor het geluid van de bel het deel van het brein (een mentale respresentatie van eten) activeert > wat leidt tot kwijlen (response).
3
Q
- Rescorla had een experiment uitgevoerd met betrekking tot habituation van de unconditioned stimulus, waarom support dit de Stimulus-stimulus theory?
- Waarom kan de mentale representatie het best begrepen worden als een expectation van de unconditioned stimulus?
- Welke drie voorwaarden zijn er nodig voor de predictive value voor de conditioned stimulus? (bewijs voor expectancy theory)
A
- Unconditioned stimulus: luid geluid
unconditioned response: freeze
conditioned stimulus: flash light
»> S-R theory= freeze de ratten in response to the flash light, door een direct, learned connectie tussen het licht en freezing?
S-S theory= of freezen ratten door een geleerde connectie tussen het licht en het luide geluid via een mentale representatie van het luide geluid? Door habituation, vaak herhalen en dan niet meer schrikken > S-S theory had gelijk: ook al was het luide geluid er niet meer, maar wel de flashlight, schrokken de ratten minder erg omdat ze aan het geluid gewend waren. - De hond VERWACHT eten wanneer ze de bel horen. Expectancy theory= helps makes sense of the observation dat een conditioned response anders kan zijn dan de unconditioned response.
Bell > expectation of food > tail wagging, food begging, salivation. Rescorla zegt dat dieren niet hun tijd bewust spenderen om na te denken over de relaties. Maar eigenlijk dat dieren built-in neural mechanismes hebbe ndat automatisch de juiste berekeningen maakt. - Drie voorwaarden voor de verwachtende waarde van de conditioned stimulus:
a) de conditioned stimulus moet voorafgaan aan de unconditioned stimulus. Klassieke conditionering is het meest succesvol als de conditioned stimulus gelijk na de unconditioned stimulus volgt.
b) de conditioned stimulus moet een verhoogde kans van de gebeurtenis van een unconditioend stimulus signaleren. Dus de verwachting dat de kans dat de unconditioned stimulus gelijk volgt na de conditioned stimulus wordt de conditionering versterkt.
c) conditionering is ineffectief wanneer het dier al een goede predictor heeft. Blocking effect: de already-conditioned stimulus blocks conditionering aan een nieuwe stimulus dat gepaard met het was. Cognitieve verklaring: het dier heeft al het probleem opgelost voor het verwachten van een unconditioned stimulus en heeft geen andere reden meer nodig om naar een nieuwe predictor te zoeken.
> Sterke conditionering vindt plaats als een stimulus een reliable en niet overbodige predictor van de unconditioned stimulus is.
4
Q
- Wat zijn de Conditioned reacties voor drugs?
- Wat zijn operant responses?
- Wat is operant conditioning?
A
- Drugs (unconditioned stimulus) kan twee effecten hebben:
- directe effect (euphoria, hallucination)
- compensatory reactie van het lichaam om de effecten te vermindren (reflex, ucr).
> De omgeving waar de drugs wordt gebruikt wordt de conditioned stimulus voor de compensatory respons (Conditioned response). Dus in een bekende omgeving: early compensatory reaction, so less effect. Maar gebruik in nieuwe omgeving: latere compensatory reaction, dus een sterker effect > overdose. - Operant responses= acties die operate on the owrld to produce some effect. Soms ook wel instumental responses genoemd, omdat ze functioneren als instrumenten of tools, dat verandering aan de omgeving brengt.
- Operant conditioning= of instrumenteel leren is het leerproces waarbij een respons in een bepaalde context gevolgd wordt door een bekrachtiger. In het algemeen zijn operate responses die effecten produceren die gunstig zijn to the animal increase in rate, vice versa > ongunstige effecten descrease in rate. Wanneer je merkt dat een bepaalde handeling een goed resultaat oplevert, dan is de kans groot dat je het vaker gaat proberen.
> Bij klassiek conditioneren wordt de ene prikkel vervangen door een andere prikkel.
>Bij operant conditioneren gaat het om de selectie van de juiste reactie (als gevolg van een bepaalde prikkel).
5
Q
- Wat is de trial-and-error proces van Thorndike?
- Wat is het verschil tussen Pavlov en Thorndike?
- Wat is het Law of effect?
A
- Trial-and-error= Dieren leren via trial and error learning. De individu leert, met een verhoogde kans, om responses te weergeven dat tot gunstige effecten leidt. Dus gedrag laten zien die gewenst is via trial and error. Dus leren van de ervaringen die worden opgedaan bij het uitvoeren van bepaald gedrag.
> Voorbeeld: katten verhongeren en dan in een puzzle doos zetten, en dan maken katten onverwachte bewegingen alles om uit de doos te ontsnappen en eten te krijgen. En per ongeluk drukken ze op een hendel, waardoor ze kunnen ontsnappen en na de 30e keer ofso kan de kat sneller ontsnappen omdat hij weet dat de hendel daar zit. - Pavlov produceerde learning door de relatie te controleren tussen twee stimuli in de omgeving van het dier, zodat het dier kon leren om de ene stimulus te gebruiken om te voorspellen wanneer de andere stimulus eraan komt.
Thorndike produceerde learning door het alteren van de consequences van sommige aspecten van het gedrag van het dier. De katten van Thorndike hadden meer controle dan de honden van pavlov. - Thorndike moest wachten op een respons om aangetoond te worden, en dan om het te belonen. Hij keek naar de invloed van de gevolgen van het gedrag. - Law of effect=
- Responses dat leiden tot een pleasant effect in een bepaalde situatie zal meer weergegeven worden in die situatie. (pleasant effect is dat de rat voedsel krijgt, dus de respons zal meer weergegeven/gedaan worden in die situatie).
- Responses dat leiden tot een unpleasant effect in een bepaalde situatie zal minder weergegeven worden in die situatie. (dus de rat zal dan minder de respons hebben om de hendel aan te klikken omdat de rat een schok krijgt, en dat wilt hij natuurlijk niet).
6
Q
- Wat is het verschil in the box bij Thorndike en Skinner?
- Waarom proposede skinner de term ‘reinforcer’ ipv reward of satisfaction?
- Hoe kunnen we operant conditioning gebruiken om dieren iets te laten doen dat het eerder niet deed?
- Wat is partial reinforcement?
- Verschil tussen positieve en negatieve reinforcement?
A
- Bij Thorndike konden de katten na de hendel aangeraakt te hebben > ontsnappen. Terwijl bij Skinner het dier nog steeds in the box was en nog meer water of eten kon krijgen als hij de hendel aanraakte.
Operant response refereert naar elk actie van gedrag dat een effect heeft op de omgeving en operant conditioning refereert naar het proces waarin het effect van de operant response the likelihood van de response’s herhaling verandert. - Reinforcer= om te verwijzen naar een stimulusverandering die volgt op een reactie en de daaropvolgende frequentie van die respons toeneemt. Skinner heeft de voorkeur voor deze term omdat het geen assumpties maakt over wat dan ook gebeurd in het brein.
- Via shaping: stap voor stap, zo train je dieren. Als persoon of dier niet het gedrag toont dat jij wilt reinforcen. Ze moeten leren om het gedrag te leren, stap voor stap. Rat: aanraken – sniffen – aanraken met hand om eten te krijgen/reward. Als de rat bijvoorbeeld nooit de lever aanraakt, laat ze het eerst ruiken het eten en dan stapje verder > aanraken met hand. Want in operant conditioning krijgt het dier de reinforcer nadat het dier het gewenste gedrag vertoont.
- In veel gevallen is er in de echte wereld en in het lab, een bepaalde response produceert alleen soms een reinforcer = partial reinforcement. Terwijl continuous reinforcement is dat de response altijd reinforced wordt. Of extinction: response dat nooit reinforced wordt.
- Positieve reinforcement= arrival van een stimulus wordt gevolgd met een response > leidt ertoe dat het organisme de response vaker doet. Negatieve reinforcement= is het verwijderen of weghalen van een stimulus gevolgd met een response waardoor het organisme de response vaker vertoont.
> Dus bv vaker het gedrag laten zien (hendel aanraken), waardoor de rat een schok uitzet.
> Reinforcement betekent het gedrag stimuleren. Positief reinforcer: dan krijg je iets. Positief betekent altijd dat je iets krijgt (ook bij punishment: krijg je een shock als je bv hendel aanraakt). En negatief betekent altijd dat er iets weg wordt gehaald. Dus negative punishment: removes food. Punishment = wil je juist gedrag van wezen verminderen.
7
Q
- Leg de schedules uit van partial reinforcement.
- Welke types van learning zijn er?
- Welke grenzen zijn er aan learning?
A
- Schedules:
- fixed-ratio schedule= In een schema met vaste verhoudingen treedt een reinforcer op na elke Nth reactie, waarbij N staat voor een geheel getal dat groter is dan 1. Bv. in een fixed-ratio 5 schema wordt elke 5e response reinforced.
»> vast getal dat een reinforcement komt na de zoveelste respons.
- Variable-ratio schedule= een schema met variabele verhoudingen is vergelijk met een schema met vaste verhoudingen, behalve dat het aantal responses vereist before reinforcement onvoorspelbaar varieert. Op een random manier kan een variable-ratio 5 schema reinforcement pas komen na 7 responses of pas na 3. Maar het gemiddelde responses voor reinforcement is wel 5.
»> reinforcement na respons komt na een onvoorspelbaar aantal responses (rond een bepaalde gemiddelde). Dit creert een high steady rate of responding.
- fixed-interval schedule= in een schema met een vast interval moet een vast tijdsperiode verstrijken tussen de ene reinforced response en de volgende. Elke reactie die voor die tijd plaatsvindt, wordt niet reinforced. Bv. in een fixed-interval 30 second schema de eerste response dat gebeurd na 30 seconde na de laatste reinforcer voordoet, wordt reinforced.
»> de eerste response is rewarded alleen na een specifieke aantal tijd (bv. na elke 3 minuten kan de rat water krijgen). Dit schema creert hoge aantal responding op het einde van de interval (tijd, na 3 minuten), en een langzamere responding gelijk na de delivery van de reinforcer (want hij weet dat het dan geen zin heeft om veel te klikken).
- variable-interval schedule= net als een fixed-interval schema behalve dat de periode die moet verstrijken voodat een response reinforced wordt onvoorspelbaar verschilt rond een bepaald gemiddelde. Bv. in een variable-interval 30 seconds schema is de gemiddelde periode vereist voordat de volgende response wordt versterkt 30 seconde.
»> wanneer een response is rewarded na een onvoorspelbaare aantal tijd (rond een bepaald gemiddelde). Dit schema creert een langzame, steady rate van responding. Je hebt niet zoveel zin om te responde want je krijgt het na een onvoorspelbaar lange tijd. - Andere types van learning:
- Learning via play
- Learning by exploring the environment
- Learning through observijng others: observational learning (using vicarious reinforcement: iemand anders krijgt reward, en dat observeer je en dan doe je het zelf bv)
- Learning what to eat: food aversion > als we ziek worden van bepaald eten, worden we ziek. Dan stoppen we met het eten van dat eten met zelfde taste/smell/look. - Grenzen aan learning:
- Niet alles is een goede conditioned stimulus voor learning food aversion: associatie met apearance werkt niet voor ratten (ratten denken alleen aan eten, dus het maakt niet uit hoe het eruit ziet) > alleen smell en taste hetzelfde > stoppen ze met het eten van dat eten.
- Also applies to other topics dan food aversion, zoals learning fear by observation.
- Wat we kunnen leren is er al : snake is fearful, maar konijnen is niet iets om bang voor te zijn > apen die bang zijn voor snakes, andere aap ook bang. Maar bij konijnen zijn apen niet bang.