VL 3 _ Lernen 3 Flashcards
Was ist operante Konditionierung?
Operante Konditionierung (auch: instrumentelles Lernen) ist neben
KK eine weitere Form des assoziativen Lernens
▪ „Operante Konditionierung“ & „instrumentelles Lernen“ häufig synonym verwendet
Warum heißt es „operante Konditionierung“?
Verhalten wirkt auf die Umwelt ein („behavior operates on the environment“), im Unterschied zum „respondenten“ Verhalten bei der KK
Warum heißt es „instrumentelles Lernen“?
Der Organismus lernt, dass Ereignisse in der Umwelt
(Belohnungen & Bestrafungen) von der Ausführung seines eigenen Verhaltens abhängig sind;
Verhalten dient sozusagen als „Instrument“
Verstärkung operante Konditionierung
Operantes Konditionieren verändert die Auftretenswahrscheinlichkeit des
operanten Verhaltens als Funktion seiner Konsequenzen
Verstärker (engl. reinforcer): Reiz oder Umstand, der die Auftretenswahrscheinlichkeit eines
Verhaltens erhöhen kann
▪ Positive Verstärkung: angenehmer Reiz wird dargeboten
▪ Negative Verstärkung: unangehmer Reiz wird entfernt
Bestrafung operante Konditionierung
▪ Typ-1-Bestrafung: unangenehmer Reiz wird dargeboten
▪ Typ-2-Bestrafung: angenehmer Reiz wird entfernt
Verstärkung und Bestrafung operante Konditionierung
Paradigmen Beispiele
Grundsätzlich kommen alle Verhaltensweisen von Organismen für operante
Konditionierung in Frage
▪ Beispiel: Tierstudien zum Erwerb & Verlernen von Verhalten-Konsequenz-Assoziationen
▪ Paradigma: Hebeldrücken von Ratten in sog. Skinner-Box (Verstärkung, Bestrafung, Darbietung von audiovisuellen Reizen als diskriminative Reize oder als sekundäre Verstärker)
Primäre und sekundäre Verstärker
▪ Primäre Verstärker: von Natur aus bzw. angeborenermaßen wirksam
▪ Sekundäre (konditionierte) Verstärker: gelernte Verstärker; sie erhalten ihre Wirkung durch
Assoziation mit primären Verstärkern
▪ Neutrale Reize, die mit Verstärkern gepaart auftreten, werden zu sekundären Verstärkern
▪ Menschliches Verhalten wird durch Vielzahl sekundärer Verstärker beeinflusst (z.B. Geld, Lob)
Was ist Token Economy? (operante Konditionierung)
Sekundäre Verstärker sind häufig wirksamer als primäre Verstärker (i.d.R findet keine Übersättigung statt)
▪ Generalisierte konditionierte Verstärker: sekundäre Verstärker, die sich zur Kontrolle mehrerer
verschiedener Verhaltensweisen verwenden lassen
▪ Gutschein-Verstärkersysteme (engl. token economies) als Mittel zur Verhaltensmodifikation
beruhen auf dem Prinzip der generalisierten konditionierten Verstärker
▪ Token-Systeme sind auch bei manchen Tieren erfolgreich anwendbar
Effektivität der Verstärkung, Aspekte, Prinzip der Kontingenz
Grundsätzlich gilt: Ein Verhalten wird nur dann effektiv verstärkt, wenn der
Verstärker kontingent mit dem gewünschten Verhalten dargeboten wird
▪ Prinzip der Kontingenz: „Verstärker folgt unmittelbar & zuverlässig auf das gezeigte Verhalten“ (d.h. zufällige Verstärkungen reduzieren den Erfolg)
Aber: Wie häufig und wie genau sollte man ein gewünschtes Verhalten belohnen?
▪ Verstärkerplan legt fest, nach welchen Kriterien eine Verstärkung erfolgt
#1 Qualität: nur ein bestimmtes Verhalten wird verstärkt
#2 Quantität: Häufigkeit des Verhaltens beeinflusst Verstärkung
#3 Zeit: Zeitintervall, das mindestens vergehen muss, bis weiteres Verhalten verstärkt wird
Verstärkerpläne 4 Arten
Verstärkerpläne bezeichnen ein Muster der Gabe von Verstärkern bei der operanten Konditionierung (2x2=4 Verstärkerpläne haben charakteristischen Einfluss auf Verhaltensaufbau & -abbau)
▪ Einfachster Verstärkerplan ist kontinuierliche Verstärkung: jedes gewünschte Verhalten wird verstärkt, wenn es auftritt (z.B. Ratte drückt Hebel); Lernanstieg erfolgt schnell; beim Ausbleiben der Verstärkung setzt sofort Extinktion ein
▪ Partielle/intermittierende Verstärkung: nicht jedes Verhalten wird verstärkt; Langsamerer Lernanstieg; Höhere Löschungsresistenz (bezeichnet man als partiellen Verstärkungseffekt)
▪ Quotenpläne (engl. ratio schedule):
#1 feste Quote (fixed ratio): jedes n-te Verhalten wird verstärkt (z.B. FQ-10)
#2 variable Quote (variable ratio): im Durchschnitt
wird jedes n-te Verhalten verstärkt (z.B.VQ-5)
▪ Intervallpläne (engl. interval schedule)
#1 festes Intervall (fixed interval): erste Reaktion nach Ablauf des Intervall wird verstärkt (z.B. FI-30)
#2 variables Intervall (variable interval): durchschnittliche Dauer eines Intervalls (z.B. VI-20)
Stimuluskontrolle Elemente (SD, R, SR)
Nach B.F. Skinner steht das Verhalten unter sog. „Stimuluskontrolle“
▪ Diskriminative Reize (SD) zeigen an, wann es sich lohnt, ein Verhalten (R) zu zeigen
▪ Generalisation: Verhalten wird auch bei Anwesenheit von Stimuli gezeigt, die dem diskriminativen
Stimulus ähnlich sind (z.B. Ratte drückt den Hebel auch bei rotem Licht)
▪ Operantes Konditionieren beinhaltet drei Elemente: diskriminativer Stimulus (SD), Verhalten bzw.
Reaktion des Organismus (R), verstärkender Stimulus (SR)
Skinner‘sche Verhaltensformel:
Nach der klassischen Skinner‘schen Verhaltensformel (SD -> R -> SR) wird Verhalten durch S-R-Assoziationen erklärt (Behaviorismus)
▪ Alternative Schreibweise der Skinner‘schen Verhaltensformel: S-R-C (C für Konsequenz)
▪ Kognitiv-emotionale Erweiterung der Verhaltensformel (Kanfer & Saslow, 1969): S-O-R-K-C
(O: Organismuskomponente; K: Kontingenzkomponente)
Arten der Verstärkung (operante Konditionierung)
Was ist Shaping? (operante Konditionierung)
Shaping (Verhaltensformung) bezeichnet die Veränderung des Verhaltens durch stufenweise Annäherung an ein gewünschtes, neues Verhalten
▪ Verhaltensweisen werden verstärkt, die stufenweise in der gewünschten Richtung liegen
▪ Durch sukzessive Approximation können Tiere vollkommen Neuartiges erlernen (z.B. Tricks)
was ist Chaining? (operante Konditionierung)
Chaining (Kettenkonditionierung) bezeichnet den Aufbau einer Verhaltenskette
▪ Man beginnt mit der operanten Konditionierung des letzten Glieds (z.B. Hebeldrücken => Futter)
▪ Letzte Situation wird zum konditionierten Verstärker für direkt vorangehendes Verhalten
▪ Prinzip: Jedes Glied der Kette wird zum diskriminativen Stimulus (SD) für nächste Reaktion (R) und zugleich zum konditionierten Verstärker der unmittelbar vorausgegangenen Reaktion
Mechanismus: operante Konditionierung bzw. Skinner‘sche Verhaltensformel (SD -> R -> SR)
▪ Prinzip: Jedes Glied der Kette wird zum diskriminativen Stimulus (SD) für nächste Reaktion (R) und zugleich zum konditionierten Verstärker der unmittelbar vorausgegangenen Reaktion
Flucht & Vermeidung (operante konditionierung)
Flucht- und Vermeidungslernen folgen den Prinzipien der operanten
Konditionierung bzw. des instrumentellen Lernens
▪ Flucht: aversiver Reiz (z.B. Elektroschock in Shuttle Box) wird durch Verhalten beendet
▪ Vermeidung: Kontakt mit aversivem Reiz wird durch Verhalten vermieden (z.B. bei Warnsignal)
▪ Vermeidungsverhalten ist i.d.R. sehr stabil und löschungsresistent
▪ M. Seligmans Experimente zur „gelernten Hilflosigkeit“ (engl. learned helplessness)
▪ Hypothese: Unkontrollierbare aversive Ereignisse führen zu gelernter Hilflosigkeit
Was bedeutet Verhaltensreduktion bei der operanten Konditionierung?
Verhaltensreduktion folgt den Prinzipien der operanten Konditionierung
bzw. des instrumentellen Lernens
#1 Löschung: Beseitigen der Kontingenz zwischen einem Verhalten & dem Verstärker
#2 Differentielle Verstärkung alternativen und ggf. inkompatiblen Verhaltens
#3 Sättigung des Verstärkers, wodurch der Wert des Verstärkers herabgesetzt wird
#4 Bestrafung; folgt i.d.R. ähnlichen Gesetzmäßigkeiten wie die Verstärkung:
▪ Bestrafung ist umso effektiver, je intensiver der Bestrafungsreiz ist
▪ Unmittelbare Bestrafung ist effektiver als zeitverzögerte Bestrafung
▪ Kontinuierliche Bestrafung führt zu schnellerer Verhaltensreduktion als intermittierende Bestrafung
▪ Wird ein Quotenplan verwendet, so führt geringere Quote zu einer effektiveren Verhaltensreduktion
Was ist latentes Lernen? (operante Konditionierung)
Latentes Lernen zeigt, dass Lernen auch ohne Verstärkung stattfinden kann
▪ Effektgesetz: Verstärkung des Verhaltens bzw. Konsequenz ist notwendig für das Lernen
▪ Latentes Lernen bezeichnet Lernen, das zunächst nicht gezeigt wird, aber demonstriert wird und sichtbar werden kann, sobald dafür eine Verstärkung erfolgt (Kompetenz vs. Performanz)
Was beschreibt das Premack-Prinzip?
Nicht nur externe Reize, sondern auch eigene Aktivitäten des Lernenden können als Verstärker eingesetzt und verwendet werden
▪ Premack-Prinzip: Jede bevorzugte Aktivität, die relativ häufig ausgeführt wird, kann als Verstärker dienen für eine weniger bevorzugte Aktivität, die relativ selten ausgeführt wird
▪ Im Gegensatz zur Skinner‘schen Verhaltensformel also keine eindeutige Unterscheidung
zwischen Verhalten & verstärkenden Reizen (≠ „Verhalten steht unter Stimuluskontrolle“)
Was bezeichnet Biofeedback? (operante Konditionierung)
Nach dem Prinzip der operanten Konditionierung können mit Hilfe von
Biofeedback „automatische“ Körpervorgänge gezielt beeinflusst werden
▪ Unbewusst ablaufende physiologische Prozesse (z.B. Regulation des Blutdrucks) werden
durch audiovisuelles Feedback wahrnehmbar gemacht; gewünschte Änderung = Verstärker
▪ Durch Verstärkung kann die willentliche Kontrolle physiologischer Prozesse erlernt werden
▪ Anwendung: chronische Schmerzen, Bluthochdruck, Schlafstörungen, Muskelverspannungen
Was ist Imitationslernen? (operante Konditionierung)
Als Imitationslernen bezeichnet man die Übernahme neuer Verhaltensweisen
aufgrund der Beobachtung fremden Verhaltens oder Lernens
▪ Oft synonym: Beobachtungslernen, Modelllernen, soziales Lernen, Lernen durch Nachahmung
▪ Tritt in Situationen auf, in welchen nach klassischen Lerntheorien kein Lernen zu erwarten ist
▪ Annahme: Das „Modell“ wird stellvertretend für die Lernenden belohnt bzw. konditioniert
▪ Imitationslernen ermöglicht komplexe soziale Lernprozesse