Operante conditionering

Wetenshappelijke achtergrond: Thorndike en Skinner

Door middel van operante conditionering kan nieuw gedrag aangeleerd worden. Bij operante conditionering wordt gedrag geleerd omdat het ‘opereert’, effect heeft op de omgeving.

De eerste naam die meestal genoemd wordt in verband met operante conditionering is die van Skinner (1904-1990).
Het onderzoek naar operant leren begon echter al met een serie experimenten van Thorndike (1874-1949).

Thorndike: Puzzle Box

In deze experimenten plaatste Thorndike een (hongerige) kat in een afgesloten kooi, die van binnenuit geopend kon worden met een of meer hendels. Buiten de kooi stond een schaaltje met vis. De kat vertoonde allerlei gedrag in de kooi en raakte doormee ook een keer per ongeluk de hendel(s) aan, het deurtje ging open en de kat kon bij de vis. Door dit verschillende keren te herhalen, bleek dat de kat het irrelevante gedrag steeds minder ging vertonen en het gedrag dat ervoor zorgde dat het deurtje open ging steeds vaker. Uiteindelijk bleek de kat geleerd te hebben in een handeling het deurtje te openen. Hij had dit geleerd door de consequentie van zijn gedrag: uit de kooi kunnen en bij de vis. Thorndike noemde dit leren door de consequenties van gedrag de ‘Law of Effect’.

Skinner

Veel bekender dan het werk van Thorndike is het werk van Skinner. Skinner heeft voortgeborduurd op het werk van Thorndike en heeft de wetmatigheden van operante conditionering verder uitgewerkt. Veel van Skinners onderzoek is gedaan met ratten en duiven. Omdat volgens Skinner de wetmatigheden van conditionering echter universeel zijn, kunnen zijn bevindingen toegepast worden op alle dieren en op mensen.

Basisprincipes

In het experiment van Thorndike gaat het om een gunstig gevolg van het gedrag, als de kat op het juiste hendeltje drukt, gaat het deurtje open en kan de kat bij de vis. In termen van operante conditionering wordt het gedrag (op het hendeltje drukken) bekrachtigd door het gevolg van het kunnen eten van de vis. Het eten van de vis is dan de bekrachtiger van het gedrag.

Belonen / bekrachtigen

Iets is een bekrachtiger als het het gedrag laat toenemen. Vaak wordt ook de term beloning gebruikt. Toch is een beloning niet hetzelfde als een bekrachtiger. Een voorbeeld daarvan zie je vaak als mensen hun hond als beloning over de bol aaien. Heel veel honden vinden dit helemaal niet prettig en bij die honden zal het ook zeker niet als bekrachtiger fungeren, ze zullen geen gedrag gaan herhalen om weer die aai over de bol te krijgen.

Andersom kan iets wat niet als beloning bedoeld is, wel als bekrachtiger werken. Mopperen op je hond als hij loopt te zeuren om aandacht is daar een voorbeeld van. Het mopperen is vast niet bedoeld als beloning, maar kan wel als bekrachtiger werken doordat het gevolg van het zeurgedrag aandacht van de baas is.

Straffen

Nu kan gedrag naast prettige gevolgen ook vervelende gevolgen hebben. Als de gevolgen van gedrag ervoor zorgen dat het gedrag afneemt, dan is er sprake van straf. Het verschil tussen bekrachtigen en straffen is of het gedrag toeneemt of afneemt. Daarnaast wordt er bij operante conditionering nog het onderscheid gemaakt tussen positief en negatief. Dat heeft in deze zin niets te maken met het idee dat de consequentie van het gedrag voor het dier of de mens positief of negatief is, maar met of er iets toegediend wordt of iets weggenomen. In onderstaande tabel staan de verschillende mogelijke consequenties van gedrag.

	Gedrag neemt toe	Gedrag neemt af
Iets toedienen	R+ Positieve Bekrachtiging	P+ Positieve Straf
Iets wegnemen	R- Negatieve Bekrachtiging	P- Negatieve Straf

R+ Positieve bekrachtiging

Of ook wel ‘positive reinforcement’ genoemd, vandaar R+. Bij de training van dieren, en dus ook honden, wordt vaak gebruik gemaakt van voer als positieve bekrachtiger. Voedsel is een primaire bekrachtiger. Primaire bekrachtigers voorzien in basale levensbehoeftes. Voor dieren is voer een goed middel om hen te trainen. Maar ook spel kan een goede bekrachtiger zijn. Een ander voorbeeld van een bekrachtiger is prijzen of aandacht schenken. Dit valt onder sociale bekrachtiging. Ook bij sociale dieren, als honden is het bij een groep horen belangrijk voor de overleving en kan prijzen als bekrachtiger werken.

Wat als bekrachtiger werkt, kan echter van hond tot hond verschillen. Per definitie is iets pas een bekrachtiger als het ervoor zorgt dat gedrag toeneemt. In die zin is het dus de hond die bepaalt wat een bekrachtiger is.

R- Negatieve bekrachtiging

Negatieve bekrachtiging is bekrachtiging omdat het gedrag toeneemt. Dit wordt bewerkstelligd door iets aversiefs, iets onplezierigs weg te nemen of door met iets onplezierigs te dreigen. Het gedrag neemt in frequentie toe om een aversieve stimulus te laten verdwijnen of om deze te vermijden. Met name in America wordt er bij hondentraining wel gebruik gemaakt van negatieve bekrachtiging door middel van een stroomband (e-collar, shock collar). Tegelijkertijd dat de hond een commando krijgt wordt een elektrische prikkel toegediend. Zodra de hond het gewenste gedrag laat zien, wordt de prikkel weggenomen. Als de hond eenmaal doorheeft welk gedrag ervoor zorgt dat de onaangename prikkel verdwijnt, zal hij dat gedrag steeds frequenter en sneller gaan vertonen.

Als de hond het gedrag vertoont om de stroom te laten stoppen, gaat het dus om ontsnappingsgedrag. Als de onaangename prikkel telkens vooraf is gegaan door een waarschuwingssignaal, kan de hond ook leren de onaangename prikkel te vermijden.

P+ Positieve straf

Bij positieve straf (positive punishment) wordt een onaangename prikkel toegediend om gedrag te laten afnemen. Dit kan een verbale prikkel zijn, maar ook fysiek, zoals slaan, schoppen, in het nekvel grijpen of aan een stroomstoot, wurging met een slipketting of een halsband met ijzeren punten aan de binnenkant.

Nedelen en neveneffecten

Straf kan een aantal nadelen en neveneffecten hebben. Straffen vertelt de hond waar het mee moet stoppen, maar niet wat hij dan wel moet doen. Een ander nadeel van straffen is dat het kan leiden tot een hekel aan of angst voor de situatie waarin de straf gegeven wordt of aan de persoon die de straf uitdeelt. Daarnaast kunnen harde fysieke straffen agressief gedrag uitlokken, gedrag dat vaak nog onwenselijker is dan het gedrag waarvoor de straf bedoeld was.

P- Negatieve straf

Bij negatieve straf (negative punishment) wordt iets dat de hond graag wil hebben weggenomen om het gedrag te laten afnemen. Hierbij kan gedacht worden aan het niet geven van een voertje na een niet goed uitgevoerde oefening. Maar ook als een hond bijvoorbeeld opspringt of blaft voor aandacht, kun je negatieve straf toepassen door hem dan juist geen aandacht te geven.

Negeren van ongewenst gedrag

Dit onthouden van aandacht is waarschijnlijk de oorzaak van het wijdverbreide misverstand dat ‘positieve trainers’ al het ongewenste gedrag altijd negeren. Negeren (het wegnemen van aandacht) is een negatieve straf die eigenlijk alleen zinvol is als het gedrag van de hond bedoeld is om aandacht te krijgen. Als de hond op zijn gemak het aanrecht leeg staat te eten of de stoelpoten kapot aan het knagen is, zal negeren er zeker niet voor zorgen dat dit gedrag afneemt (voorkomen is hier een betere strategie).

Stimuluscontrole

Bij operante conditionering spelen een aantal principes een rol.

Gedrag dat door operante conditionering aangeleerd is, kan zich generaliseren naar andere situaties. Een hond kan een net geleerd nieuw trucje (dat heel veel bekrachtigd is) te pas en te onpas gaan vertonen. Om nu te zorgen dat de hond het alleen doet wanneer je dat wilt, is het zaak dit gedrag onder stimuluscontrole te brengen. Dit kan door het toevoegen van cue’s (of commando’s) en het gedrag alleen nog maar te bekrachtigen als het vooraf is gegaan door de cue.
Anderzijds kan er ook sprake zijn van stimulusdiscriminatie. Hoe vaak zeggen mensen op de hondenschool niet dat de hond het thuis wel doet. Dit heeft niet alleen te maken met de grotere mate van afleiding die er op de hondenschool is, maar ook met het feit dat de hond het gevraagde gedrag gekoppeld heeft aan een specifieke situatie.

Bekrachtigingsschema’s: timing en frequentie

Het bekrachtigen van gedrag kan volgens verschillende schema’s. Men kan continu bekrachtigen, dus elke keer dat het gedrag zich voordoet, een bekrachtiger geven.

Je kunt gedrag ook partieel bekrachtigen, door niet elke keer dat het gedrag vertoond wordt dit te bekrachtigen. Dit kan volgens verschillende schema’s: men kan volgens een tijdsschema bekrachtigen, en dat tijdsschema kan vast of variabel zijn. Bij een vast tijdsschema wordt bijvoorbeeld elke 4 seconden bekrachtigd, mits het gedrag vertoond wordt. Een variabel tijdsschema wil zeggen dat je gemiddeld elke 4 seconden bekrachtigd, dus de ene keer na 2 seconden en de andere keer na 6 seconden.
Daarnaast kun je volgens een ratioschema belonen, dus bijvoorbeeld elke 4de keer dat het gedrag vertoond wordt. Ook dit kan volgens een vast schema of volgens een variabel schema.

In het dagelijks leven komt partiele bekrachtiging veel vaker voor en dan meestal volgens een variabel ratio schema. Bovendien is gedrag dat aangeleerd is via een partieel bekrachtigingsschema veel minder gevoelig voor uitdoving of extinctie.

Extinctie

Extinctie of uitdoving is het afnemen en uiteindelijk verdwijnen van gedrag als het niet langer bekrachtigd wordt. Het gedrag levert niets meer op, dus zal uit het repertoire verdwijnen.

Uitdoving doet zich eerder voor bij continue bekrachtiging dan bij partiele bekrachtiging.

Een gokautomaat zal maar eens in de zoveel keer uitbetalen. Partiele bekrachtiging dus, met een variabele ratio. Dat is precies de reden waarom gokken zo verslavend is, helemaal als je weleens wat gewonnen hebt. Je weet niet van tevoren wanneer hij weer gaat uitbetalen, elke keer dat je er geld in gooit kan het gebeuren. Als je niets wint, blijf je toch doorgaan, want de volgende keer kun je wel succes hebben.

Een snoep- of frisdrankenautomaat werkt wel volgens continue bekrachtiging, elke keer dat je er geld in gooit, krijg je er wat voor terug. Doet hij het een keer niet, dan zal je het hooguit nog een keer proberen en er weer geld in gooien, maar je blijft er niet mee doorgaan. Het gedrag van geld erin stoppen zal al heel snel uitdoven.

Extinction burst

Een fenomeen bij extinctie is de zogenaamde extinction burst. Stel een hond vraagt om aandacht door steeds met zijn bal aan te komen en deze bij de baas op schoot te gooien. De baas reageert daar de ene keer wel op door toe te geven en met hem te gaan spelen, soms door te mopperen en soms niet, door geen aandacht aan het gedrag te schenken. Het gedrag is dus volgens een variabel schema bekrachtigd. De baas wil van dit zeurgedrag af en neemt zich voor er niet meer op te reageren om zo het gedrag te laten uitdoven. Doordat het gedrag partieel beloond is, is het vrij hardnekkig en ongevoelig voor uitdoving. Na een tijdje merkt de baas op dat het gedrag alleen maar erger wordt, de hond gaat steeds hardnekkiger en dwingender de bal op schoot gooien en begint er ook nog kabaal bij te maken. Deze opvlamming van het gedrag wordt de extinction burst genoemd. De hond snapt niet dat het gedrag wat eerst vaak werkte om aandacht te krijgen, ineens nooit meer werkt. Hij denkt dat hij harder zijn best moet doen, meer geluid maken (misschien horen ze hem niet), misschien willen ze meer van het gedrag zien.

Voor de baas is de verleiding is dan erg groot toch weer toe te geven of te gaan mopperen (en te denken dat het niet werkt), terwijl het juist een teken is dat het gedrag op het punt van uitdoven staat. Nu toegeven zou kunnen betekenen dat het ongewenste gedrag heviger dan ooit in het repertoire van de hond verankerd wordt.

Conditionering van de mens

Operante conditionering werkt vaak 2 kanten op. Wij denken wel dat we de hond trainen, maar wij worden net zo goed geconditioneerd. Een voorbeeld hiervan zie je bij mensen die tijdens het wandelen met de hond continu rukjes aan de lijn geven. Die rukjes zijn bedoeld als positieve straf, iets toedienen om de hond te laten stoppen met trekken aan de lijn. Het is echter geen positieve straf, want het gedrag neemt niet af in frequentie (anders zou het niet nodig zijn die rukjes te blijven geven). Op het moment dat zo’n rukje gegeven wordt, stopt het trekken aan de lijn echter wel voor even: positieve bekrachtiging voor de baas, met als gevolg dat het gedrag herhaald wordt. Soms wordt de mens dus meer geconditioneerd dan de hond. Het is daarom goed ons bewust te zijn van het feit dat ook wij onderhavig zijn aan de wetmatigheden van operante conditionering.

In de media

Hieronder kun je de Puzzle Box van Thorndike en een korte documentaire over Skinner bekijken. Nog meer voorbeelden van positieve bekrachtiging zijn te vinden op het YouTube kanaal van Hondenschool Paws4Fun