Poisoned cues research review

The effects of combining positive and negative reinforcement during training (pdf) – 2007

Ik ben maar een klein trainertje uit België, maar ik heb wél de filmpjes gezien en het onderzoek zelf gelezen (je kan het op de link hierboven zelf downloaden). Dit zijn mijn bedenkingen…

> Even if the behavior was trained entirely with positive
> reinforcement, if one now clicks for correct behavior following
> a discriminator ( a cue, command, or signal) but also gives
> aversive correction (leash pop, verbal reprimand, etc.) for
> incorrect behavior following that same stimulus, the stimulus
> immediately loses its value as a positive reinforcer. It is, at
> best, ambiguous in terms of reinforcement.

Het onderzoek gaat hier over het trainen (het aanleren) van een hélemaal nieuw gedrag (!) met clicker + positieve bekrachtiging, waarbij als het dier het fout doet er een correctie komt in de vorm van een “leash pull” – druk, jawel, als P+. Druk die achteraf wordt toegevoegd om te zeggen dat dit niet mag. Aversive correction.

Als het hondje de cue hoort, dan geraakt het als het ware een beetje verlamt in z’n uitvoering, er treedt onmiddellijk stress op. Het weet nog niet precies wat er van hem verwacht wordt, en moet nog gokken – maar het weet op voorhand dat de kans bestaat dat hij het fout zal doen en dus gestraft zal worden. Vandaar dat het de respons gaat uitstellen, want zo stelt het ook de kans op straf uit. Zelfs de uitvoering van het juiste gedrag gebeurt traag, vanwege de onzekerheid en het schrapzetten voor de eventuele straf. De cue is “poisoned” – vergiftigd.

In paardentaal zou dat bvb zijn: je wil dat het paard voorwaarts gaat naar een bepaalde plaats, met een random cue- laat ons bij wijze van voorbeeld “brok” gebruiken. De trainer roept “brok” en verwacht dat het paard naar een bepaalde plaats gaat. Het paard heeft nog geen idee wat “brok” betekent. Doet het paard het (toevallig) goed dan krijgt het een click + beloning, doet het paard het fout dan krijgt het een stevige tik van de zweep.

DAT is de verhouding waarin in het onderzoek de beiden (R+ en P+) tegenover elkaar gesteld worden: aan de ene kant een click, aan de andere kant een “leash pop” (waarbij het hondje soms aan z’n nekje van z’n plaats wordt getrokken, dus ernstig aversief inderdaad). Het onderzoek bevestigt dus iets wat we al lang kennen en weten, namelijk dat er een approach-avoidance conflict kan ontstaan.

1/ Er wordt vanuit dit onderzoek door sommigen aangenomen dat het hier gaat over het gebruik van negatieve bekrachtiging. Negatieve bekrachtiging = (bij paarden meestal) wijken-voor-druk waarbij, laat ons dat toch vooral niet vergeten, de informatie over het juiste gedrag komt vanuit het loslaten, niet vanuit de druk.
Nergens in dit onderzoek wordt negatieve bekrachtiging gebruikt. Het gaat over druk, jawel, maar dan als straf, nà het foute antwoord. Het wegvallen van de druk geeft geen informatie over wat dan wél het juiste gedrag is, en dat is toch een voorwaarde, anders is er gewoonweg geen r- geweest (outcome based, ook in de leertheorie!).

Laat ons eens gaan kijken naar een Parelli-oefening, één van de allereerste van de seven games: een paard achteruit sturen. Ik vraag het met fase 1 (vinger omhoog waarbij het touw wordt opgenomen), gebeurt het niet dan gebruik ik fase 2 (ik schud met het touw), gebeurt het wel dan ontspan ik (het touw los). Op het eerste gezicht ziet dat eruit alsof het hier enkel over negatieve bekrachtiging gaat. Wel, dat zou zo zijn als we enkel 1 fase zouden gebruiken (er is druk, en zodra het paard doet wat ik wil valt de druk weg). In de opstelling zoals PNH het gebruikt is fase 2 echter de straf (P+) voor het niet-reageren op fase 1.
Laat me duidelijk zijn: hoewel de vorm waarin men fase 2 gebruikt R- is, is de reden P+. En het is die reden waarom die paarden zo lang zo gestresst achteruit gaan met weggedrukte ruggen.
Als je deze oefening, in deze opstelling (fase 1 vinger, fase 2 druk met het touw als het paard niet reageert), gaat gebruiken in combinatie met een clicker en een extra (voedsel-)beloning, ja, dan krijg je nét hetzelfde als wat er met het hondje gebeurt.
Dit onderzoek bewijst waarom het zo vaak fout gaat met Parelli: omdat mensen leren zo gauw naar een hogere fase gaan zonder dat het nodig is.
Het bewijst echter niet waarom je niet de oefeningen van Parelli niet perfect zou kunnen combineren met r+. Als je de methode maar niet overneemt.
Als je maar zorgt dat je a/ de druk aanhoudt en loslaat op het moment van het goede gedrag én tegelijkertijd met het loslaten bridget en beloont en b/ NOOIT naar een fase 2 gaat. Zet het op en wàcht.
Druk is niet slécht per definitie. Het hangt ervan af wat je ermee doet.

2/ Je kan je vragen stellen over of de opstelling van het onderzoek wel toelaat te bewijzen wat men eigenlijk wou bewijzen.
Een random cue gebruiken voor een nieuwe oefening zoals hier is gewoon een erg domme trainingsfout (“brok!”). Straf gebruiken zonder informatie te geven over wat wél het juiste gedrag is is gewoon een erg domme trainingsfout.
Hoewel het zo ongeveer de vaakst voorkomende trainingsfouten zijn, dat is waar.
Bovendien staat het geweld van de correctie in geen enkele verhouding tot het gevraagde.
Wat hier bewezen wordt is dat slecht trainen slecht is voor je uitvoering én voor het vertrouwen en welbevinden van je dier op langere termijn.

3/ Laat niemand zeggen dat ik zojuist heb gezegd dat trainen met druk dat is wat we met ItClicks doen.
Er wordt druk gebruikt, ja, maar dan als (modifier) cue (een heel andere discussie!), niet als trainingstool. En soms, ja, soms (twee keer per jaar) moet je alles uit de kast halen wat je nodig hebt, om nog te kùnnen doordringen tot een paard dat al lang is opgehouden om te proberen informatie van een mens te verwachten waar hij wat mee kàn. Om ruimte te creëren (“window of opportunity” is dat zo mooi in het engels) waar je van dan af de dingen zonder dwang kan uitleggen. It depends!

Lees meer over vergiftigde cues: