Кликер в частности, или Дрессировка с условным подкреплением
Иван Затевахин
Фото Дмитрий Есич
Вместо предисловия
В настоящее время в собаководстве все большей популярностью пользуется методика условного подкрепления, когда в качестве инструмента, подающего условный сигнал, используется щелчок, издаваемый прибором под названием «кликер». Однако некоторые тренеры относятся к использованию условных подкреплений вообще и кликера в частности с непонятным предубеждением: дескать, зачем это нужно, нельзя ли просто вовремя хвалить собаку и т. д. Поскольку у меня есть довольно большой опыт работы с использованием условного подкрепления, и не только с собаками, готов поделиться им со всеми желающими и развеять, если это понадобится, мифы, сложившиеся вокруг технологии использования условных подкреплений.
Заразительный пример Карен Прайор
Еще несколько замечаний. Впервые описание методики работы с условным подкреплением я прочел в 1981 году в замечательной книге выдающейся дрессировщицы дельфинов в частности и животных вообще Карен Прайор «Несущие ветер». Дело в том, что мой научный руководитель, Всеволод Михайлович Белькович, писал предисловие к этой книге – он же и подарил мне один из экземпляров. Напомню, что тренеры дельфинов использовали так называемый оперантный метод обучения, который позволял из поведения животного при помощи условных подкреплений (УП) «выуживать» нужный элемент. Обратить внимание на этот метод применительно к дрессировке собак мне посоветовал В. С. Варлаков, успешно внедрявший его впоследствии среди своих учеников.
По примеру Карен Прайор я пробовал применять метод УП и на людях (и «заразил» этим своих товарищей по Институту океанологии: играя в «дрессировщиков со свистком» во время длительных экспедиций, мы таким образом развлекались и пытались путем серии УП заставить человека выполнить какое-нибудь дурацкое действие – забраться на лабораторный стол и топнуть ногой, снять с соседа ботинок и т. д.), и на дельфинах, и на собаках.
Так выглядит кликер.
Замечу, что, дрессируя собак, я пробовал использовать условные подкрепления в совокупности с обычными методами и средствами дрессировки на позитивном эмоциональном фоне.
Оперантный метод
В чем суть классической работы с условным подкреплением? В качестве УП тренерами морских млекопитающих выступала и выступает трель, издаваемая свистком. Но для того чтобы трель из обычного звука превратилась в сигнал, а затем и в условное подкрепление, необходимо было проделать некоторую работу. Тренер издавал свист и бросал голодному дельфину рыбку. Свистел и бросал, свистел и бросал в разных местах бассейна. Таким образом, у дельфина вырабатывалась положительная условная связь «свисток–рыбка».
Далее тренеры приступали к разучиванию простейших элементов, например, касание рукой. Для этого они выходили на бортик бассейна (в котором их поджидал дельфин), взяв ведро, наполненное рыбой. Дельфин начинал проявлять нетерпение, высовывал голову из воды. Тренер выставлял ладонь и, когда дельфин касался ее рострумом (кончиком морды), тут же (но не раньше и не позже!) раздавался свисток и дельфин получал рыбку. Еще касание – еще свисток и рыбка. Далее навык усложнялся: ладонь перемещалась выше, голодному дельфину приходилось за ней тянуться и красиво выходить из воды, то есть зарабатывать себе еду.
Вот так, довольно быстро, звуковой сигнал превращается в условное подкрепление, причем процесс этот связан с положительными эмоциями, поскольку устанавливается в результате не тяжелой, но приятной работы. Еще один важный момент — высокоразвитому животному для комфортного существования просто необходима коллективная деятельность. Процесс взаимодействия с тренером во время веселой пищедобывательной активности — дрессировки — и есть такая деятельность.
Лакомство лучше давать мелкими кусочками.
Аналогичным образом отрабатывались разнообразные навыки, которые потом могли быть объединены в поведенческие цепочки. Впоследствии под уже сформированный навык или цепочку «подводилась» конкретная команда. Вот вкратце описание классического воплощения метода оперантного научения с использованием условных подкреплений.
Подведем итог: в чистом виде ОПЕРАНТНЫЙ МЕТОД — это метод обучения, при котором из
НЕЦЕЛЕНАПРАВЛЕННОГО (оперантного), но высокомотивированного поведения животного тренер при помощи условных подкреплений извлекает необходимые ему элементы поведения, формируя навык, под выполнение которого далее «подводится» команда.
Подкрепление «добычей»
Приведенное выше – это описание классического обучения по оперантной методике. К классическому оперантному близок и метод дрессировки собак на базе игровой мотивации с использованием в качестве подкрепления так называемой «добычи», когда правильное освоение навыка или цепочки навыков – от поиска спрятанных предметов до преодоления полосы препятствий – подкрепляется получением любимой игрушки (например, жгутика или мячика).
Собака всем своим видом показывает, что ждет УП.
Так же близок к «классике» метод, используемый в защитной службе, когда подкреплением является хватка и получение той же «добычи». Оба приведенных выше примера дрессировки собак отличаются от классики только тем, что в них УП используется немного иначе.
Свист или щелчок кликера – это условный звуковой сигнал, с которым выработана условная связь: за ним следует прямое подкрепление пищей. «Добыча» — это «прямое» непищевое подкрепление без подачи условного звукового сигнала. Возгласы «Молодец!», «Хорошо!», «Умница!» такими сигналами могут считаться с натяжкой, так как за ними «прямое» подкрепление следует далеко НЕ ВСЕГДА! Тут можно добавить, что сама искусственная «добыча» — это предмет-подкрепление, ставший таковым в результате предварительного обучения. Здесь базой для формирования является не пищедобывательное поведение, а комплекс преследования добычи. Но не будем, как говорится, множить сущности.
Метод подкрепления «добычей» тем не менее оперантный, поскольку при его использовании из массы демонстрируемых элементов поведения отбирается и подкрепляется «добычей» необходимый.
Преимущества УП
В чем смысл классического оперантного метода? В том, что необходимый элемент отбирается с помощью УП из нецеленаправленного (оперантного) поведения животного.
А если мы заставляем животное что-либо сделать, подталкиваем его с помощью рук или средств дрессировки (которые я широко и избирательно, по необходимости вплоть до радиоошейника, использую при обучении), то его поведение будет реактивным (от слова «реакция»). Любознательный дрессировщик-натуралист может поинтересоваться: «Так зачем же, добиваясь реакции собаки при помощи поводка, ошейника и прочих вспомогательных средств, использовать еще и УП? Зачем терять время на формирование условной связи, когда можно сразу подкрепить правильное выполнение приема согласно старому доброму контрастному методу?» Отвечу.
Итак, использование УП в сочетании с прочими средствами дрессировки позволяет:
– поддерживать МОТИВАЦИЮ собаки на высоком уровне, превращая ПИЩЕДОБЫВАТЕЛЬНОЕ ПОВЕДЕНИЕ в несложную, но веселую ИГРУ;
– довольно долго поддерживать КОНЦЕНТРАЦИЮ собаки на должном уровне, чего бывает трудно достичь в «классическом» контрастном методе;
– ТОЧЕЧНО подкрепить выполнение навыка именно в той точке или фазе поведения, которая вам кажется правильной – например, при выполнении команды «Сидеть!» собака садится максимально близко от ваших ног;
– начать безболезненное обучение щенка с максимально РАННЕГО возраста. Я начал занятия со своим псом Горкой, когда ему было 40 дней – т. е. с его первого дня у нас дома. Теоретически, можно начинать и раньше – с того момента, как щенки приучаются есть самостоятельно;
– подкреплять выполнение элемента кусочком пищи несколько ПОЗЖЕ условного сигнала-подкрепления – от этого его эффективность не снижается;
– дрессировать и взрослых собак, ИСПОРЧЕННЫХ предыдущей дрессировкой, – например, чересчур «задавленных».
Во время дрессировки с применением УП собака постоянно сохраняет
высокую концентрацию.
Единственный вариант, когда не стоит сразу пробовать использовать УП, – это частный случай, когда предстоит работать со злобной собакой (типа агрессивного экземпляра среднеазиатской, южнорусской, кавказской овчарок или ротвейлера), которая может цапнуть вас в ответ на протянутое лакомство. Однако если у собаки означенной породы пищевая мотивация не трансформируется в агрессию, то и с ней можно работать, применяя УП, и даже очень эффективно.
Из личной практики
Обязательно ли в качестве УП использовать щелчок кликера? Вовсе нет. Как сказано выше, условный сигнал может быть подан любым доступным вам способом и любым предметом или, в чем нас убедил В. С. Варлаков, использовавший УП еще ДО изобретения кликера, любой частью тела – например, цокая языком. Главное, чтобы сигнал был однотипным и за его подачей обязательно – но не обязательно в ту же секунду – следовало бы лакомство.
УП позволяет подкреплять собаку в нужный момент и в любой фазе движения. Например, собаку можно научить сохранять равновесие на «гребне» барьера.
Итак, если я вас убедил, то для начала – несколько советов из моей личной практики.
Формирование условной связи «сигнал–еда» лучше начинать с голодной, высоко мотивированной на зарабатывание пищи собакой.
Кусочки еды должны быть небольшими, чтобы не тратить время на их пережевывание животным.
На первых порах, подав условный сигнал, сразу же давайте собаке кусочек еды. Добившись характерной реакции собаки на сигнал (внимательный взгляд, движение ушами и т. д.), давайте пищу не сразу, а с некоторой паузой. Старайтесь, чтобы пауза была разной по времени, но на первых порах не более 4–5 секунд.
Не бойтесь «подсказывать» собаке руками, в том числе с помощью легких воздействий. Собаке можно помочь и поводком с ошейником.
Четко определите момент, в который будет следовать подкрепление, идите от простого к сложному, не требуйте от собаки сразу слишком многого.
Не забывайте хвалить животное, ведь акустический контакт с собакой – важный компонент для формирования связи между вами, а похвала – необходимая составляющая поддержания положительного эмоционального фона на занятии.
Для собаки дрессировка с УП – веселая игра, а не работа.
Иван Затевахин
Фото Дмитрий Есич
Вместо предисловия
В настоящее время в собаководстве все большей популярностью пользуется методика условного подкрепления, когда в качестве инструмента, подающего условный сигнал, используется щелчок, издаваемый прибором под названием «кликер». Однако некоторые тренеры относятся к использованию условных подкреплений вообще и кликера в частности с непонятным предубеждением: дескать, зачем это нужно, нельзя ли просто вовремя хвалить собаку и т. д. Поскольку у меня есть довольно большой опыт работы с использованием условного подкрепления, и не только с собаками, готов поделиться им со всеми желающими и развеять, если это понадобится, мифы, сложившиеся вокруг технологии использования условных подкреплений.
Заразительный пример Карен Прайор
Еще несколько замечаний. Впервые описание методики работы с условным подкреплением я прочел в 1981 году в замечательной книге выдающейся дрессировщицы дельфинов в частности и животных вообще Карен Прайор «Несущие ветер». Дело в том, что мой научный руководитель, Всеволод Михайлович Белькович, писал предисловие к этой книге – он же и подарил мне один из экземпляров. Напомню, что тренеры дельфинов использовали так называемый оперантный метод обучения, который позволял из поведения животного при помощи условных подкреплений (УП) «выуживать» нужный элемент. Обратить внимание на этот метод применительно к дрессировке собак мне посоветовал В. С. Варлаков, успешно внедрявший его впоследствии среди своих учеников.
По примеру Карен Прайор я пробовал применять метод УП и на людях (и «заразил» этим своих товарищей по Институту океанологии: играя в «дрессировщиков со свистком» во время длительных экспедиций, мы таким образом развлекались и пытались путем серии УП заставить человека выполнить какое-нибудь дурацкое действие – забраться на лабораторный стол и топнуть ногой, снять с соседа ботинок и т. д.), и на дельфинах, и на собаках.
Так выглядит кликер.
Замечу, что, дрессируя собак, я пробовал использовать условные подкрепления в совокупности с обычными методами и средствами дрессировки на позитивном эмоциональном фоне.
Оперантный метод
В чем суть классической работы с условным подкреплением? В качестве УП тренерами морских млекопитающих выступала и выступает трель, издаваемая свистком. Но для того чтобы трель из обычного звука превратилась в сигнал, а затем и в условное подкрепление, необходимо было проделать некоторую работу. Тренер издавал свист и бросал голодному дельфину рыбку. Свистел и бросал, свистел и бросал в разных местах бассейна. Таким образом, у дельфина вырабатывалась положительная условная связь «свисток–рыбка».
Далее тренеры приступали к разучиванию простейших элементов, например, касание рукой. Для этого они выходили на бортик бассейна (в котором их поджидал дельфин), взяв ведро, наполненное рыбой. Дельфин начинал проявлять нетерпение, высовывал голову из воды. Тренер выставлял ладонь и, когда дельфин касался ее рострумом (кончиком морды), тут же (но не раньше и не позже!) раздавался свисток и дельфин получал рыбку. Еще касание – еще свисток и рыбка. Далее навык усложнялся: ладонь перемещалась выше, голодному дельфину приходилось за ней тянуться и красиво выходить из воды, то есть зарабатывать себе еду.
Вот так, довольно быстро, звуковой сигнал превращается в условное подкрепление, причем процесс этот связан с положительными эмоциями, поскольку устанавливается в результате не тяжелой, но приятной работы. Еще один важный момент — высокоразвитому животному для комфортного существования просто необходима коллективная деятельность. Процесс взаимодействия с тренером во время веселой пищедобывательной активности — дрессировки — и есть такая деятельность.
Лакомство лучше давать мелкими кусочками.
Аналогичным образом отрабатывались разнообразные навыки, которые потом могли быть объединены в поведенческие цепочки. Впоследствии под уже сформированный навык или цепочку «подводилась» конкретная команда. Вот вкратце описание классического воплощения метода оперантного научения с использованием условных подкреплений.
Подведем итог: в чистом виде ОПЕРАНТНЫЙ МЕТОД — это метод обучения, при котором из
НЕЦЕЛЕНАПРАВЛЕННОГО (оперантного), но высокомотивированного поведения животного тренер при помощи условных подкреплений извлекает необходимые ему элементы поведения, формируя навык, под выполнение которого далее «подводится» команда.
Подкрепление «добычей»
Приведенное выше – это описание классического обучения по оперантной методике. К классическому оперантному близок и метод дрессировки собак на базе игровой мотивации с использованием в качестве подкрепления так называемой «добычи», когда правильное освоение навыка или цепочки навыков – от поиска спрятанных предметов до преодоления полосы препятствий – подкрепляется получением любимой игрушки (например, жгутика или мячика).
Собака всем своим видом показывает, что ждет УП.
Так же близок к «классике» метод, используемый в защитной службе, когда подкреплением является хватка и получение той же «добычи». Оба приведенных выше примера дрессировки собак отличаются от классики только тем, что в них УП используется немного иначе.
Свист или щелчок кликера – это условный звуковой сигнал, с которым выработана условная связь: за ним следует прямое подкрепление пищей. «Добыча» — это «прямое» непищевое подкрепление без подачи условного звукового сигнала. Возгласы «Молодец!», «Хорошо!», «Умница!» такими сигналами могут считаться с натяжкой, так как за ними «прямое» подкрепление следует далеко НЕ ВСЕГДА! Тут можно добавить, что сама искусственная «добыча» — это предмет-подкрепление, ставший таковым в результате предварительного обучения. Здесь базой для формирования является не пищедобывательное поведение, а комплекс преследования добычи. Но не будем, как говорится, множить сущности.
Метод подкрепления «добычей» тем не менее оперантный, поскольку при его использовании из массы демонстрируемых элементов поведения отбирается и подкрепляется «добычей» необходимый.
Преимущества УП
В чем смысл классического оперантного метода? В том, что необходимый элемент отбирается с помощью УП из нецеленаправленного (оперантного) поведения животного.
А если мы заставляем животное что-либо сделать, подталкиваем его с помощью рук или средств дрессировки (которые я широко и избирательно, по необходимости вплоть до радиоошейника, использую при обучении), то его поведение будет реактивным (от слова «реакция»). Любознательный дрессировщик-натуралист может поинтересоваться: «Так зачем же, добиваясь реакции собаки при помощи поводка, ошейника и прочих вспомогательных средств, использовать еще и УП? Зачем терять время на формирование условной связи, когда можно сразу подкрепить правильное выполнение приема согласно старому доброму контрастному методу?» Отвечу.
Итак, использование УП в сочетании с прочими средствами дрессировки позволяет:
– поддерживать МОТИВАЦИЮ собаки на высоком уровне, превращая ПИЩЕДОБЫВАТЕЛЬНОЕ ПОВЕДЕНИЕ в несложную, но веселую ИГРУ;
– довольно долго поддерживать КОНЦЕНТРАЦИЮ собаки на должном уровне, чего бывает трудно достичь в «классическом» контрастном методе;
– ТОЧЕЧНО подкрепить выполнение навыка именно в той точке или фазе поведения, которая вам кажется правильной – например, при выполнении команды «Сидеть!» собака садится максимально близко от ваших ног;
– начать безболезненное обучение щенка с максимально РАННЕГО возраста. Я начал занятия со своим псом Горкой, когда ему было 40 дней – т. е. с его первого дня у нас дома. Теоретически, можно начинать и раньше – с того момента, как щенки приучаются есть самостоятельно;
– подкреплять выполнение элемента кусочком пищи несколько ПОЗЖЕ условного сигнала-подкрепления – от этого его эффективность не снижается;
– дрессировать и взрослых собак, ИСПОРЧЕННЫХ предыдущей дрессировкой, – например, чересчур «задавленных».
Во время дрессировки с применением УП собака постоянно сохраняет
высокую концентрацию.
Единственный вариант, когда не стоит сразу пробовать использовать УП, – это частный случай, когда предстоит работать со злобной собакой (типа агрессивного экземпляра среднеазиатской, южнорусской, кавказской овчарок или ротвейлера), которая может цапнуть вас в ответ на протянутое лакомство. Однако если у собаки означенной породы пищевая мотивация не трансформируется в агрессию, то и с ней можно работать, применяя УП, и даже очень эффективно.
Из личной практики
Обязательно ли в качестве УП использовать щелчок кликера? Вовсе нет. Как сказано выше, условный сигнал может быть подан любым доступным вам способом и любым предметом или, в чем нас убедил В. С. Варлаков, использовавший УП еще ДО изобретения кликера, любой частью тела – например, цокая языком. Главное, чтобы сигнал был однотипным и за его подачей обязательно – но не обязательно в ту же секунду – следовало бы лакомство.
УП позволяет подкреплять собаку в нужный момент и в любой фазе движения. Например, собаку можно научить сохранять равновесие на «гребне» барьера.
Итак, если я вас убедил, то для начала – несколько советов из моей личной практики.
Формирование условной связи «сигнал–еда» лучше начинать с голодной, высоко мотивированной на зарабатывание пищи собакой.
Кусочки еды должны быть небольшими, чтобы не тратить время на их пережевывание животным.
На первых порах, подав условный сигнал, сразу же давайте собаке кусочек еды. Добившись характерной реакции собаки на сигнал (внимательный взгляд, движение ушами и т. д.), давайте пищу не сразу, а с некоторой паузой. Старайтесь, чтобы пауза была разной по времени, но на первых порах не более 4–5 секунд.
Не бойтесь «подсказывать» собаке руками, в том числе с помощью легких воздействий. Собаке можно помочь и поводком с ошейником.
Четко определите момент, в который будет следовать подкрепление, идите от простого к сложному, не требуйте от собаки сразу слишком многого.
Не забывайте хвалить животное, ведь акустический контакт с собакой – важный компонент для формирования связи между вами, а похвала – необходимая составляющая поддержания положительного эмоционального фона на занятии.
Для собаки дрессировка с УП – веселая игра, а не работа.