Карен Прайор Не рычите на собаку. О дрессировке животных и людей
Скачать 0.91 Mb.
|
Режимы подкрепления Бытует неправильный взгляд, что если вы начали вырабатывать поведение с помощью положительного подкрепления, то должны продолжать его применение на протяжении всей дельнейшей жизни субъекта, если этого не будет, то поведение исчезнет. Это неверно: постоянное под крепление необходимо только на стадиях обучения. Вы можете несколько раз вознаградить годовалого ребенка за пользование горшком, но как только поведение заучено, предмет обучения сам о себе позаботится. Мы даем или должны давать начинающему множество подкреплений – обучение ребенка езде на велосипеде идет под настоящий поток: «Правильно, крепче держи руль, у тебя получилось, хорошо!» Но вы будете выглядеть довольно глупо (а ребенок решит, что вы сошли с ума), если вы будете продолжать хвалить его после того как навык установился. Для того чтобы поддерживать уже выученное поведение на определенном уровне надежности, не только не надо подкреплять его все время, а даже, наоборот, следует прекратить регулярные подкрепления и перейти на эпизодическое использование подкрепления, подаваемого в случайном и не предсказуемом порядке. Это и есть то, что психологи называют вариабельным режимом подкрепления. Вариабельный режим гораздо более эффективен для поддержания поведения, чем постоянный, предсказуемый. Один психолог объяснил это мне так: если у вас машина новая и всегда хорошо заводилась, а однажды, когда вы сели в нее, повернули ключ, она не завелась, то вы, может быть, и попробуете завести ее еще несколько раз, но скоро решите, что что-нибудь не в порядке, и позвоните в гараж. Поведение, состоящее в поворачивании ключа, при отсутствии ожидаемого немедленного подкрепления быстро угаснет. С другой стороны, если у вас вместо машины старая консервная банка, которая еще ни разу не заводилась с первой попытки, и каждый раз требуется целая вечность для того, чтобы привести ее в движение, вы можете продолжать попытки ее завести в течение получаса; ваше поведение по поворачиванию ключа происходит в низковероятностном режиме подкрепления и поэтому сильнейшим образом поддерживается. Если давать дельфину рыбку за каждый прыжок, то скоро прыжки станут невысокими, небрежными, лишь бы отделаться. Если теперь перестать давать рыбу, дельфин тут же перестает прыгать. Но, если после того как животное научилось прыгать за рыбку, начать подкреплять первый 17 прыжок, затем третий и так далее наугад, поведение будет поддерживаться на более высоком уровне: не получив подкрепления, животное станет прыгать чаще, стараясь угадать счастливый номер, и прыжки могут даже усилиться. В свою очередь это позволит подкреплять выборочно наиболее сильные прыжки, – то есть посредством вариативного режима совершенствовать деятельность. Но даже некоторые профессиональные дрессировщики не могут правильно использовать вариативный режим положительного подкрепления; многим эта концепция представляется особенно трудной, не укладывающейся в голове. Нам понято, что нет нужды продолжать наказывать за неправильное поведение, если оно прекратилось, но почему бы не вознаграждать постоянно за правильное поведение. Мы не так уверены в этом только когда ставим целью добиться с помощью положительного подкрепления улучшения дисциплины. Действенность вариатавного подкрепления лежит в основе всех азартных игр. Если каждый раз, опустив в автомат 5 центов, будете получать десять, то скоро вы потеряете к этому интерес. Да, вы будете делать деньги, но какой это нудный способ! Людям нравится играть с автоматом именно потому, что невозможно предугадать заранее, то ли ничего не получишь, то ли какую-то мелочь, то ли сразу кучу денег, и когда именно будет это подкрепление (это может быть только один самый первый раз). Почему одни люди втягиваются в азартную игру, а другие могут поиграть и бросить, это уже другой вопрос, но для тех, кто попался на крючок, этим крючком стал вариативный режим положительного подкрепления. Чем длительнее интервалы между подкреплениями в вариативном режиме, тем сильнее он стимулирует поведение. Однако режимы с длительными интервалами работают против вас, когда вы пытаетесь угасить поведение. Если поведение не подкреплять совсем, то скоро появится тенденция к его угасанию; но если оно все-таки время от времени подкрепляется – неважно сколь эпизодично – одна сигарета, одна рюмка, одна поблажка ворчуну или нытику – и поведение вместо того, чтобы угасаться, может быть значительно усилено режимом с длительными интервалами между подкреплениями. Всем встречались люди, которые непонятным образом привязаны к супругам или любовникам, которые с ними плохо обращаются. Мы привыкли думать, что так бывает только с женщинами – она чувствует влечение к тому, кто груб, невнимателен, эгоистичен и даже жесток, она его все равно любит, – но это случается и с мужчинами. Каждый знает людей, которые после развода или другого рода утраты одного негодля находят другого, в точности похожего на предыдущего. Являются ли эти люди вечными жертвами по каким-либо глубоким психологическим причинам? Возможно. Но, может быть, они – жертвы режима с длительными интервалами между подкреплениями? Если вы вступили в связь с очаровательным, обаятельным, интересным в сексуальном плане, веселым и внимательным человеком, а затем он становится все более несговорчивым, даже обидчивым, но все же время от времени проявляет свои хорошие качества, вы станете жить ради этих все 18 более редких моментов, когда вы получаете это прекрасное подкрепление: полное очарования, обаяния, привлекательности и веселья внимание. И парадоксально с точки зрения здравого смысла, но закономерно с точки зрения теории обучения, что чем реже и непредсказуемей становятся такие моменты, тем сильнее становится их подкрепляющий эффект, и тем дольше ваша линия поведения будет сохраняться. Кроме того, легко понять, почему человек, однажды оказавшийся в таких отношениях, часто ищет их повторения: ему может казаться, что во взаимоотношениях с нормальным человеком, который сдержан и доброжелателен большую часть времени, не хватает остроты того редкого, страстно желаемого и потому вдвойне действенного подкрепления. Посмотрите на ситуацию с точки зрения человека, управляющего поведением: я могу держать ее (его) в безоговорочном подчинении, так, "Чтобы она (он) делала все, что я захочу, ради моего удобства и спокойствия, до тех пор пока я даю ей (ему) все, что она (он) хочет… изредка. Это один из способов, которыми сутенеры держат в повиновении своих девочек. Конечно, это крепкие путы, но однажды жертва осознает, что сила «очарования» по крайней мере отчасти зависит от режима подкрепления, и спокойно уйдет от этого типа отношений и поищет что-то другое. Исключения из правила вариативного подкрепления Лишь в одном случае не следует прибегать к вариативному режиму подкрепления, после того как поведение заучено, – это когда оно направлено на решение своего рода головоломки или теста. При одном из видов дрессировки собака должна выбирать из нескольких разнородных предметов тот, который побывал в руках у хозяина и хранит его запах. При этом необходимо каждый раз говорить собаке, что она выбрала правильно, чтобы в следующий раз она знала, что надо делать. В тестах на различение, – скажем, идентификация более высокого из двух звуков – необходимо подкреплять каждый правильный ответ испытуемого, чтобы он был постоянно информирован о том, какую задачу он решает (подойдет, конечно, и условное подкрепление). Когда мы отгадываем Кроссворд или составляем картинку-загадку, мы получаем подкрепления за правильные догадки, так как только они являются «подходящими». Если бы при составлении картинки-загадки можно было вставить в одну ячейку несколько кусочков, то положительного подкрепления за правильный выбор, который является обязательной обратной связью в любой ситуации выбора, не получалось бы. Долговременные программы поведения В дополнение к вариативному режиму подкреплений можно ввести и закрепленный, при котором субъект знает, что он должен работать определенное время или выполнить определенный комплекс поведенческих 19 реакций за каждое подкрепление. Например, подкрепляя каждый шестой прыжок, можно сделать так, что дельфин будет прыгать шесть раз подряд, и вскоре получим стабильные серии из шести прыжков. Трудность работы с фиксированным режимом подкрепления состоит в том, что первые ответы в сериях не подкрепляются и возникает тенденция к уменьшению затрачиваемых на них усилий. У прыгающего дельфина со временем все прыжки, кроме последнего, который действительно подкрепляется, уменьшаются. Это отрицательное влияние фиксированного режима подкреплений является важным фактором во многих видах человеческой деятельности – например на заводском конвейере. Чтобы получить подкрепление, необходимо работать в течение определенного времени, но так как подкрепление дается в фиксированном режиме, независимо от качества выполнения, человек совершенно естественно стремится делать то наименьшее количество работы, которое позволяет не выпасть из игры, особенно низкая производительность может быть в начальный период работы. Зарплата по пятницам является фиксированным подкреплением, делающим понедельник тяжелым днем. У дельфинов поддержать поведение поможет случайное подкрепление первого или второго прыжка, помимо шестого. У людей могут быть эффективны различные виды прогрессивных оплат или других подкреплений (например, награды), тесно связанные с качеством и количеством продукции и выдаваемые неодновременно с обычным подкреплением. Применяя либо фиксированный, либо вариативный режимы подкрепления можно оттренировать чрезвычайно длинные цепи поведенческих реакций. Можно добиться того, что цыпленок будет клевать кнопку сто и более раз за каждое зернышко пшеницы. Для людей также можно привести много примеров отставленного вознаграждения. Один психолог шутит, что самым длительным режимом неподкрепляемого поведения в человеческой жизни является учеба в школе. При режимах подкрепления с чрезвычайно длительными интервалами иногда создаются ситуации, которые не приносят организму полезного результата. Для цыпленка это определяется обменными процессами: когда на клевание кнопки он начинает тратить больше энергии, чем может восстановить при получении пшеничного зерна, поведение начинает угасать – цена работы падает так низко, что ее просто становится незачем делать. Конечно, так часто бывает и с людьми. Другое явление, встречающееся при очень длительных интервалах между подкреплениями, – замедленный старт. Начав клевать, цыпленок совершает эти действия с постоянной частотой, так как каждый удар приближает его к подкреплению, но было отмечено, что по мере того, как увеличиваются интервалы между подкреплениями, он стремится «отложить» начало реакции на более длительный срок. Это и называется «отсроченное начало поведения с долговременной программой» и очень распространено в жизни людей. В любой долгосрочной задаче, начиная с уплаты подоходного налога и кончая уборкой гаража, можно придумать бесконечное количество причин для того, чтобы не начать дело 20 безотлагательно. Написание чего-либо, иногда даже просто письма, тоже поведение с долгосрочной программой. Когда оно уже начато, все идет прекрасно. Но так трудно заставить себя сесть и начать! Джеймс ТУрбер находил, что начать статью настолько трудно, что иногда он обманывал свою жену (которая по понятным причинам была чрезвычайно заинтересована в том, чтобы он писал статьи, так как доход с них шел на оплату квартиры), лежа все утро на диване в кабинете и читая книгу, которую он держал в одной руке, а другой стучал по клавишам пишущей машинки. Феномен отстроченного начала перевешивал явное положительное подкрепление в виде денег, а симуляция печатанья на машинке, по крайней мере, предотвращала отрицательное подкрепление упреков жены. Один из способов преодоления феномена отсроченного начала заключается в том, чтобы вводить какое-либо подкрепление именно за старт, так же, как я эпизодически подкрепляю у своих дельфинов первый или второй прыжок в серии из шести. Я успешно применяла этот прием и в самовоспитании. В течение нескольких лет один или два раза в неделю я посещала вечерние занятия, что требовало много времени – три часа занятий и по часу на дорогу в один конец. Каждый раз, когда приближалось 5 часов, появлялось сильнейшее искушение не ездить. Но потом я обнаружила, что, если я разобью поездку – первую часть дела – на пять этапов: путь до станции метро, посадка в поезд, пересадка на другой, автобус до университета и, наконец, восхождение по лестнице до аудитории, и подкреплю каждое из этих начальных поведений после его выполнения маленьким кусочком шоколада, который я очень люблю, но обычно не ем, я стала способна вытащить себя из дома, а через несколько недель была в состоянии проделать весь путь на занятия без шоколада и без внутренней борьбы. Суеверия: случайные подкрепления В реальной жизни подкрепления возникают на каждом шагу и часто представляют собой лишь случайное стечение обстоятельств. Один биолог, изучавший ястребов, заметил, что если ястреб поймал под каким-либо кустом мышь, то в течение недели, а иногда и больше, он будет ежедневно проверять этот куст; вероятность его полета именно над этим местом обусловлена силой подкрепления. Попробуйте пройти мимо мусорной корзины, тщательно к ней не приглядываясь, если накануне – нашли в ней пять долларов. Случайное подкрепление полезно для ястреба; вообще можно сказать, что поведение животных эволюционировало так, что каждый вид обладает возможностью извлекать пользу из любого подкрепления. Однако многие случайные подкрепления не сопровождаются полезным результатом, но тем не менее могут оказать сильное влияние на поведение. Когда поведение не связано с последующими событиями, но в мозгу субъекта связывается с ними в качестве необходимого условия их осуществления, говорят о суеверном поведении. Пример этого – человек, грызущий 21 карандаш. Если во время экзамена вам случится взять в рот карандаш и тут же вам придет в голову правильный ответ или хорошая мысль, то такое подкрепление может изменить ваше поведение: хорошие мысли пришли, когда грыз карандаш, таким образом, это действие подкрепляется. Когда я училась в колледже, у меня не было ни одного карандаша, не покрытого отметинами от зубов, – на особенно трудных экзаменах я иногда перегрызла карандаш пополам. Я была уверена, что это помогало мне думать. В действительности же это было всего лишь случайно обусловленное поведение. То же самое можно сказать отношении определенной одежды или совершении некого ритуала перед тем как взяться за какое-либо дело. Я видела одного бейсболиста, который совершал девятичленную цепочку действий каждый раз, когда готовился подать мяч: дотрагивался до кепки, касался мячом перчатки, сдвигал кепку вперед, тер ухо, сдвигал кепку назад, шаркал ногой и т. д. В трудные моменты он мог повторить все девять действий дважды, никогда не нарушая их порядок: Эта последовательность действий совершалась очень быстро, комментаторы никогда не останавливались на ней – но тем не менее она представляет собой сложное суеверное поведение. «Суеверия» часто возникают при дрессировке животных. Животное может руководствоваться в своих ответах такими критериями, которые вы и не собирались вводить, но которые часто случайно совпадали с подкреплениями и образовали условную связь. Например, животное может считать, что чтобы получить подкрепление, оно должно находиться в определенном месте, повернуться в какую-либо сторону или особым образом сидеть. Когда вы захотите, чтобы оно работало в новом месте или при другой ориентации, внезапно загадочным образом все поведение ломается, и пойди пойми почему это произошло. Поэтому гораздо лучше, как только поведение начинает формироваться, начинать разнообразить варианты условий, которые не представляются вам важными, чтобы не возникло какого-либо случайного обусловливания, которое впоследствии будет вам мешать. Более всего следите, чтобы не образовывались случайные временные связи. Как животное, так и люди очень хорошо чувствуют временные интервалы. Однажды я была совершенно уверена, что обучила двух морских свинок прыгать по команде (по сигналу моей руки), пока один из посетивших нас ученых не доказал мне с секундомером в руке, что они прыгают каждые двадцать девять секунд. Это у меня произошло случайное обусловливание подачи команды с очень большой регулярностью, а они воспользовались этим вместо той информации, которой они должны были пользоваться по моему предположению. Многие потомственные дрессировщики находятся просто в плену суеверного способа мышления и поведения. Среди них я встречала некоторых, которые говорили, что дельфины предпочитают людей, одетых в белое, что мулов необходимо бить, что медведи не любят женщин и т. д. Это относится и к тем, кто работает с людьми и считает, например, что на пятиклассников необходимо кричать и что наказание необходимо, чтобы 22 добиться уважения. Такие воспитатели находятся во власти традиции, они вынуждены всегда работать одними и теми же способами, так как не могут разделить действенных методов от того, что является просто суеверием. Эта слабость, или смешение, обнаруживается у представителей многих профессий – в образовании, технике, военном деле, но в большей мере, пожалуй, в медицине. Ужас сколько всего назначается пациенту не потому, что это обладает целебными свойствами, а просто потому, что так всегда делали или все сейчас делают. Каждый, кто хоть раз лежал в больнице, может вспомнить с полдюжины примеров ненужных действий, которые представляют собой не более как суеверное поведение. Интересно, что суеверное поведение не исчезает, если вы просто указываете на его неэффективность; будучи очень сильно заученным, оно соответственно сильно оберегается. Попробуйте поговорить с врачом о его привычке использовать неэффективное или даже вредное лечение, и вы полу чите отпор в соответствующих выражениях; я уверена, что и тот бейсболист с девятиступенчатым суеверным выражением нервного возбуждения будет яростно противиться всякому, кто предложит ему играть в мяч, скажем, без кепки, до которой он четырежды дотрагивается. Единственный способ избавиться от суеверного поведения – это убедиться, что оно не связано с подкреплением. Мой сын Тэд очень любит фехтование. Два-три раза в неделю он ходит на тренировку, а по выходным часто ездит на соревнования. Однажды во время поединка с сильным партнером он почувствовал себя подавленным, потому что оставил дома свою любимую шпагу. Он проиграл матч. Потом он понял, что ощущение подавленности, очевидно, гораздо больше влияет на его действия, чем та шпага, которой он пользуется, а следовательно, иметь «любимую» шпагу– суеверие. Тэд выявлял и боролся с любым суеверным поведением, которое могло бы связаться с фехтованием. Он обнаружил у себя много таких пунктиков, начиная с привязанности к некоторым предметам одежды до внутреннего убеждения, что на его бой может повлиять приснившийся сон, спор или даже отсутствие фруктового сока на соревнованиях. Систематически анализируя каждое из этих обстоятельств, он разорвал одну за другой свою зависимость от них, так как понял, что это суеверия. И в результате теперь он выходит на каждый бой спокойным и уверенным, если даже перед этим ему снился кошмар про опоздание на поезд, потерю снаряжения, баталии с таксистами, если даже он фехтует одолженной шпагой в тренировочном костюме и в разных носках. |