Совесть. Происхождение нравственной интуиции - Патриция Черчленд
Шрифт:
Интервал:
Закладка:
Суть нейронной активности ВОП можно описать и по-другому: она дает оценку предстоящему событию — например, насколько хорошо то, что должно случиться вскоре после вспышки света, стоит ли стремиться к этому, рисковать, гнаться за этим. Таким образом связываются обучение и принятие решений. Чем шире и глубже сенсорное восприятие окружающего мира, доступное базальным ядрам, тем сложнее оценка того, что можно ожидать и как оптимизировать благоприятные возможности. В социальном контексте мозг усваивает социальные ценности. Мы встречаем неодобрение, когда жульничаем, и одобрение, когда терпеливо ждем своей очереди. Одобрение приносит мозгу крупную награду (прилив дофамина). Неодобрение вызывает прилив серотонина. В первом приближении это и есть механизм формирования нашей совести.
Похоже, ошибка в предсказании награды была одной из тех отправных точек, о которых говорил Крик. Программирование сигнала об ошибке в прогнозе вознаграждения представляется принципиально важной составляющей любого обучения с подкреплением, не только классического условного рефлекса. Дальнейшие шаги в исследовании механизмов обучения у млекопитающих можно будет сделать, если выяснится, что базовый механизм объединен с усовершенствованиями и расширениями в неокортексе, которые прольют свет на более сложные виды обучения с подкреплением, чем банальное павловское обусловливание, — то есть если нейроны в ВОП и базальных ядрах аккуратно встроены в сети, развившиеся в ходе эволюции в коре и гиппокампе. И — о чудо! — так оно и есть. У всех млекопитающих базальные ядра соединены с корой множеством разветвленных связей.
Хотя если начать разбираться в подробностях на клеточном уровне, все не так просто, перед нами все же открывается путь к исследованию более сложных форм обучения с подкреплением. Помимо классического обусловливания существует инструментальное / оперантное обусловливание, или обучение в результате действий, а не просто в процессе ожидания, наблюдения и сопоставления стимулов.
Собака приучается тянуть за веревку звонка, чтобы ее выпустили из дома; крысы усваивают, как нажать на рычаг, чтобы получить гранулы корма; маленькие дети учатся открывать калитку, поднимая щеколду и толкая дверцу, и доставать игрушку с полки, указывая на нее и издавая громкие звуки. Сначала мы исследуем ситуацию, а затем либо повторяем последовательность действий, если попытка увенчалась успехом, либо корректируем, если не удалась. Мы учимся на ошибках, выносим уроки из поражений, побед и даже результатов, не требующих корректировки. Как подсказывает опыт: изучи и пользуйся. Все это примеры обучения с подкреплением, в котором участвуют наши старые знакомые — дофамин, серотонин, прилежащее ядро, ВОП и префронтальная кора.
В завершение этой части главы одно «техническое» примечание: вычислительная модель, на которую ссылались Монтегю и Дайан, объясняя базовый механизм научения с подкреплением в мозге, по сути, представляет собой формат, используемый в машинном обучении, или таинственном ИИ (искусственном интеллекте), любимом детище мира техники.
В машинном обучении компьютерные сети способны осваивать задания, требующие распознавания сложных образов — например, распознавание лиц. Однако, в отличие от классических информационно-вычислительных процессов, сеть не программируется в привычном смысле слова. Для распознавания не пишут специальной программы. Это искусственная нейронная сеть, в которой смоделированы нервные клетки и синапсы, с помощью которых они контактируют. Нейронная сеть учится за счет знакомства с массивом образцов. Как? Посредством механизма ошибки предсказания награды. Точно так же как ВОП и прилежащее ядро. Ознакомившись с примером, машина предлагает ответ и получает на него отклик, обратную связь: «Ага, оно!» или: «У-у-у, не то!». В зависимости от полученного отклика в виртуальных нейронах и виртуальных синапсах автоматически происходят крошечные изменения — примерно как в прилежащем ядре и коре в зависимости от колебаний дофамина. Искусственная нейронная сеть учится путем проб и ошибок[115].
На ошибке предсказания награды построен протокол AlphaGo — программы машинного обучения в виде искусственной нейросети (ИНС), научившейся игре в го и обыгравшей корейского чемпиона Ли Седоля. По тому же принципу обучается ИНС, которая громит игроков мирового уровня в техасский холдем (разновидность покера)[116]. Тот же самый протокол используется при обучении ИНС распознавать подозрительные клетки в маммограмме. Инженерная стратегия имитации механизмов ошибки предсказания награды в мозге намного превосходит в гибкости и мощи традиционное программирование.
Научение в результате действий может принимать самые замысловатые формы, особенно когда оно основывается на сложных фоновых моделях устройства окружающего мира. Выращивая, допустим, малину, вы опираетесь на какие-то фоновые знания из области садоводства, откуда бы они ни были почерпнуты. Вы учитесь определять меру полива: не слишком много и не слишком мало, и когда удобрения способны повысить урожайность. Обрезка ветвей — настоящее искусство, в котором почти нет правил, там все получается на чистой интуиции, «перебор или недобор». Так что остается только экспериментировать, пока не набьешь руку. Двухлетняя малина плодоносит на побегах прошлого года, поэтому при осенней обрезке важно понять, насколько укоротить побеги, чтобы на следующее лето они дали оптимальный урожай. Насколько правильной окажется ваша стратегия обрезки, вы узнаете лишь через год. Условия при этом осложняются тем, что на урожайность могут влиять и другие факторы — вредители, например, или нехватка удобрения. Простого оперантного обусловливания для этой задачи обучения явно недостаточно. Возможности ошибки предсказания награды реализуются шире, когда есть фоновые знания и хорошая память.
Для отказа от неоптимальных решений — таких, например, как предпочтение немедленного вознаграждения в ущерб более ценному, но отсроченному, — необходим самоконтроль, за который отвечают определенные области фронтальной коры. Грубо говоря, чем больше нейронов в лобных областях, тем выше способность контролировать свои порывы. Тем не менее даже грызуны с их весьма скромными размерами префронтальной коры демонстрируют впечатляющее самообладание.
Вот откуда мы это знаем. Крысы легко усваивают, что нажатие рычага А дает одну гранулу корма, зато нажатие рычага Б — целых пять. При каждой попытке крысе позволяется нажать рычаг только один раз, поэтому ей приходится выбирать — А или Б. Очевидно, что лучше Б. А теперь представим, что экспериментатор введет отсрочку подачи корма при нажатии на рычаг Б. Однако часть крыс все равно выбирает Б, даже если им приходится дожидаться корма по 30 секунд. Ожидание дает им возможность оптимизировать награду[117]. Но у крыс, как и у людей, способность к самоконтролю неодинакова[118]. Некоторые крысы, как и люди, плохо контролируют свою тягу к немедленному удовлетворению желания и обычно предпочитают менее ценную, но более скорую награду.