Совесть. Происхождение нравственной интуиции - Патриция Черчленд
Шрифт:
Интервал:
Закладка:
Или возьмем волков, которые совместными усилиями загоняют дряхлеющего лося. Отработанными слаженными действиями пять-шесть волков отрезают его от остального стада. Часть подкрадывается сзади, уворачиваясь от копыт, и дожидается удобного момента, чтобы обездвижить добычу, разорвав сухожилия на ногах. Часть наскакивает на лося спереди, изматывая и отвлекая от подкравшихся сзади. Как только лось охромеет, нападающие спереди перегрызут ему глотку. В обоих случаях хищники изначально представляют себе общую задачу, а детали зависят от того, как поведет себя жертва. Чем больше опыт, тем разнообразнее приемы преследования добычи. В дальнейшем прежних ошибок пытаются избегать, а новые возможности не упускать. Так оттачиваются навыки.
Вообще при охоте и добывании пропитания в мозге происходит множество разных процессов и cмена состояний: мотивация, планирование, знание особенностей местности, выбор подходящего прошлого опыта, к которому можно обратиться, постоянная коррекция ошибок, осознание намерений других участников охоты, обозначение своих намерений и, скорее всего, оперативное решение проблем. Самые младшие только смотрят, не участвуя, а подростки до тех пор, пока не наберутся опыта, чтобы идти на риск, выполняют более безопасные задания. Инстинкты отчасти тоже присутствуют, однако во многом обучение основано именно на таких принципах.
Что же делают нейроны, когда мы учимся на опыте? Учитывая, сколько разных составляющих в этом процессе — и память, и мотивация, и причинно-следственные модели окружающего мира, — кажется, что разгадать загадку механизмов обучения с подкреплением не удастся еще долго.
Когда речь заходила о стратегии исследований, Фрэнсис Крик не уставал раз за разом повторять, что ученый должен подступаться к задаче с той стороны, с которой есть возможность продвинуться. За регулярными вечерними чаепитиями в лаборатории Терри Сейновски в Институте Солка Крик советовал нам не хвататься на начальном этапе за самые сложные и неразрешимые вопросы, как бы они ни манили. Его слова до сих пор звучат у меня в ушах: «Найдите простую отправную точку. Пусть критики твердят, что это лишь часть проблемы или это слишком просто. Не обращайте внимания. Вам все равно удастся сделать важные шаги. Если повезет, за первой дверью откроется множество других, и тогда можно переходить к более сложным вопросам».
Разумные и практичные рекомендации Крика я с благодарностью вспоминала, раздумывая о механизмах научения с подкреплением.
Чтобы обнаружить механизмы, за счет которых происходит обучение с подкреплением, в идеале хорошо было бы найти в мозге признак какой-нибудь простой формы обучения — например, формирование ассоциативной связи между двумя событиями. Как заметил И. П. Павлов (1849–1936), поначалу у его собак слюна выделялась только при появлении пищи. Но если перед появлением еды регулярно звонили в колокольчик, со временем слюна начинала выделяться по звонку. Собачий мозг усвоил, что звонок предвещает кормление. Процесс получил известность как павловский условный рефлекс, или, как иногда его называют, обусловливание стимул — ответ. Согласно стратегии Крика, сначала нужно исследовать механизм образования связи между звонком и получением пищи, а затем, отталкиваясь от результатов, двигаться дальше. Так оно и произошло.
Все началось с Вольфрама Шульца, который регистрировал реакции нейронов в среднем мозге низших обезьян[103]. Когда обезьяна просто сидела смирно, каждый нейрон находился в пассивном состоянии, возбуждаясь до определенного базового уровня. Шульц заметил, что фоновая активность нейрона резко возрастает (происходит скачок, «спайк», илл. 3.2), когда обезьяне достается неожиданная награда (порция сока). Если вознаграждению регулярно предшествовало включение лампы, то через несколько повторений процедуры «загорается лампочка, льется сок» уровень возбуждения нейрона нарастал уже при включении света. Пока все понятно. Павловские условные рефлексы на нейронном уровне. Нейроны ассоциируют включение света с наградой.
Нейроны, которые исследовали Шульц и его коллеги, располагаются в ядре (скоплении клеточных тел нейронов) среднего мозга, именуемом вентральной областью покрышки (ВОП). Это центральная часть эволюционно древней системы вознаграждения (см. илл. 3.1).
Илл. 3.2. Что означает спайк применительно к нейрону? На мембранах каждого нейрона имеется разность потенциалов — в данном примере она составляет около –70 милливольт. Нейрон может получать множество входящих сигналов (вызывающих незначительные изменения напряжения), которые способны конвергировать на аксонном холмике почти одновременно. Часть из них будет возбуждающей, часть — тормозной. Если в совокупности они обеспечат определенный (пороговый) уровень деполяризации мембраны, нейрон внезапно возбудится. Возбуждение нейрона означает быстрое и существенное изменение напряжения мембраны аксонного холмика. В данном примере напряжение мембраны достигает +40 милливольт. Это изменение напряжения в аксонном холмике провоцирует столь же значительное изменение напряжения по всей длине аксона до самой терминали. Если вживить в нейрон электрод и записать изменения напряжения в мембране, мы увидим на графике, как выглядит нервный импульс — резкий всплеск, спайк. Спайк называют также потенциалом действия. Тормозный сигнал приводит к гиперполяризации нейрона, то есть, чтобы достичь порогового значения, нейрону потребуется более сильное возбуждение.
Но вот что удивительно: пока нейрон регулярно реагировал на включение света, он перестал живо откликаться на награду, вернувшись к исходному уровню. Кроме того, если свет включался, а награда не поступала, частота импульсов в момент ожидаемого получения награды падала ниже фоновой (илл. 3.3). О чем говорят эти изменения частоты импульсов?
Каким образом это непримечательное на первый взгляд открытие привело к колоссальному прорыву в исследовании обучения с подкреплением? Чтобы ответить на этот вопрос, нужно разобраться, что означает для мозга неожиданная награда и почему у нейронов в ВОП увеличивается частота импульсов. Самое время предоставить слово двум постдокторантам — Риду Монтегю и Питеру Дайану, с 1991 по 1993 год трудившимся в лаборатории Терри Сейновски в Институте Солка. Оба были поглощены проблемой механизмов обучения с подкреплением в мозге. Одинаково увлеченные вычислительными технологиями, они предлагали друг другу гипотезу за гипотезой, громили их, спорили о механизмах и снова вгрызались в проблему. Раз за разом[104].