Как мы учимся. Почему мозг учится лучше, чем любая машина… пока - Станислас Деан
Шрифт:
Интервал:
Закладка:
Слуховая кора, по-видимому, выполняет простые вычисления: она использует недавнее прошлое для предсказания будущего. Как только нота или группа нот повторяется, эта область приходит к выводу, что так будет продолжаться и впредь. Это важно, ибо помогает нам не обращать слишком много внимания на скучные, предсказуемые сигналы. Любой повторяющийся звук заглушается на входной стороне: точный прогноз подавляет соответствующую активность. Пока входной сенсорный сигнал совпадает с прогнозом, генерируемым мозгом, разница равна нулю, и сигнал ошибки не передается в области более высокого уровня. Таким образом, предсказание отключает входные сигналы – но только до тех пор, пока они предсказуемы. Любой звук, который не согласуется с ожиданиями мозга, наоборот, усиливается. В этом плане слуховая кора действует как фильтр: она передает в высшие уровни коры только удивительную и непредсказуемую информацию, которую не может объяснить сама.
Следовательно, любая входящая информация, которую не может объяснить та или иная область мозга, передается на следующий, более высокий уровень. Мы можем представить себе кору как массивную иерархию прогностических систем, каждая из которых пытается объяснить входящие сигналы и обменивается сообщениями об ошибках с другими отделами в надежде, что они добьются лучших результатов.
Например, последовательность Си Си Соль генерирует низкоуровневый сигнал ошибки в слуховой коре, поскольку конечная Соль отличается от двух предыдущих нот. Области более высокого уровня, однако, могут распознать в этой последовательности известную мелодию (начало английской колыбельной Twinkle, Twinkle, Little Star[33]). В результате удивление, вызванное последней Соль, носит временный характер: его быстро объясняет репрезентация всей мелодии на более высоком уровне, и сигнал ошибки не передается дальше; новая нота Соль не вызывает удивления в нижней префронтальной коре, которая может кодировать целые музыкальные фразы.
Повторение Си Си Си будет иметь противоположный эффект: в силу своей монотонности оно не генерирует никакого сигнала ошибки в низших слуховых областях, зато вызывает удивление в областях более высокого уровня, кодирующих мелодию и предсказавших Соль, а не Cи. И это неудивительно! Даже у макак обработка слуховой информации включает два уровня: локальную обработку отдельных нот в слуховой коре и глобальное представление мелодии в префронтальной коре290.
Сигналы ошибки, подобные этим, по-видимому, присутствуют во всех областях мозга. Нейроны коры адаптируются к повторяющимся и предсказуемым событиям и реагируют усиленным разрядом всякий раз, когда происходит нечто неожиданное. Единственное, что меняется от одного участка к другому, – тип противоречия, которое может быть обнаружено. В зрительной коре всплеск активности вызывают неожиданные образы291. Речевые центры реагируют на необычные слова в предложении. Возьмем, к примеру, следующее предложение:
Я предпочитаю есть вилкой и верблюдом.
Ваш мозг только что испустил волну N400 – сигнал ошибки, вызванный словом или изображением, несовместимым с предыдущим контекстом292. Как следует из самого названия, это отрицательный отклик, который регистрируется примерно через четыреста миллисекунд после аномалии и зарождается в популяциях нейронов левой височной доли, чувствительных к значению слова. Зона Брока в нижней префронтальной коре реагирует на синтаксические ошибки – например, когда мозг предсказывает определенную категорию слов, а получает другую293, как в следующем предложении:
Принимайте плохо лекарство, как только почувствуете себя.
Сразу после неожиданного слова «плохо» области вашего мозга, специализирующиеся на синтаксисе, испустили отрицательную волну, за которой немедленно последовала волна P600 – положительный пик, возникающий примерно через шестьсот миллисекунд. Этот ответ говорит о том, что ваш мозг обнаружил грамматическую ошибку и пытается ее исправить.
На сегодняшний день лучше всего изучены прогностические сигналы и сигналы ошибки в так называемой системе вознаграждения294. Дофаминовая сеть не только реагирует на фактические вознаграждения, но и постоянно их предвосхищает. Дофаминергические нейроны, расположенные в небольшом скоплении клеток под названием «вентральная область покрышки», не просто чувствительны к удовольствию от секса, пищи или питья; они сигнализируют о расхождении между ожидаемым вознаграждением и полученным, т.е. об ошибке прогноза. Так, если животное получает награду без всякого предупреждения – скажем, неожиданную каплю подслащенной воды, – то этот приятный сюрприз приводит к нейронному возбуждению. Но если этой награде предшествует предсказывающий ее сигнал, тот же сладкий сироп не вызывает реакции. Теперь уже сам сигнал порождает всплеск активности в дофаминовых нейронах: научение сдвигает ответ ближе к сигналу, предсказывающему вознаграждение.
Благодаря данному прогностическому механизму произвольные сигналы могут стать носителями вознаграждения и возбуждать дофаминовые нейроны. Этот вторичный эффект вознаграждения был продемонстрирован на примере денег у здоровых людей и одного вида шприца у наркоманов. В обоих случаях мозг предвосхищает будущие награды. Как мы видели в главе 1, такой прогностический сигнал чрезвычайно полезен для научения, ибо позволяет системе критиковать себя и предвидеть успех или неудачу, не дожидаясь внешнего подтверждения. Именно поэтому архитектуры «актор—критик», в которых одна искусственная нейронная сеть учится критиковать действия другой, сегодня повсеместно используются в искусственном интеллекте для решения самых сложных задач, таких как игра в го. Генерирование прогноза, обнаружение ошибки и самокоррекция – основы эффективного научения.
Меня всегда поражал тот факт, что преподаватели естественных наук – порой даже больше, чем другие учителя, – не могут понять, что их ученики могут не понимать. Лишь единицы всерьез задумываются на тему ошибок, невежества и ротозейства.
Как же извлечь максимум пользы из сигналов ошибки, которыми постоянно обмениваются наши нейроны? Чтобы ребенок или взрослый учился эффективно, его окружение (будь то родители, школа, университет или просто видеоигра) должно обеспечивать быструю и точную обратную связь. Научение происходит быстрее и легче, если учащиеся знают, где они оступились и что нужно было сделать на самом деле. Предоставляя быструю и четкую обратную связь по ошибкам, учителя существенно обогащают информацию для самокоррекции, доступную их ученикам. В сфере искусственного интеллекта данный тип обучения – контролируемое обучение или обучение с учителем – считается наиболее эффективным, поскольку позволяет машине быстро идентифицировать источник сбоя и внести соответствующие поправки.
Тем не менее важно понимать, что такая обратная связь по ошибкам не имеет ничего общего с наказанием. Мы не наказываем искусственную нейронную сеть, мы просто сообщаем ей, что она ответила неправильно. Мы даем ей максимально информативный сигнал, который бит за битом уведомляет ее о характере допущенных ошибок.