Совместимость. Как контролировать искусственный интеллект - Стюарт Рассел
Шрифт:
Интервал:
Закладка:
У этой проблемы опять-таки есть решение: не допускайте этого! Никогда не отбрасывайте заранее возможные атрибуты мира, которые могут быть частью структуры предпочтений Гарриет. На словах все прекрасно, но на деле заставить эту схему работать труднее, чем в случае, когда предпочтения Гарриет описываются одним числом. Изначальная неопределенность Робби должна допускать неограниченное количество неизвестных атрибутов, возможно, входящих в предпочтения Гарриет. Тогда, если решения Гарриет необъяснимы с точки зрения атрибутов, которые Робби уже знает, он может сделать вывод, что тут, вероятно, участвует один или несколько прежде неизвестных атрибутов (к примеру, цвет неба), и попытаться выяснить, что это за атрибуты. Таким образом, Робби избегает проблем, вызываемых слишком ограничивающим изначальным представлением. Насколько я знаю, пока не существует рабочих образцов Робби такого типа, но общая идея присутствует в современной мысли о машинном обучении[268].
Запреты и принцип лазейки
Неопределенность относительно человеческих целей может быть не единственным способом убедить робота не запрещать свое выключение, когда он подает кофе. Выдающийся логик Моше Варди предложил более простое решение на основе запрета[269]: вместо того чтобы ставить перед роботом цель «подавать кофе», задайте ему цель «подавать кофе, не препятствуя своему выключению». К сожалению, робот с такой целью будет удовлетворять букве закона, противореча его духу — например, окружив выключатель рвом с водой, кишащим пираньями, или просто ударяя током любого, кто пройдет возле выключателя. Написать такой запрет в форме, защищенной от дурака, — все равно что пытаться написать закон о налогообложении, в котором нет ни одной лазейки, — задача, над которой мы безуспешно бьемся не одну тысячу лет. Достаточно интеллектуальное существо с сильным стимулом избежать уплаты налогов, скорее всего, найдет такую возможность. Назовем это принципом лазейки: если достаточно интеллектуальная машина имеет стимул создать определенное условие, то в общем случае для простых людей станет невозможно создать запреты на эти действия, чтобы воспрепятствовать ей в этом или аналогичном действии.
Лучшее решение для предотвращения уклонения от уплаты налогов — гарантировать, чтобы рассматриваемое существо хотело платить налоги. В случае ИИ-системы, потенциально ведущей себя неправильно, лучшим решением будет гарантировать ее желание подчиняться людям.
На данный момент вывод представляется следующим: нам следует избегать «закладывать в машину цель», если воспользоваться словами Норберта Винера. Представим, однако, что робот все-таки получает от человека прямой приказ, например: «Подай мне чашку кофе!» Как робот должен понимать этот приказ?
В традиционном представлении такой приказ должен стать для робота целью. Любая последовательность действий, достигающая этой цели, — ведущая к тому, что человек получает чашку кофе, — считается решением. В типичной ситуации у робота также будет возможность ранжировать решения, вероятно, на основе затрачиваемого времени, преодоленного расстояния, стоимости и качества кофе.
Это очень буквальный способ понимания инструкции. Он может привести к патологическому поведению робота. Представим, например, что человек Гарриет остановилась на автозаправочной станции посреди пустыни; она посылает робота Робби за кофе, но на заправке кофе не продают, так что Робби катится со скоростью 4,5 км/ч в ближайший городок — за 300 км — и возвращается через десять дней с высохшими следами кофе на донышке чашки. Тем временем владелец автозаправки безотказно снабжает томящуюся в ожидании Гарриет чаем со льдом и колой.
Если бы Робби был человеком (или хорошо сконструированным роботом), он бы не интерпретировал команду Гарриет настолько буквально. Команда — это не цель, которая должна быть достигнута любой ценой. Это способ передачи некоторой информации о предпочтениях Гарриет с намерением добиться от Робби определенного поведения. Вопрос заключается в том, что это за информация.
Один из вариантов: это информация о том, что Гарриет предпочитает кофе отсутствию кофе при прочих равных условиях[270]. Это значит, что, если у Робби есть возможность достать кофе, ничего больше в мире не меняя, то сделать это будет правильно, даже если он не имеет ни малейшего представления о предпочтениях Гарриет в отношении других аспектов состояния среды. Поскольку мы ожидаем от машины состояния вечной неопределенности в плане человеческих предпочтений, приятно сознавать, что она тем не менее может быть полезной. Представляется, что изучение процессов планирования и принятия решений в условиях частичной и неопределенной информации о предпочтениях станет ядром исследования ИИ и разработки продукта.
В то же время при прочих равных условиях означает, что не разрешаются никакие другие изменения — например, идея прибавить кофе, в то же время убавив деньги, может быть как хорошей, так и плохой, если Робби ничего не знает об относительных предпочтениях Гарриет в плане кофе и денег.
К счастью, инструкция, данная Гарриет, скорее всего, означает нечто большее, чем просто сообщение, что она предпочитает иметь кофе при прочих равных. Дополнительный смысл проистекает не только из сказанных ею слов, но и из самого факта, что они были сказаны, из конкретной ситуации, в которой эти слова были произнесены, и того обстоятельства, что больше она ничего не сказала. Особое направление лингвистики, прагматика, изучает именно это — расширенное понятие смысла. Например, было бы бессмысленно со стороны Гарриет говорить: «Подай мне чашку кофе!» — если бы она знала, что поблизости невозможно раздобыть кофе или оно стоит непомерно дорого. Следовательно, когда Гарриет говорит: «Подай мне чашку кофе!» — Робби делает вывод не только о том, что Гарриет хочет кофе, но и что она считает, что кофе можно купить рядом по цене, которую она готова за него заплатить. Таким образом, если Робби находит кофе по цене, которая кажется нормальной (то есть было бы разумно ожидать, что Гарриет рассчитывает именно на такую цену), то может продолжить действие и купить его. Напротив, если Робби выясняет, что ближайший кофе находится в 300 км или стоит $22, с его стороны будет разумно сообщить этот факт, а не слепо кидаться исполнять свою миссию.