Совместимость. Как контролировать искусственный интеллект - Стюарт Рассел
Шрифт:
Интервал:
Закладка:
Принцип консеквенциализма трудно оспорить — хотя многие пытались! — поскольку нелогично возражать против консеквенциализма на том основании, что это имело бы нежелательные последствия. Нельзя сказать: «Если вы последуете принципу консеквенциализма в таком-то случае, случится что-то ужасное!» Любой подобный провал стал бы всего лишь свидетельством неверного применения теории.
Допустим, Гарриет хочет совершить восхождение на Эверест. Консеквенциалистский Робби решил бы попросту поднять ее и высадить на вершину Эвереста, раз это ее желаемое последствие. По всей вероятности, Гарриет будет решительно против такого плана, ведь это не позволило бы ей преодолевать трудности, следовательно, ощутить восторг от результата, достигнутого решением сложной задачи собственными силами. Очевидно, правильно сконструированный консеквенциалистский Робби понял бы, что последствия включают все переживания Гарриет, а не только конечную цель. Он мог бы захотеть оказаться рядом в случае непреодолимых сложностей, а также гарантировать, чтобы Гарриет получила необходимую экипировку и подготовку, но он также согласился бы с правом Гарриет подвергнуть себя беспрецедентному риску смерти.
Если мы планируем создавать консеквенциалистские машины, возникает следующий вопрос: как оценить последствия, влияющие на многих людей? Возможно, ответ состоит в том, чтобы приписывать предпочтениям каждого одинаковый вес — иными словами, максимизировать сумму полезностей для каждого. Этот ответ обычно приписывается британскому философу XVIII в. Иеремии Бентаму[282] и его ученику Джону Стюарту Миллю[283], разработавшим философский подход к утилитаризму. Основная идея прослеживается вплоть до трудов древнегреческого философа Эпикура и в явном виде предстает в трактате «Мо-цзы», автором которого считается древнекитайский философ, которого звали так же. Мо-цзы работал в конце V в. до н. э. и продвигал идею цзянь ай — «всеобъемлющей заботы» (или «всеобщей любви», в зависимости от перевода) как определяющего признака нравственного действия.
Утилитаризм имеет подпорченную репутацию, отчасти из-за банального непонимания. (Безусловно, не способствует пониманию и то, что слово утилитарный в быту означает «призванный быть скорее полезным или практичным, чем привлекательным».) Утилитаризм часто считается несовместимым с личными правами, поскольку его последователь, как принято считать, без колебаний выпотрошит живого человека, чтобы пересадить его органы и спасти пять жизней. Очевидно, однако, что подобные подходы сделали бы недопустимо шаткой жизнь любого землянина, так что условному утилитаристу такое и в голову не придет. Утилитаризм ошибочно идентифицируют с весьма непривлекательной максимизацией совокупного богатства и считают, что он придает очень мало значения бедности или страданиям. В действительности версия Бентама сосредоточивалась именно на счастье человека, а Милль уверенно приписывал намного большую ценность интеллектуальным удовольствиям над простыми ощущениями («Лучше быть недовольным человеком, чем довольной свиньей»). Идеальный утилитаризм Дж. Э. Мура пошел еще дальше: он выступал за максимизацию психических состояний самоценности, олицетворяемой эстетическим постижением красоты.
Думаю, философам-утилитаристам нет необходимости специально оговаривать идеальное содержание полезности или предпочтений человека. (Еще меньше причин для этого у исследователей ИИ.) Люди могут сделать это сами. Экономист Джон Харсаньи представил подобный взгляд в форме принципа автономии предпочтений[284]:
При принятии решения о том, что хорошо и что плохо для данного индивида, решающим критерием могут быть лишь его собственные желания и его собственные предпочтения.
Таким образом, утилитаризм предпочтений Харсаньи примерно соответствует первому принципу полезного ИИ, который гласит, что единственное назначение машины — реализация предпочтений человека. Исследователи ИИ, безусловно, не должны решать, какими должны быть предпочтения человека! Как Бентам, Харсаньи рассматривает подобные принципы как руководство к принятию общественных решений; он не требует от индивидов такого бескорыстия. Не ждет он от них и идеальной рациональности: например, у них могут быть краткосрочные желания, противоречащие их «более глубоким предпочтениям». Наконец, он предлагает игнорировать предпочтения тех, кто, как вышеупомянутая Гарриет-садистка, деятельно старается уменьшить благополучие других.
Харсаньи также приводит нечто вроде доказательства того, что оптимальные нравственные решения должны максимизировать среднюю полезность во всей человеческой популяции[285]. Он выдвигает довольно слабые постулаты, аналогичные тем, что лежат в основе теории полезности индивидов. (Главный добавочный постулат: если все в популяции индифферентны к любому из двух результатов, то и агент, действующий в интересах популяции, должен быть индифферентным в отношении этих результатов.) Исходя из этих постулатов, он доказывает так называемую теорему общественного агрегирования: агент, действующий в интересах популяции индивидов, должен максимизировать взвешенную линейную комбинацию полезностей индивидов. Далее он утверждает, что «беспристрастный» агент будет использовать равные веса.
Эта теорема требует одного решающего дополнительного (и несформулированного) допущения: все индивиды имеют одни и те же фактические исходные убеждения о мире и о том, как он будет развиваться. Однако каждый родитель знает, что это неверно даже в отношении их детей, не говоря уже о людях из разных социальных слоев и культур. Что же происходит, если индивиды имеют разные убеждения? Нечто весьма странное[286]: вес, приписываемый полезности каждого индивида, должен меняться со временем пропорционально тому, насколько исходные убеждения данного индивида соответствуют раскрывающейся реальности.