Совместимость. Как контролировать искусственный интеллект - Стюарт Рассел
Шрифт:
Интервал:
Закладка:
Вероятно, вы считаете, что это будет всего лишь бессмысленный самообман ИИ-системы, и вы правы, но это логическое следствие из определения обучения с подкреплением. Метод отлично работает, когда сигнал приходит «из внешней вселенной» и генерируется каким-то процессом, который ИИ-система никогда не сможет изменить, но отказывает, если процесс генерирования вознаграждения (а именно человек) и ИИ-система обитают в одной вселенной.
Как нам избежать этого самообмана? Проблема возникает вследствие смешения двух разных вещей: вознаграждающего сигнала и реального вознаграждения. В рамках стандартного подхода к обучению с подкреплением это одно и то же. Мне кажется, это ошибка. Их нужно рассматривать отдельно друг от друга, как это происходит в игре в помощника: вознаграждающие сигналы дают информацию о накоплении реального вознаграждения, которое и нужно максимизировать. Система обучения, так сказать, накапливает баллы «в небесах», тогда как вознаграждающий сигнал в лучшем случае лишь служит счетчиком этих баллов. Иными словами, вознаграждающий сигнал сообщает о накоплении вознаграждения (а не является им). В такой модели, очевидно, захват контроля над механизмом подачи вознаграждающих сигналов означает всего лишь потерю информации. Если алгоритм производит фиктивные вознаграждающие сигналы, то лишается возможности узнавать, действительно ли его действия ведут к накоплению баллов «в небесах». Таким образом, рациональный ученик, в конструкцию которого заложена способность проводить это различие, имеет стимул избегать любой формы зависимости от токовой стимуляции.
Предсказание И. Дж. Гуда, упомянутое нами ранее, о взрывоподобном развитии интеллекта является одной из причин сегодняшнего беспокойства по поводу возможных рисков сверхразумного ИИ. Если люди могут сконструировать машину несколько умнее себя, то, согласно аргументации, эта машина будет несколько лучше людей уметь конструировать машины. Она построит новую машину, еще более разумную, и процесс будет повторяться, пока, по словам Гуда, «интеллект человека не останется далеко позади».
Исследователи безопасности ИИ, особенно из Института изучения машинного интеллекта в Беркли, рассмотрели вопрос о том, возможно ли безопасное взрывное развитие интеллекта[276]. На первый взгляд вопрос кажется утопичным (разве это не будет просто «конец игры»?), но, возможно, надежда все-таки есть. Допустим, первая машина серии, Робби Марк I, начинает действовать, имея идеальное знание предпочтений Гарриет. Зная о том, что ограничения его когнитивных возможностей делают несовершенными его попытки осчастливить Гарриет, он строит Робби Марка II. Интуиция говорит, что Робби Марк I имеет стимул встроить свое знание предпочтений Гарриет в Робби Марка II, поскольку это ведет к будущему, где предпочтения Гарриет лучше удовлетворяются, — именно в этом и состоит жизненное предназначение Робби Марка I в соответствии с первым принципом. По той же логике, если Робби Марк I пребывает в неопределенности относительно предпочтений Гарриет, эта неопределенность будет передана Робби Марку II. Так что, вероятно, взрывоподобный рост все-таки безопасен.
Ложкой дегтя в этой бочке меда с математической точки зрения является то, что Робби Марку I будет трудно понять, как станет вести себя Робби Марк II, поскольку Робби Марк II по определению является более продвинутой версией. На некоторые вопросы о его поведении Робби Марк I не сможет ответить[277]. Что еще серьезнее, у нас пока нет четкого математического определения, что означает для машины в реальности иметь определенное назначение, скажем, удовлетворение предпочтений Гарриет.
Давайте немного углубимся в последнее соображение. Возьмем AlphaGo. Какое у нее предназначение? Казалось бы, это легкий вопрос: AlphaGo предназначена выигрывать в го. Или нет? Безусловно, нельзя утверждать, что AlphaGo всегда делает ходы, гарантирующие победу. (В действительности она почти всегда проигрывает AlphaZero.) Верно то, что, когда до окончания игры остается лишь несколько ходов, AlphaGo сделает выигрышный ход, если таковой существует. В то же время, если никакой ход не гарантирует победы — иначе говоря, когда AlphaGo видит, что стратегия противника является выигрышной, что бы она сама ни делала, — то она ходит более-менее случайно. Она не попробует сделать невероятно хитрый ход в надежде, что противник ошибется, поскольку предполагает, что противник играет идеально. Программа действует так, словно теряет волю к победе. В таких случаях в каком смысле является истиной, что AlphaGo на самом деле хочет выиграть? Действительно, ее поведение может быть таким, как у машины, которая хочет лишь устроить для своего противника захватывающую игру.
Итак, утверждение, что AlphaGo «имеет предназначение выигрывать», является чрезмерным упрощением. Вот лучшее описание: AlphaGo является результатом несовершенного процесса обучения — обучения с подкреплением посредством игры с собой, — в котором выигрыш является вознаграждением. Тренировочный процесс несовершенен в том смысле, что не может создать идеального игрока в го: AlphaGo изучает функцию оценки позиций го, являющуюся хорошей, но не совершенной, и сочетает ее с предварительным поиском, хорошим, но не совершенным.
Из всего этого следует, что обсуждение, начинающееся словами «допустим, что робот R имеет предназначение Р», приведет к кое-каким догадкам о возможном развитии событий, но не может привести к теоремам о реальных машинах. Нужны намного более детальные и точные определения целей у машин, чтобы можно было гарантированно знать их поведение в долгосрочной перспективе. Исследователи ИИ только начинают понимать, как анализировать даже самые простые типы реальных систем принятия решений[278], не говоря уже о машинах, интеллектуальных настолько, что могут конструировать собственных потомков. Нам еще многое предстоит сделать.
Если бы мир состоял из одной идеально рациональной Гарриет и одного услужливого и почтительного Робби, все было бы прекрасно. Робби постепенно и максимально незаметно изучил бы предпочтения Гарриет и стал бы для нее безупречным помощником. Многообещающее начало — нельзя ли экстраполировать его, например выбрав Гарриет и Робби в качестве модели отношений между человеческой расой и ее машинами, рассматривая то и другое как единые сущности?