Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
"Знаете, - начал я, - не так давно я был студентом. В то время отличить кошку от собаки было еще почти научной фантастикой. Затем глубокое обучение изменило все в одночасье, и наши алгоритмы стали использоваться так, что мы думали, что до этого еще десятилетия. Только подумайте, как много мы сейчас говорим о распознавании лиц. Журналисты, политики, активисты... у всех внезапно появились вопросы - и хорошие вопросы! Ведет ли все это к усилению слежки? К более предвзятым алгоритмам? Может быть, даже к оружию ИИ? И все это подкралось к нам так быстро".
Мы дошли до лаборатории. Я пронесла свой пропуск по считывающему устройству, и мы вошли в двойные двери.
"Я хочу сказать, - заключил я, - что все может измениться гораздо быстрее, чем вы думаете".
Я знал, что не убедил его. Не совсем. Но при всех своих опасениях он был достаточно заинтересован, чтобы продолжать слушать. Это было начало.
Скептицизм - обычное дело для новобранцев. Но внутри лаборатории, куда бы я ни посмотрел, можно было заметить признаки этики, ориентированной на человека. На доске с предыдущего вечера все еще виднелись записи проекта по обучению нейронных сетей на конфиденциальной информации, сохраняя при этом приватность ее владельцев, а на аналогичной доске велась работа по маскировке человеческих лиц в наборах данных изображений без ущерба для эффективности полученной модели.
Мы даже обратили критический взгляд на собственное наследие, приняв исследование, количественно определяющее предвзятость ImageNet в отношении расы, пола и сексуальности, которую мы впитали из тех миллионов фотографий, которые мы первоначально содрали из интернета. Полученные результаты послужили основанием для замены большого количества изображений альтернативными, представляющими более сбалансированную картину человеческой идентичности, а также для удаления ярлыков категорий с оскорбительным подтекстом.
Возможно, самым вдохновляющим, по крайней мере для меня, был тот факт, что наша работа никогда не была так сильно привязана к реальному миру. Если не считать злоключений одного младшего научного сотрудника с тостами, то десятилетний ренессанс машинного восприятия настолько фундаментально изменил робототехнику, что теперь ее трудно отделить от собственно ИИ. Как бы иллюстрируя это, две изящные механические руки, любовно названные Чарли и Адой, терпеливо сидели на металлической скамье в ожидании следующего упражнения. Сегодня они являются такой же неотъемлемой частью работы нашей лаборатории, как и любой алгоритм.
Тем не менее, даже самое современное оборудование - это средство достижения цели, поэтому главным принципом нашей работы остается благополучие людей, а не только эффективность процессов. Именно на этом основано наше сотрудничество с Лабораторией цифровой экономики, еще более новой исследовательской группой, организованной при Стэнфордском институте экономики, которая использует результаты опросов Бюро труда США, чтобы лучше понять, как люди оценивают свою работу - где они приветствуют удобство автоматизации, а где находят ее вторжение угрожающим или даже дегуманизирующим. Впервые я осознал это различие, работая с Арни над проектом "Окружающий интеллект": ИИ всегда должен стремиться расширить возможности человека, а не конкурировать с ним. Теперь это фундаментальная ценность нашей лаборатории.
Что именно означает эта ценность - вопрос для каждого отдельного исследователя, но примеров, радующих глаз, предостаточно. Например, одна из самых масштабных работ нашей лаборатории связана с кропотливым 3D-моделированием повседневных пространств - домов, офисов и больниц, каждый из которых имеет множество разновидностей, планировок и стилей. Это попытка погрузить наши алгоритмы в среду, в которой живут и работают люди и где интеллектуальные машины могут принести наибольшую пользу, особенно для тех, кто страдает от болезней и инвалидности. В другом проекте используются гарнитуры виртуальной реальности и перчатки с отслеживанием движений, которые позволяют исследователям демонстрировать реальные, значимые задачи, от складывания одежды до приготовления пищи, кодируя их движения в цифровом виде, чтобы создать эталоны для оценки работы роботов. В другом проекте исследуется новый подход к машинному обучению, при котором цифровые агенты создаются с учетом врожденного любопытства и помещаются в виртуальную среду, побуждающую их к игре, что является важной частью того, как дети обретают такую интуитивную связь с окружающей средой.
Каждая из этих историй представляет собой очередное изменение в том, как мы думаем о данных и чего мы от них ожидаем. Если раньше мы стремились дать нашим алгоритмам своего рода энциклопедическую осведомленность - обо всех категориях и вещах, - то теперь мы стремимся к чему-то более богатому. Более глубокого понимания пространств, моментов и даже смыслов, в которые эти вещи вложены. Расширение не только количества, но и деталей и нюансов. Новые подходы к данным, которые выходят за рамки простой курации и каталогизации и позволяют моделировать целые среды и действия, которые в них разворачиваются. Именно поэтому по мере роста гуманизма, лежащего в основе нашей работы, она сопровождается взрывом технической сложности. Формирование такого целостного представления о реальной жизни - более достоверного, чем когда-либо прежде, - потребует глубины и точности, на которые, как мне кажется, сейчас не способны даже наши самые совершенные технологии. Поэтому, повторюсь, волнение заключается в вызове. Нам снова придется развиваться.
Точная форма этой эволюции, конечно, остается загадкой, но интригующие намеки уже появляются. Среди наиболее значимых событий последних лет - растущий спектр альтернатив человеческому узкому месту в обучении модели - растущие затраты, время и даже этические проблемы, связанные с организацией достаточного количества ручного труда для подготовки наборов данных в больших и больших объемах, которые требует прогресс. Однако прогресс в том, как модели обрабатывают эти данные, в том, что касается их размера, способности работать параллельно и способности самостоятельно выявлять полезные закономерности - их "внимания", как это называется в литературе, - делает возможным обучение на наборах данных настолько больших, что в некоторых случаях они составляют значительную часть самого интернета. В случае с текстом, например, это часто означает всю Википедию, библиотеки книг и академических периодических изданий и даже истории сообщений на онлайн-форумах вроде Reddit. В результате, когда анализируется каждое слово, пробел и знак препинания, получается статистическая модель человеческого языка, настолько обширная и в то же время плотная, что она способна экстраполировать даже короткую подсказку - зародыш идеи в виде одного предложения, будь то вопрос, утверждение или строка диалога - в огромные массивы потрясающе реалистичной прозы. Полученные модели, которые теперь принято называть "большими языковыми моделями", или LLM, демонстрируют настолько беглую лингвистическую компетенцию,