Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Я улыбнулась. Он не решил мою проблему, но его слова меня порадовали.
"И кстати, - продолжил он, - я думаю, что ситуация меняется. Даже в моей собственной лаборатории, где мы работаем над совершенно другими проблемами зрения, знаете, о чем люди начинают говорить? О больших массивах данных. Большее разнообразие. Более широкая картина мира. Это еще одна особенность гипотез - иногда им требуется время, чтобы завоевать всех".
Даже самые теплые заверения Сильвио казались вполне обоснованными. Он был хорош в таких делах. Но надолго его не хватило бы. Наука имеет забавную особенность опровергать ожидания даже тех, кто к ней близок.
К августу 2012 года ImageNet окончательно утратил статус темы, не дающей мне спать по ночам. Я родила ребенка, и новая реальность, состоящая из кормления, подгузников и вечно прерывающегося сна, заняла место в моей жизни. Я планировала пропустить презентацию результатов ImageNet Challenge, на этот раз во Флоренции, Италия, пока мне не позвонила Цзя. Было необычно поздно, и первой моей мыслью было, что что-то не так.
"Алло?"
Он был очень оживлен, но не выглядел расстроенным. Скорее, это было похоже на волнение, хотя и смущенное. Для Цзя этого было достаточно, чтобы привлечь мое внимание.
"Итак... мы просматривали результаты конкурса этого года, и одна из работ просто... я имею в виду..."
Он колебался.
"Что? Что это?" спросил я.
"Хорошо. Ну, во-первых, они используют очень необычный алгоритм. Это нейронная сеть, если вы можете в это поверить".
Мои уши еще больше навострились. Если минуту назад я не была полностью сосредоточена на нем, то теперь точно была.
"Это как... древность".
Мне было смешно. Студент двадцать первого века, использующий слово "древний" для описания работы, выполненной на пару десятилетий раньше, свидетельствовал о том, насколько молода наша область. (Возможно, это также было свидетельством того, что я старею. Я предпочел проигнорировать эту возможность.) Но он не ошибался. Наш мир развивался быстро, и к 2010-м годам большинство из нас воспринимали нейронную сеть - этот биологически вдохновленный массив взаимосвязанных единиц принятия решений, расположенных в иерархической последовательности, - как пыльный артефакт, заключенный в стекло и защищенный бархатными веревками.
"Серьезно? Нейронная сеть?"
"Да. Но это еще не все. Фей-Фей, ты не поверишь, как хорошо работает эта штука".
Даже на взлетной полосе вид из иллюминатора самолета был бы кромешной тьмой, но из среднего ряда мало что можно было разглядеть за креслом передо мной. Не успеешь оглянуться, как окажешься во Флоренции, говорил я себе, прекрасно понимая, что это неправда. Бросив все дела ради участия в ECCV, я ввергла свою домашнюю жизнь в хаос, но новости Цзя не оставили мне выбора. И я вынуждена была признать, что в том, чтобы жить с родителями, когда младенец в последнюю минуту нуждается в няньке, есть немалая польза.
Помня по медовому месяцу с Сильвио, что прямого рейса из международного аэропорта Сан-Франциско в аэропорт Флоренции нет, я рылась в поисках маршрута, который быстрее всего доставит меня домой и обратно к малышу. С неохотой я согласилась на двадцатичасовой перелет, полный недосыпа и тесноты, с единственным запланированным перерывом в монотонности - остановкой в Париже, или Цюрихе, или каком-нибудь другом знаковом городе, который я буду в слишком сильном оцепенении, чтобы узнать из окна аэропорта. Но теперь пути назад не было. Двигатели взревели, когда мы втянулись в медленное такси. За этим синтетическим звуком последовало сообщение по громкой связи. Столики с подносами подняты. Пристегнуть ремни безопасности. Я хотел спать, но мысли не давали мне покоя.
Объектом моего пристального внимания была работа, которая пробила себе путь к вершине таблицы лидеров с поразительным 10-процентным отрывом от победителя предыдущего года, установив мировой рекорд точности в 85 процентов. По моим наблюдениям, точность среднего человека составляет порядка 97 процентов, и это при гораздо более простом бинарном выборе, например, изображено ли на фотографии животное. В отличие от этого, алгоритму приходилось перебирать тысячи вариантов, чтобы найти правильный ответ. Таким образом, хотя он и не был полностью на уровне человека, он был ближе, чем любой алгоритм, и с поразительным отрывом.
Гудок, а затем голос капитана. Мы находились на крейсерской высоте.
Пожалуй, самым поразительным в этой работе было то, как она сделала то, что сделала. Несмотря на десятилетия развития и широкий интерес к современным алгоритмам, таким как машины опорных векторов, которые побеждали в предыдущие два года, авторы решили воскресить нейронную сеть - и с ее помощью абсолютно разгромили конкурентов. Второе место было даже не близко. Победитель был назван AlexNet, в честь как самой техники, так и ведущего автора проекта, исследователя из Университета Торонто Алекса Крижевского.
Самолет тряхнуло, когда мы прошли через волнистый участок.
Скачок на 10 процентов? За один год? И с помощью нейронной сети? Я прокручивал эту идею в голове, пока мы переходили из одного часового пояса в другой. Это все равно что сказать, что рекорд скорости был побит с разницей в сто миль в час на автомобиле Honda Civic. Это просто не сходится. Прогресс не должен выглядеть так.
Или нет? Я вспомнил статью Цзя о том, что он узнал, обучая алгоритмы на ImageNet. Как методы, которые хорошо работали с небольшими наборами данных, вдруг стали плохо работать при обучении на больших - и наоборот. Может быть, все это время нейронные сети лучше подходили для того, чтобы разобраться с большим, более плотно упакованным пространством возможностей ImageNet? Что они могли справиться с огромным увеличением общего числа категорий в сочетании с резким сокращением различий между ними, в то время как их современные конкуренты не могли? В поисках новых подсказок я открыл свой ноутбук и открыл слайд-деск, который команда AlexNet приложила к своей заявке и в котором излагался выбор дизайна, который они сделали.
AlexNet - это пример сверточной нейронной сети, или CNN. Название происходит от графического процесса свертки, в котором серия фильтров проносится по изображению в поисках признаков, соответствующих вещам, которые распознает сеть. Это уникальная органическая конструкция, вдохновленная наблюдением Хьюбела и Визеля о том, что зрение млекопитающих проходит множество стадий. Как и в природе, каждый слой CNN интегрирует все новые и новые детали в более высокие уровни осознания, пока, наконец, реальный объект не становится полностью видимым.
В результате получился алгоритм, который ведет себя как сетчатка глаза, вглядываясь в окружающее пространство. Как и в настоящем глазу, ее внешний слой накладывает тысячи рецептивных полей на пиксели фотографии,