Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
"Вот это было бы интересно", - ответил Алекс. "Как это работает в ImageNet? Я могу представить, как исследователи задают друг другу именно такой вопрос о своей последней идее".
Северная звезда для поля, подумал я.
Если дух статьи Цзя верен и ImageNet действительно предвещает скорую перестановку палубы - новые правила, новые интуиции, может быть, даже совершенно новую парадигму, - что может быть лучше для ее изучения, чем конкурс? Коллективная сила сотрудничества, заряженная энергией конкуренции. Исследовательская, но принципиальная. Яростный. Даже после многих лет работы над созданием ImageNet простое представление этой идеи вдохнуло в нее новую жизнь.
Это также означало, что работа по распространению ImageNet в мире еще не закончена.
Подготовка к конкурсу началась сразу после моего возвращения в США, и на первый взгляд предпосылка казалась простой: взять набор алгоритмов, обученных на ImageNet, протестировать их на наборе никогда ранее не виденных изображений, оценить их ответы и проранжировать их по количеству допущенных ошибок. Победит тот, у кого будет наименьший суммарный коэффициент ошибок. Однако на практике превращение набора данных в соревнование - это сложная научная задача.
В таких играх, как шахматы, покер или баскетбол, понятие победы просто и самоочевидно. Однако объявление победителя в научном соревновании сродни принятию на себя обязательств: не только в том, что участник покажет хорошие результаты по каким-то показателям, но и в том, что его разработка внесет вклад в общее дело. Что она может научить нас чему-то новому, проницательному и, возможно, даже преобразующему. Что это следующий шаг к Полярной звезде. Это грандиозное заявление, и очень важно, чтобы оно было сделано с уверенностью.
Это делало строгость и прозрачность основополагающими, заставляя нас составлять обширную документацию, объясняющую, как именно будет анализироваться алгоритм и по каким формулам будет оцениваться его эффективность. Но гибкость тоже была достоинством. Ведь при попытке присвоить фотографии единый ярлык даже человек может не согласиться с тем, какой объект является наиболее значимым. Представьте себе, например, фотографию композиции из фруктов, на которой клубника и яблоко выделяются настолько, что любое из них можно считать центральным элементом. Будет ли "неправильным" обозначить на фотографии одно из них, но не другое?
Чтобы не объявить хорошо работающий алгоритм неправильным, каждому участнику разрешалось предоставить упорядоченный список из пяти меток - в данном случае для "клубники" и "яблока" - метрику оценки, которую мы стали называть "коэффициент ошибок топ-5". Это побуждало участников разумно подстраховывать свои ставки и гарантировало, что мы увидим самую широкую и справедливую картину их возможностей.
Как и при создании самого ImageNet, конкурс преподнес постоянный поток неожиданных проблем. Мы потратили несколько недель на обдумывание логистики предоставления набора данных участникам конкурса и в итоге решили распространить уменьшенное подмножество: примерно десятую часть всех изображений и двадцатую часть всех категорий, или около 1,4 миллиона отдельных фотографий, охватывающих тысячу повседневных объектов, растений и животных. Чтобы убедиться в том, что мы проводим новые тесты для алгоритмов, мы повторили большую часть процесса разработки ImageNet, загрузив и разметив сотни тысяч новых изображений, а также проведя еще один раунд краудсорсинга. В общей сложности на это ушли месяцы работы.
На этом пути усилия Цзя поддерживала растущая команда, в которую входили такие новички, как Ольга Руссаковски, умная, энергичная аспирантка, ищущая что-то интересное, за что можно было бы побороться. Она сразу же выделилась на фоне остальных: пронзительные глаза, вьющиеся волосы до плеч и увлекательный стиль речи. Она понравилась мне с первой же встречи, но особенно меня поразили тихие контрасты, которые определяли ее: хотя она была кипучей и ее легко было принять за коренную калифорнийку, на самом деле она родилась на Украине и часто говорила о бабушке, которая до сих пор живет в Харькове. Она уже была солидным выбором с интеллектуальной точки зрения, но при этом обладала социальной ловкостью, которая была редкостью на нашем факультете. Я мог сказать, что у нее достаточно интеллекта, чтобы внести свой вклад в проект за кулисами, но я начал задумываться, не сможет ли она когда-нибудь использовать свою природную смекалку, чтобы представлять его и на публике.
"Волнуешься?" спросила Ольга.
Так и было. Команда допоздна засиделась в лаборатории, чтобы завершить последние детали, готовясь к следующему дню, когда заработает сайт и будет объявлен наш конкурс.
"Скажите мне, - начал Цзя. "Какова ваша конечная цель здесь?"
Это был вопрос, на который я был более чем готов ответить, поскольку с самых мрачных дней проекта ImageNet я мало о чем еще думал. Учитывая всю проделанную нами работу, я считал, что думать об ImageNet просто как о наборе данных - это редуктивно. Даже сейчас - особенно сейчас, когда конкурс был уже совсем близко, - это была гипотеза. Это была ставка на то, что наша область больше всего нуждается в доступе к разнообразию и вариативности, на которых тысячелетиями воспитывалось человеческое восприятие.
Я был настроен оптимистично, полагая, что на столе лежит нечто вроде прорыва, но опасаясь, что путь к нему будет неблизким. Мы обсудили зверинец алгоритмов, которые сейчас в моде, и мою уверенность в том, что объем ImageNet окажется слишком требовательным, чтобы любой из них смог по-настоящему овладеть им. Векторные машины поддержки, случайные леса, бустинг, даже байесовская сеть, которую мы с Пьетро использовали в нашей статье об одномоментном обучении, прогнется под его весом, и нам придется изобретать что-то действительно новое.
"Я не думаю, что ImageNet сделает сегодняшние алгоритмы лучше", - сказал я. "Я думаю, он сделает их устаревшими".
Официально названный "ImageNet Large Scale Visual Recognition Challenge", этот конкурс был открыт для всех и обещал мгновенное распознавание победителям, а его инаугурационное мероприятие состоялось в 2010 году. Регистрация участников открылась в мае, результаты должны были быть подсчитаны к сентябрю, а победитель объявлен на сессии семинара ECCV - Европейской конференции по компьютерному зрению, которая должна была состояться в конце того же года на Крите. Исследовательскому сообществу казалось, что все прошло гладко. Но за кулисами потребовалась помощь со стороны.
Осознавая недостаток опыта, не говоря уже о все еще слабой узнаваемости ImageNet, мы обратились к Марку Эверингему, организатору-основателю PASCAL VOC. Оксфордский исследователь, Марк был восходящей звездой в мире компьютерного зрения и любезно разрешил ImageNet начать свою жизнь в качестве нового направления в рамках конкурса PASCAL VOC, который в то время проводился уже шестой год. Это было особенно любезное предложение, дававшее нам возможность освоиться в уже сложившихся рамках.
Учитывая