Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Что я упустил?
Глава 8. Эксперименты
В Киото наступила осень. Полдень был ярким и служил прочным фоном для пульсирующих вспышек зеленого, оранжевого и красного цветов, проносящихся мимо, как живой портрет в окнах поезда-пули. Даже на скорости двести миль в час сельская местность была пышной и великолепной, но, как это часто случалось в моей жизни, я был слишком отвлечен, чтобы оценить ее по достоинству. Это было долгое, утомительное путешествие со всеми сопутствующими тревогами, и месяцы, прошедшие после разочаровывающего дебюта ImageNet на третьем уровне на CVPR, были обескураживающими. Наши критики оставались пренебрежительными, а интерес со стороны других исследовательских лабораторий был скудным. Сползание ImageNet к безвестности стало казаться настолько неизбежным, что я прибег к импровизированному университетскому турне, чтобы противостоять этому, выступая с живыми презентациями везде, где только мог, в аудиториях, заполненных скептически настроенными аспирантами и постдоками. Это было не так уж много, но даже отсрочка неизбежного казалась маленькой победой.
Теперь появилась следующая возможность повысить нашу значимость: Международная конференция по компьютерному зрению, или ICCV, в Киото. Моим попутчиком на этот день был Алекс Берг, доцент университета SUNY Stony Brook и единомышленник в области компьютерного зрения. Алекс был особенно талантливым аспирантом у Джитендры, исследуя проблемы распознавания объектов в духе, схожем с моей работой с Пьетро, а использование им Caltech 101 в своей докторской диссертации сделало его не только естественным ценителем силы наборов данных, но и одним из немногих сторонников ImageNet. Хотя было приятно пообщаться с единомышленником, это лишь подчеркнуло, насколько сложным будет предстоящий путь.
Все это контрастировало с тем волнением, которое мы испытывали в моей лаборатории, недавно переехавшей в Стэнфорд. У нас под рукой был не просто набор данных, а испытательный стенд, на котором наши идеи столкнулись лицом к лицу со всем визуальным миром - наши алгоритмы получили более широкие возможности восприятия, чем они имели раньше, и были проверены с большей строгостью, чем они когда-либо сталкивались. Если наборы данных изображений можно рассматривать как язык исследования компьютерного зрения - набор концепций, которые алгоритм и его разработчики могут изучать, то ImageNet стал внезапным, взрывным ростом нашего словарного запаса.
Все, что мы делали в лаборатории, было наполнено энергией. В одном случае мы использовали ImageNet для быстрого обучения сотен экземпляров алгоритма классификации изображений для распознавания коллекции повседневных вещей, а затем запустили их одновременно на одной фотографии. Вместо того чтобы просто определять наличие отдельных предметов, в эксперименте искали комбинации объектов, которые что-то говорили обо всей сцене. Например, если детекторы замечали человека, лодку, весло и воду, они классифицировали фотографию в целом как изображение "гребли" - более глубокий уровень понимания, который, возможно, граничит с примитивным видом визуального мышления.
Как и во многих других экспериментах той эпохи, точность используемых нами алгоритмов была нестабильной, и многое еще предстояло сделать - ведь даже простое распознавание изображений еще только зарождалось, - но эти неровности только усиливали дух приключений, охвативший нас. Наша работа казалась смелой и перспективной, нерафинированной, но провокационной. Многое в ней было концептуально простым. Но только после появления ImageNet это стало возможным.
Тем временем Цзя вступал в свои права как ученый. Через год или около того после выхода ImageNet он опубликовал работу под названием "Что нам говорит классификация более 10 000 категорий изображений?", в которой он размышлял о том, как фундаментально меняется распознавание изображений в присутствии ImageNet. Несмотря на то, что это была в основном техническая работа, в ней присутствовал философский подтекст, который отличал ее от типичной академической статьи. В ней чувствовалось пророчество, даже экзистенциальность. Его тезис заключался в том, что ImageNet представляет собой не просто увеличение масштаба, а категориальный сдвиг - то, что физики могли бы назвать "фазовым переходом", при котором меняются даже самые основные свойства явления. Он значительно расширяет диапазон возможностей, с которыми могут столкнуться наши алгоритмы, и ставит перед ними задачи, которые не решали меньшие наборы данных.
Говоря более техническим языком, "семантическое пространство" ImageNet расширялось, становясь все более плотным, и все меньше пространства для дыхания отделяло правильные ответы от неправильных. С практической точки зрения это часто означало, что методы, которые хорошо работали при различении небольшого числа широко варьирующихся категорий, плохо работали при работе с десятью тысячами категорий ImageNet, многие из которых можно было отличить только по тонким различиям. Некоторые методы и вовсе ломались. Это был унизительный, но в конечном счете обнадеживающий знак того, что завтрашние алгоритмы будут не просто более эффективными версиями сегодняшних, но и принципиально другими, причем так, как мы и не предполагали.
Знаете, что мне больше всего понравилось в "Калтехе 101"? Слова Алекса вернули меня в тот момент. "Это были не только учебные данные. Это была возможность сравнить результаты моих собственных исследований с вашими, используя те же самые изображения. Яблоки к яблокам".
"Ориентир", - ответил я.
"Именно так. Это позволило легко измерить прогресс. А что может быть более вдохновляющим для исследователя? Это как вызов. Смелость".
Смелость. Мне это нравилось.
"Хорошо, а что если сделать то же самое с ImageNet?" спросил я, все еще размышляя вслух. "А еще лучше, что если мы организуем целый конкурс вокруг этого?"
"Что-то вроде PASCAL, вы имеете в виду?"
Набор данных PASCAL Visual Object Classes, известный как PASCAL VOC, представлял собой коллекцию из примерно десяти тысяч изображений, разбитых на двадцать категорий. Собранный группой исследователей в Европе, он был похож на Caltech 101, но с существенным отличием: он послужил основой для конкурса компьютерного зрения, который проводится ежегодно с 2005 года. Каждый год участники со всего мира представляли алгоритмы, обученные на наборе данных, которые затем подвергались воздействию нового набора ранее не виденных изображений и ранжировались по точности их классификации. Победителем объявлялся алгоритм с наименьшим числом ошибок. Конкурс, в котором одновременно велось сотрудничество и соревнование, привлек внимание к последним достижениям в этой области. И