Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Конечно, было и исключение - отсканированные изображения, использовавшиеся для обучения LeNet считыванию почтовых индексов, и это сравнение было весьма показательным. Но даже в этом случае собрать обучающий набор рукописных цифр было едва ли возможно: в отличие от многомегапиксельных полноцветных фотографий, отсканированные цифры были маленькими, монохромными и занимали относительно мало памяти. К тому же, для того, чтобы набросать необходимый уровень разнообразия для освоения их идиосинкразии, требовались тысячи примеров, а не сотни миллионов, как в естественном мире. Поэтому неудивительно, что единственное приложение, для которого в то время удалось найти обучающий набор, более двадцати лет оставалось единственным достижением алгоритма. Казалось, что данные способны вдохнуть огонь в систему.
Действительно, AlexNet ожила в присутствии ImageNet, жадно впитывая его содержимое, процветая за счет его масштаба и разнообразия. Все это время нейросети не нуждались в более сложной математике и более экзотических абстракциях. Они просто ждали более четкого представления о мире, который, как мы ожидали, они должны были понять. Того, на чем они действительно могли бы учиться. Как большие данные научили LeNet разбираться в тонкостях человеческого почерка, так и AlexNet научилась разбираться во всем.
Позже я узнал, что Хинтон с новой страстью работал над доказательством жизнеспособности нейронных сетей в течение нескольких лет до 2012 года. В 2011 году, полагая, что он как никогда близок к переломному моменту, начал обращаться к своим коллегам в стиле, который был одновременно конфронтационным и совместным, запрашивая совета о том, что ему делать дальше, в форме, которая звучала скорее как вызов, чем как вопрос. Один из таких звонков был адресован Джитендре, давнему другу, который скептически относился к его проекту.
"Что мне нужно сделать, чтобы убедить вас в том, что за нейронными сетями будущее?" спросил Хинтон.
"Ты действительно хочешь произвести на меня впечатление, Джефф? Покажи мне, что они могут справиться с чем-то серьезным".
"Как?"
"Например, распознавание объектов. В реальном мире". Что бы Джитендра ни думал об ImageNet, я еще со времен учебы в Калтехе знал, что он верит в силу визуальной категоризации. "Вы пробовали PASCAL VOC?"
"Да. Не повезло. Она просто слишком маленькая. Примеров недостаточно, поэтому сеть не очень хорошо обобщает, когда мы показываем ей что-то новое".
"Хорошо, значит, вам нужно что-то посерьезнее. Ты, случайно, не следишь за лабораторией Фей-Фей? Когда будешь готов к настоящему испытанию, посмотри, что они затевают".
Независимо от того, действительно ли Джитендра изменил свое мнение о проекте или просто пытался залезть в шкуру старого друга - оба варианта казались правдоподобными, - Хинтон отнесся к совету серьезно.
Как будто каждая вихревая мысль на мгновение выровнялась, вырвав меня из уже наступившей дымки путешественника, и мне пришло в голову: нейронные сети естественным образом подходят для представления мира в ImageNet. Сеть ЛеКуна сделала это с почерком, обнаружив значимые закономерности на всех уровнях анализа, от мельчайших скоплений пикселей до текстуры штрихов пера и полных цифр. Это была своего рода перцептивная беглость, которая возникала из данных сама по себе, естественно организованная в иерархию осознания. Хьюбел и Визель увидели, как та же идея воспроизводится в зрительной коре кошки. В лаборатории Калифорнийского университета в Беркли мы увидели еще глубже. Они всегда были способны это. Но только сейчас у них появились вычислительные мощности для этого.
Теперь, похоже, AlexNet сделал то же самое с мировым масштабом самой сети ImageNet. И в этом, попросту говоря, заключалось главное отличие - огромное увеличение объема данных, которые теперь можно было изучать. Я восхищался мыслью о том, что будет содержаться в слоях AlexNet после завершения процесса обучения: формы, края, узоры и текстуры, покрывающие людей, животных и предметы, которые мы столько лет вылавливали из Интернета. Призрачные фрагменты реального мира, организованные правильным образом, чтобы алгоритм мог их увидеть.
Самолет мягко подпрыгнул, когда его колеса коснулись Флоренции. Мне все еще было трудно поверить в то, что AlexNet - это аванс, которым он казался. Скачок казался слишком большим. Но чем больше я думал об этом, тем больше мне казалось, что это отличительная черта любого великого прорыва: шкура безумия, обернутая вокруг идеи, которая только может иметь смысл.
Слухи распространились к утру следующего дня. Предстояло объявить о чем-то историческом, так говорили, и неясность слухов только разжигала любопытство слушателей. К тому времени, когда я прибыл на семинар, там было так много народу, что самому ЛеКуну пришлось стоять у задней стены, поскольку он пришел с опозданием на несколько минут, чтобы найти свободное место.
Настроение в зале было напряженным с самого начала заседания, толпа разделилась на три фракции. Первую составлял небольшой контингент сторонников ImageNet, включая меня, Алекса Берга и членов лаборатории Хинтона. Вторая, подавляющее большинство, состояла из нейтральных, но заинтригованных наблюдателей. Третья группа, скромная по численности, но воинственная, была наиболее решительной. Это были недоброжелатели, которые выступали против самой идеи ImageNet с самых первых дней ее появления на сайте , и хотя обычно я отмахивался от их мнения, здесь их присутствие было трудно игнорировать.
Хуже того, мы едва ли были единым фронтом. Хинтон не смог присутствовать из-за хронических проблем со спиной, которые делали международные поездки практически невозможными для него, поэтому вместо себя он прислал Алекса Крижевского. Алекс был чрезвычайно талантлив, и его статус ведущего автора делал его подходящей кандидатурой. Но, как и в случае со многими другими гениальными людьми, его личное представление не соответствовало серьезности его работы - я не уверен, что даже он сам это в полной мере оценил. Это проявилось в неловкой взбалмошности, нередкой среди академиков, что проявилось в его очевидной неспособности ответить на мои неоднократные текстовые сообщения с попыткой подтвердить нашу встречу до начала семинара. (К счастью, он прибыл в назначенное время.) Поскольку недоверие аудитории было на пике, ему было еще труднее убедить слушателей в своей правоте.
Когда слово было предоставлено для вопросов, напряжение спало. Мы услышали все обычные жалобы - что ImageNet слишком велик, чтобы быть практичным, что не было необходимости включать столько категорий и что модели распознавания объектов все еще слишком примитивны, чтобы оправдать такой обширный набор данных. Тот факт, что AlexNet демонстрирует обратное, более или менее точечно, был странно неубедителен. Но были и новые критические замечания, некоторые из которых были откровенно странными. Один из участников - восходящая звезда одного из ведущих университетов, не меньше, - зашел так далеко, что предположил, что в категории изображений, изображающих футболки, не хватает разнообразия, необходимого для надежного обучения модели.