Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Затем сигналы от тысяч рецептивных полей уходят вглубь сети, сливаясь и группируясь в более крупные и четкие подсказки. Каждый новый слой, работающий на более сложном уровне восприятия, чем предыдущий, реагирует, когда чувствует что-то знакомое - то, что его научили распознавать, - загораясь с нарастающей интенсивностью, как нейроны в момент биохимического прилива. Крошечные узоры превращаются в более крупные, которые, в свою очередь, соединяются, как кусочки головоломки, образуя все более узнаваемые фрагменты - полосы тигра, текстура дерева, тень, падающая на землю.
Наконец, немногие оставшиеся сигналы, прошедшие через каждый слой, отфильтрованные и объединенные в детальную картину объекта, сталкиваются с последним этапом работы сети: распознаванием. Мотороллер. Леопард. Абакус. Курица. Телевизор. Или любой из тысячи альтернативных вариантов. Все по единому алгоритму и с точностью, которая все больше конкурировала с нашей собственной.
Конечно, это были не совсем новые идеи. Ян ЛеКун оставался поразительно верен конволюционным нейронным сетям на протяжении многих лет после своего успеха в применении их к рукописным ZIP-кодам в Bell Labs. К моменту появления AlexNet он потратил два десятилетия на совершенствование алгоритма и публикацию своих результатов, даже не имея ресурсов, необходимых для их полной реализации. Теперь же, в одночасье, стремление, которое часто списывали на ошибки, стало казаться прямо-таки прозорливым. Словно реинкарнированный, дух собственной CNN ЛеКуна, получившей соответствующее название "LeNet", был явно жив в AlexNet.
Эта связь особенно интригует команду, создавшую AlexNet, трио исследователей из Университета Торонто. Руководили проектом одноименный Алекс Крижевский и его сотрудник Илья Суцкевер - оба умные, но молодые исследователи, которые еще только создают свою репутацию. Однако третье имя мгновенно привлекло мое внимание: Джеффри Э. Хинтон. Тот самый Хинтон, который прославился как пионер машинного обучения, разработав в середине 1980-х годов метод обратного распространения, впервые позволивший надежно обучать большие нейронные сети. Хинтон, который был наставником Яна ЛеКуна, когда тот еще был студентом в его лаборатории. Хинтон, который, как и его протеже, отказался от изучения нейронных сетей, даже когда это сделало его почти изгоем среди коллег. AlexNet, как оказалось, не был простым участием в конкурсе. Это был момент признания вины, к которому он шел четверть века.
Значение корней этого алгоритма стало еще более очевидным, когда я глубже вник в его архитектуру. Хотя их разделяет более двух десятилетий, основная разница между AlexNet и LeNet оказалась минимальной. Оба были реализацией традиционной парадигмы нейронных сетей. Но одно ключевое отличие сразу бросалось в глаза: новая инкарнация была намного, намного больше.
AlexNet может обрабатывать изображения в десять раз больше, чем LeNet, сканируя их содержимое с помощью сверточного ядра - так сказать, "фокусной точки" сети - примерно вдвое большего размера. Затем выявленные детали фильтровались через более глубокую сеть, которая имела на несколько слоев больше, чем оригинальная LeNet, что позволяло ей более тщательно обрабатывать увиденное и делать более сложные выводы. Наконец, если сеть LeNet была спроектирована таким образом, чтобы направить свой анализ на получение одного из десяти возможных результатов, соответствующих десяти рукописным цифрам, для распознавания которых она была создана, то сеть AlexNet могла идентифицировать тысячу категорий объектов - подмножество ImageNet, выбранное для использования в конкурсе.
Но это были различия степени, а не вида; на уровне теории изменилось поразительно мало. И все же AlexNet работала так, как ни одна другая нейросеть в истории.
Как?
Частично это объясняется аппаратным обеспечением, на котором они работают. Определяющим недостатком нейронных сетей, который долгое время считался фатальным, была сложность их обучения. Даже гораздо более компактные сети прошлых десятилетий часто оказывались непрактичными. Действительно, обучение такой сети, как AlexNet, с помощью самой большой в мире коллекции изображений казалось непостижимым. Но технологии значительно продвинулись вперед, особенно когда речь зашла о дешевом высокопроизводительном вычислительном оборудовании, оптимизированном для конкретных приложений. Как ни смешно, всему этому мир был обязан популярности видеоигр.
Еще один поворот судьбы: стиль обработки чисел, которому отдают предпочтение нейронные сети, функционально схож с тем, который используется для рендеринга графики в видеоиграх - многомиллиардной индустрии, которая с 1990-х годов стимулировала развитие и коммерциализацию специализированного оборудования, способствуя росту таких мегабрендов, как Nvidia, компания, стоящая на переднем крае этой области. К 2012 году такое оборудование - специализированные процессоры, известные как "графические процессоры", или GPU - приобрело статус доступного, потребительского. Для лаборатории Хинтона это означало, что кремний, необходимый для воплощения AlexNet в жизнь, больше не является инвестицией, требующей правительственного гранта и разрешения на строительство. Его можно было купить в магазине Best Buy.
Однако "выполнимо" не обязательно означает "удобно". Даже при наличии такого мощного оборудования, обучение AlexNet на ImageNet требовало использования множества процессоров, работающих двадцать четыре часа в сутки в течение целой недели. Таким образом, в течение семи дней в начале 2012 года, пока миллионы графических процессоров по всему миру работали над визуализацией дрожащих пулеметов, полчищ зомби и взрывов , усыпанных шрапнелью, два из них, где-то в Торонто, оживляли новый вид нейронных сетей.
Однако, как бы ни были значительны эти достижения в производительности, они не были строго новаторскими. Они просто позволяли завершать существующие процессы в более практичные сроки. Если бы можно было указать на что-то действительно отличное от мира 2012 года - то, что категорически отсутствовало во времена LeNet, - то это должно было бы быть обилие данных, используемых для обучения сети. В конце концов, в 1989 году цифровые снимки были еще в зачаточном состоянии, и масштабные библиотеки таких материалов были редкостью. Идея организации обучающего набора для нейронных сетей - не просто коллекции цифровых изображений, а огромной коллекции, предназначенной для конкретного применения, каждое из которых точно маркировано человеком, - казалась