Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Но те, кто слушал, были вознаграждены. На протяжении двадцати семи слайдов, большинство из которых содержали лишь черно-белый текст и диаграммы, природа нейронной сети была продемонстрирована с такой ясностью, какой мы никогда не видели, и это было откровением. После перцептрона Розенблатта, неокогнитрона Фукусимы и LeNet ЛеКуна это был долгожданный следующий шаг, который делался десятилетиями и наконец был реализован в масштабе, соответствующем его потенциалу.
Особого внимания заслуживает процесс обучения AlexNet.
Как и все нейронные сети, AlexNet в исходном состоянии бесформенна и инертна, как гобелен в пустоте. Затем начинается натиск: одна за другой случайным образом выбираются фотографии из библиотеки ImageNet, и перед сетью ставится задача правильно присвоить им одну из тысячи меток. Поначалу это практически невыполнимая задача: десятки миллионов нейронов сети настроены наугад, не имея даже смутного представления о мире, и дают лишь осечки. Изображение гриба с надписью "бутылочная крышка". Неверно. Изображение эвакуатора с надписью "электрогитара". Неверно. Изображение кожистой черепахи с надписью "банное полотенце". Неверно.
Но неудачи не напрасны. Ошибки вызывают корректирующие сигналы, распространяющиеся по десяткам миллионов составных частей сети, каждая из которых оценивает свой вклад в результат и подталкивает, пропорционально, к тому, чтобы в следующий раз вести себя по-другому. Это простейшая форма обучения - делать меньше того, что не получилось, и больше того, что не получилось, - раздутая до гигантских масштабов. Придирчивое внимание уделяется каждой детали каждой ошибки: каждому пятну света и тени, каждому узору и текстуре, каждой мягкой градации и жесткому краю.
На ранних этапах это не так уж и много, и в следующий раз, когда AlexNet увидит фотографию, похожую на ту, которую он неправильно классифицировал, он, скорее всего, снова ошибется. Но это будет уже не такая ошибка. И так до тех пор, пока не получится что-то правильное, пусть даже по счастливой случайности. На этот раз сигнал должен усилиться, а не ослабнуть; он должен подчеркнуть то, что, как оказалось, указывало на правильное направление. Обучение продолжается. Неправильно. Неправильно. Неправильно. Правильно. Неправильно. Неверно. Правильно. Правильно. Неверно.
Обширность ImageNet - даже подмножество из тысячи категорий, выбранных для конкурса, - гарантирует, что это будет долгий процесс. Он охватывает такие разнообразные объекты, как цифровые часы, пикетные ограды, дисковые тормоза, секундомеры, итальянские борзые, микроволновые печи и смородина, каждый из которых имеет тысячу вариаций. Но AlexNet еще и огромен. Его 650 000 отдельных нейронов объединены в сеть посредством 630 миллионов связей, а 60 миллионов крошечных, почти незаметных весов влияют на силу этих связей, делая одни из них сильнее, а другие слабее, по мере того как сигналы поступают с одного конца сети на другой.
Взятые в целом, они представляют собой достаточно большой холст, чтобы нарисовать мир. Вес меняется от раунда к раунду, некоторые становятся сильнее, некоторые слабее, а некоторые просто колеблются, создавая податливую ткань, которая реагирует на тренировки с органичной грацией. Вес этих гигантских объемов несут два графических процессора Nvidia, высокоспециализированный кремний, работающий параллельно, проводя раунд за раундом на максимальной скорости.
Тренировки продолжаются без остановки, с утра до вечера, пока не будет изучен каждый пиксель каждого изображения. Часы превращаются в дни, а дни - в недели. Графический процессор подталкивает. ImageNet бросает вызов. AlexNet приспосабливается. По всей сети возникают все более крупные и экстравагантные структуры по мере того, как десятки миллионов весов снова, и снова, и снова. Кузнечный молот против раскаленной стали. По одному приращению за раз, пока почти невидимые возмущения не превратятся в горы и долины, уходящие в многотысячемерное гиперпространство. Призрачное усреднение бесчисленных деталей мира, отпечатки, оставленные тысячей различных изображений тысячи различных вещей. Тысяча далматинцев скапливается здесь, тысяча корзин для белья - там, тысяча маримб - где-то еще.
Словно что-то из области геологии, эти отпечатки сливаются в единый рельеф, простирающийся от одного конца AlexNet до другого. Точилки для карандашей, мечети, морские звезды, хоккейные шайбы - все они вписаны куда-то в ландшафт. Алгоритм не просто "увидел" эти вещи, он стал ими. Фотографии, которые мы годами гоняли по интернету, сформировали целый спектр машинного сознания, примитивного, но мощного. Единое унифицированное представление всего этого.
После 1,4 миллиона раундов последняя струйка изображений - это не испытание, а коронация. Фокус сети перемещается по пикселям, загорается, когда регистрируются знакомые паттерны, и передается на следующий уровень, где они объединяются с другими, образуя все большие и большие созвездия осознания. Ответы больше не случайны, и большинство из них уже не ошибочны. Койот. Правильно. Настольная лампа. Правильно. Кабриолет. Правильно. Это, по-видимому, волшебное сочетание аппаратных средств, программного обеспечения и данных, и оно ближе, чем все, что когда-либо было создано в нашей области, к тому, чтобы передать дух эволюции, сформировавшей разум млекопитающих, подобных нам.
Теперь в окончательном варианте разнообразие, для создания которого потребовался целый мир добровольцев-краудсорсеров, сформировало топологию, настолько разнообразную и надежную, что это своего рода святой Грааль. Эта нейронная сеть, самая большая из когда-либо существовавших в нашей области, обученная на большем количестве данных, чем любая другая в истории, может обобщать.
Потребуются месяцы, чтобы по-настоящему оценить то, что мы увидели в той комнате, но даже в тот момент было ясно, что мы находимся в присутствии чего-то необычного. После стольких лет надежд на то, что ImageNet даст толчок к созданию чего-то нового, я понял, ради чего все это было сделано: долгожданное признание чего-то вечного. Биологически вдохновленный алгоритм, который десятилетиями смотрел нам в лицо. Ему просто нужен был подходящий вызов.
Вторая половина дня также дала повод поразмышлять о последнем десятилетии работы в нашей области. Моя лаборатория поставила все на многолетнюю погоню за данными в беспрецедентном масштабе, а лаборатория Хинтона поставила свою репутацию на приверженность семейству алгоритмов, от которого область практически отказалась. Оба были азартными играми, и оба могли ошибиться. Но в тот день, когда мы увидели невероятные возможности нейронных сетей, воплощенные в жизнь с помощью обучающих возможностей ImageNet, я понял, что, хотя оба варианта оправдались, это произошло только потому, что они были предприняты в одно и то же время. Не подозревая об этом, мы полагались друг на друга на каждом шагу.
Я провел больше времени в пути до Флоренции и обратно, чем на земле. Но полет домой отличался от того, который привел меня туда. В нем было не менее тесно, а дымка от усталости была еще тяжелее, но мой разум больше не метался - по крайней мере,