Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Каждый из них следил за новостями в Интернете, по телевидению и в разговорах с преподавателями, которые они подслушивали, проходя по коридорам. Все это указывало на будущее, которое, казалось, наступило на десятилетия раньше запланированного срока, и которое предлагало им больше, чем могло ожидать любое предыдущее поколение. Впервые студент, изучающий компьютерное зрение, стремился получить не одну из нескольких желанных преподавательских должностей, разбросанных по всей стране, а путь в технологическую индустрию, будь то работа в стартапе или одном из гигантов.
В таком мире, как наш, это была необычайно захватывающая перспектива и, возможно, даже прибыльная. Но наши действия указывали на более простую мотивацию, даже среди новичков: мы как никогда стремились к исследованиям, неизвестность простиралась далеко за горизонт. Мы были одержимы особенно амбициозной маркой творчества, той, что делает дни маниакальными, а ночи бессонными. И хотя у мировых производителей наверняка были свои планы на ImageNet и множество приложений, которые они, несомненно, из него извлекут, мы знали, что это их путь, а не наш. Полярная звезда была еще далеко. Мы еще не закончили с наукой.
Хихиканье раздавалось по всей лаборатории, пока Цзя щелкал по слайдам. Тема презентации на первый взгляд не казалась особенно смешной - новый подход к устранению сбоев в классификации изображений, - но в попытке изучить вид входных данных, которые сбивают алгоритм с толку, на сайте была собрана коллекция отфотошопленных чудовищ, от причудливых до пугающих. Каждое из них вызывало смех и умиление: кенгуру с полосами зебры и рогами барана, котенок, выныривающий из волн с акульими зубами, и бегемот со шкурой арбуза. Но именно изображение на экране вывело толпу из себя: утиное тело с головой крокодила в натуральную величину, мирно стоящее в парке без малейшего видимого напряжения на крошечных лапках, словно чудовище из греческой мифологии, переделанное для детской книжки. Цзя продолжал стоять, не двигаясь, как будто смех - это частота, которую он не слышит.
Я называю его "уткодилом", - объяснил он, и его тон был таким фактическим, что я даже засомневалась, верит ли он, что это действительно вид. А Джон называет его "крак". Но важнее всего то, как назвала его наша модель". Еще один щелчок - и над гибридом утки и рептилии появилось описание из одного слова: "Животное".
Несмотря на то, что этикетка вызвала очередную порцию смешков со стороны публики, это был, в типичном стиле Цзя, момент сдержанного блеска. Презентация была основана на его последней опубликованной работе "Hedging Your Bets: Optimizing Accuracy-Specificity Trade-Offs in Large Scale Visual Recognition", которую он написал в соавторстве с Джоном Краузе, начинающим аспирантом. В ней они столкнулись с растущей проблемой, с которой сталкиваются даже самые современные классификаторы изображений: принятие разумных решений в условиях двусмысленности. В самом деле, хотя "утконос" не поддавался точной классификации, признаком искушенности было то, что их модель отреагировала на это, не рискнув сделать наверняка неверное предположение, а отступив на более высокий, безопасный уровень своей онтологии - просто заключив, что, если отбросить странные детали, это действительно похоже на какое-то животное.
Эта работа стала напоминанием о том, что, как бы ни были сосредоточены наши исследования на зрении, язык является неизбежной частью картины. ImageNet была бы невозможна без WordNet, ведь именно она обеспечила структуру, которая дает каждой категории не только ярлык, но и место в дереве взаимосвязанных идей. И трудно представить WordNet без работы психолога Элеоноры Рош.
Рош внес значительный вклад в наше современное понимание категоризации и той роли, которую она играет в мышлении, проведя множество экспериментов, изучающих способы концептуализации мира человеком, будь то аспиранты Калифорнийского университета в Беркли или горные племена Папуа - Новой Гвинеи. Хотя изучение категорий восходит к Аристотелю, экспериментальный подход Роша, в котором четкая логика сочеталась с эмпирическими данными, в 1970-х годах вызвал бурный интерес к этой области.
В своей основополагающей работе 1975 года она сформулировала более точный словарь для понимания иерархии - того, как многие понятия могут быть расположены на спектре от общего к конкретному. Возьмем, к примеру, одну из категорий животных Цзя, например "утка". Утки существуют на особом уровне детализации, требуя больше информации для понимания, чем более мелкие категории, такие как "Anatidae" (биологическое семейство, включающее уток, гусей и лебедей), "животное", "живое существо" и, в конечном итоге, "вещь" - то, что Рош назвал "суперординатами" - но меньше информации, чем более глубокие "подчиненные" категории, такие как "кряква", "мандаринка" и "кольчатая чирок". В целом такие иерархии, включая ImageNet, похожи на деревья. Движение к корню означает меньшую специфичность и дифференциацию, а движение к листьям - самым дальним концам каждой ветви - означает больше.
Цзя и Джон перенесли этот принцип в компьютерное зрение. Если у классификатора есть веские основания полагать, что перед ним утка или крокодил, но недостаточно информации, чтобы решить, кто из них кто, то разумнее всего перейти на уровень выше, к более широкой суперординате, обменяв часть специфики более глубокого уровня на безопасность более мелкого.
Покончив со зрелищем акул, гиппомелонов и кенгуру, они продемонстрировали, насколько эффективно их техника работает в более правдоподобных сценариях. Крупный план корги, которого традиционные классификаторы ошибочно обозначили как "золотистый ретривер", теперь можно было смело назвать "собакой"; такси со странной обшивкой и несовпадающей краской, которое ошибочно обозначили как "танк", теперь можно было назвать "автомобилем", и так далее.
Я не мог не отметить, что в очередной раз мощь больших данных была продемонстрирована в полной мере. При всей своей тонкости эта работа была бы просто невозможна без такого гигантского хранилища фотографий, как ImageNet. Он не просто предоставил исходные данные, необходимые для изучения вселенной иерархических концепций, но - что, вероятно, еще важнее - его масштаб и онтологическая организация позволили обнаружить эти концептуальные отношения. Никому не нужно было указывать модели, как перейти с более высокого уровня детализации на более низкий; не нужно было составлять новый список связей или путей, по которым нужно следовать. ImageNet была настолько всеобъемлющей, что все, что нужно было модели, уже было в ней. Просто потребовалась новая тактика, чтобы использовать ее.
Техника "хеджирования" Джиа и Джона - это применение того типа мышления, который меня больше всего вдохновляет. Несмотря на элегантность и интуитивность - даже простоту, если разобраться, - для ее разработки потребовалась