Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
"Я знаю, что она начинается с буквы Б... Вообще-то, не говори мне..."
Я потянулся за английским словарем, который все еще хранился у меня на столе. Почти десять лет, как я стал американцем, и даже когда Интернет стал заменять многие предметы в нашей жизни, этот словарь иногда служил мне спасением. Я пролистал страницы, затем пролистал вниз, пока не увидел ...
"Ах! Да! Бигль!"
"Хорошо, и что? А как насчет биглей?"
Я остановилась и оглянулась на страницу. Я уже забыл, почему вообще заговорил об этом, но это было неважно. Меня осенило нечто совсем другое.
Мы с Пьетро стремились получить набор данных с сотней категорий изображений, но никак не могли придумать, как решить, какие именно из них включить. Мы опасались, что выборка может быть необъективной, если мы сделаем это сами - что даже подсознательно мы будем тяготеть к категориям изображений, которые, как мы знали, наши алгоритмы с большей вероятностью смогут распознать.
Я прищурился, вглядываясь внимательнее. В том, как словарь иллюстрировал некоторые слова, было что-то элегантное. Большинство из них были существительными, с акцентом на осязаемые, визуальные вещи - предметы, другими словами, или, в случае с биглем, животные. Казалось, что это именно те категории, которые нам нужны. К тому же они более или менее равномерно распределялись по всем буквам, что, на мой взгляд, было довольно беспристрастно. Я задумался: а что, если мы просто позволим словарю сделать выбор за нас?
Это было прекрасно. Книга, которую я годами таскал с собой, стала самым полезным инструментом в моем мире начинающего исследователя компьютерного зрения. Время от времени быть иммигрантом приносит свои плоды.
Если не принимать во внимание первые откровения, работа над полным набором данных была долгой, медленной и негламурной. Месяцы ушли на то, чтобы вручную запрашивать поисковые системы изображений, отбирать лучшие результаты, затем обрезать и изменять их размеры. Небольшая команда студентов, занимающихся маркировкой, в общей сложности три или четыре человека, и даже моя мать, теперь уже местная жительница, нашла способ помочь.
Каким бы трудным ни был этот процесс, в нем было нечто просветляющее. После долгих размышлений о разнообразии визуального мира я увидел его таким, каким никогда раньше не видел: как единую реальность, включающую аккордеоны, блендеры, сотовые телефоны, раков, омаров, пиццу, знаки "стоп", зонтики и множество других вещей. В этом была какая-то поэзия; это заставило меня оценить, насколько богат и непредсказуем мир и как мало его деталей мы замечаем.
Наконец, работа была завершена. На момент завершения работы в 2004 году это была самая большая коллекция изображений, когда-либо собранная для машинного обучения: более девяти тысяч изображений, распределенных по сотне категорий. Это было беспрецедентно, и мне не терпелось увидеть, что она откроет. Мы чувствовали себя так, как никогда не чувствовали себя раньше, словно внезапно стали обладателями сверхъестественного артефакта, готового наделить наши творения большими возможностями, чем мы когда-либо могли себе представить. Но была одна деталь, перед которой я не смог устоять: работая самостоятельно, я ввел еще одну категорию, чтобы в шутливой форме подколоть своего наставника, хотя и за свой счет. Если бы Пьетро хотел 100, я бы дал ему 101.
Мы сразу же опубликовали продолжение нашей статьи об одноразовом обучении, теперь в ней была представлена модель на основе потрясающе разнообразного набора обучающих изображений - набор данных, который теперь официально известен как "Caltech 101" - и которая могла похвастаться значительным ростом производительности. В силу своего, по общему признанию, постепенного характера, эта работа не стала прорывной, как первая, по крайней мере, на начальном этапе. Но она создала более прочное наследие в качестве модели для других. Кривые производительности, которые мы нарисовали для отображения наших результатов, стали эталоном; в течение шести месяцев исследователи со всего мира ссылались на нашу работу как на стандарт, который нужно превзойти, что многие из них и сделали. Как бы ни было интересно публиковать собственные исследования, ощущение того, что мы вносим свой вклад в идеи других людей и играем даже небольшую роль в их успехе, двигая область вперед, было еще более захватывающим.
Было ясно, что жизнь в Калтехе никогда не будет легкой, но моя благодарность за то, что я просто был там, была как никогда глубока. Нам удалось продать химчистку, что дало моей маме столь необходимый шанс отдохнуть впервые с тех пор, как мы приехали в эту страну. (Я не могу притвориться, что перспектива больше никогда не отвечать на междугородние звонки по поводу застиранной рубашки не радовала и меня). Больше всего я был увлечен учебой, доходя до почти ежедневного чувства усталости.
К счастью, Калтех - это такое место, где несложно найти единомышленников. С одним из них я столкнулся, в частности, возле офиса Пьетро, когда услышал два явно итальянских голоса, а не один, как я привык. Вскоре я узнал, что второй принадлежит коллеге-аспиранту, с которым я еще не знаком. Он был высоким, с таким непробиваемым акцентом, что Пьетро практически исчезал в сравнении с ним, и обладал головой с дико вьющимися волосами, которые выделялись на фоне всего помещения. Кроме того, в тот день он куда-то спешил, поэтому первая встреча с ним была не слишком запоминающейся, даже когда Пьетро нас представил. Но это позволило мне назвать имя по голосу: Сильвио.
Присутствие Сильвио на заседаниях нашей лаборатории вскоре привлекло мое внимание. Как и я, он часто начинал свои презентации с обсуждения произведений искусства. Его привлекали такие работы, как "Рука с отражающей сферой" Эшера и "Девушка с жемчужной сережкой" Вермеера. Обе они задерживались на тех аспектах визуального мира, которые он изучал в ходе своих исследований: искривленные контуры кривых отражений, блеск металлических поверхностей и трехмерная природа повседневных предметов. Разумеется, за приятным глазу занятием быстро последовали горы уравнений. Чем больше времени мы проводили вместе, тем больше я понимал, что у нас есть нечто общее: неспособность отключить свое любопытство, независимо от обстоятельств.
"Смотрите! Посмотрите на этот мотоцикл!" Он был настолько взволнован, что полностью испортил то, что начиналось как расслабляющая прогулка по кампусу.
"А что с ним?"
"Так, видите хромированные выхлопные трубы? Видите отражения? В них так много информации. Видите? Как они изгибаются и искривляются?"
"Да, я понимаю, что ты имеешь в виду".
"Но вот в чем загвоздка: что такое отражение? Это просто искаженная картина мира, окружающего поверхность! Это почти противоречие, и все же оно говорит нам достаточно о форме этого мотоцикла , чтобы мы могли представить его в своем