Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ - Fei-Fei Li
Шрифт:
Интервал:
Закладка:
Андрей вздохнул, прекрасно понимая, насколько я усложняю ему жизнь . Но как бы он ни был раздражен, я знал, что он способен понять, что пропасть стоит преодолеть.
"Ладно, давайте я еще раз все обдумаю", - сказал он. "Я понимаю, что надпись должна быть написана слово в слово. Это вызывает много вопросов о том, как мы будем следовать визуальным особенностям изображения и одновременно создавать что-то грамматически правильное, но... я что-нибудь придумаю".
Я улыбнулась. Он почти не скрывал своего разочарования, но было ясно, что он все правильно понял. Ученый во мне отказывался принимать что-то меньшее, и он это знал. Как он на самом деле все это сделает, пока никто не мог предположить, но я знал, что инженер в нем так же неумолим, как и я. Он добьется своего.
Язык и зрение - очень разные вещи. Основной единицей изображения является "пиксель" - ставший уже привычным термин, который возник как сокращение от "элемента изображения" - почти незаметная точка, фиксирующая цвет в одной крошечной точке сцены. Для того чтобы изобразить что-то значимое, могут потребоваться сотни, а то и тысячи пикселей. Телефоны, лежащие в наших карманах, снимают детализированные изображения, состоящие из десятков миллионов таких точек. Но сами по себе пиксели практически ничего не говорят нам об изображении, если оценивать их по отдельности. Задача алгоритма зрения, будь то серое вещество в нашем черепе или кремний в наших машинах, - сгруппировать эти пиксели во все более крупные области двухмерного изображения, а затем каким-то образом просканировать их в поисках паттернов, соответствующих трехмерным характеристикам реального мира: пространства, объемов, поверхностей, текстур и тому подобного.
В отличие от этого, основной единицей такого языка, как английский, по крайней мере, того, на котором говорят и пишут в повседневной жизни, является слово. В отличие от пикселя, слова обычно передают определенный смысл даже по отдельности. А полный набор слов хоть и очень велик, но конечен. Тем не менее, когда слова располагаются рядом друг с другом, их значение изменяется, а то и полностью трансформируется - посмотрите, например, на разницу между такими парами слов, как "рок дно", "фрагменты рока" и "рок музыка", . Это явление усугубляется по мере того, как все больше слов соединяются вместе, образуя более длинные предложения, не говоря уже об абзацах, страницах и томах. В общем, комбинаторный потенциал слов для передачи идей практически безграничен.
В то время как первые заголовки новостей этой новой, рассветной эры пестрели прорывами в области компьютерного зрения, это было не менее продуктивное время для обработки естественного языка. Жемчужиной этого периода стала рекуррентная нейронная сеть, или РНС. Семейство алгоритмов, созданных специально для работы с линейными последовательностями слов, позволяло RNN быстро определять основные свойства текста, подобно тому, как сверточные нейронные сети типа AlexNet обрабатывают изображения. Как и CNN, RNN существовали уже несколько десятилетий, но их истинная сила была осознана только сейчас.
Однако, возможно, более манящим, чем прогресс в какой-либо одной области, было перекрестное опыление, которое стало происходить между многочисленными подобластями ИИ. Растущее семейство нейронных сетей дало зрению, языку, речи и другим формам восприятия общую алгоритмическую основу, вдохновив лаборатории, подобные нашей, на стирание границ, разделявших их, в стремлении достичь более интегрированных, похожих на человеческие, возможностей.
"Кажется, у меня есть идея", - сказал Андрей через дверь в мой кабинет. С момента нашего последнего разговора прошло несколько дней, и на этот раз он выглядел уже не таким подавленным. Я мог сказать, что у него есть что-то хорошее. "Представьте, что мы объединяем CNN с RNN, - сказал он, присаживаясь на диван. "Один кодирует визуальную информацию и сопоставляет ее со словами, а другой генерирует язык. Мы будем тренировать нашу модель на парах изображений и написанных человеком описаний".
Ну вот, мы и добрались до цели, подумал я и кивнул, обдумывая сказанное.
"Продолжайте", - сказала я, любопытствуя, о чем еще он думает. "А что потом?"
"Ну, здесь определенно есть несколько неизвестных моментов, которые нужно прояснить, но я думаю, что RNN генерирует каждое новое слово в описании условно, основываясь на словах, уже имеющихся в предложении. Таким образом, мы описываем содержимое изображения, следуя при этом грамматическим шаблонам, которые были получены из обучающих данных. В результате, по крайней мере в теории, должно получиться совершенно новое описание на более или менее естественном языке".
Трудно было не впечатлиться. Если бы хотя бы половина этого сработала, он бы сконструировал свой способ выбраться из той дыры, в которой я его оставил. Мне не терпелось увидеть, что будет дальше.
Наш проект по созданию автомобиля Google Street View был завершен, и глубина собранных нами данных поражала воображение. Более пятидесяти миллионов изображений из более чем двухсот городов прошли через наши классификаторы, охватывая более трех тысяч почтовых индексов и почти сорок тысяч избирательных участков. В общей сложности наши классификаторы идентифицировали более двадцати двух миллионов автомобилей - почти 10 процентов всего автопарка Соединенных Штатов, - что позволило выявить удивительные статистические данные. Некоторые из них были забавными подтверждениями стереотипов, как, например, наш вывод о соотношении седанов и пикапов в городе: если первых больше, то город с вероятностью 88 % голосует за демократов; если больше вторых, то с вероятностью 82 % голосует за республиканцев. Но это было только начало.
Например, корреляция между этнической принадлежностью автовладельцев и предпочитаемой ими маркой была настолько сильной, что почти полностью совпадала с данными Американского общественного опроса о расовом составе населения тех же районов. Столь же точные прогнозы можно было сделать относительно среднего уровня образования и дохода в регионе. Снова и снова наша модель генерировала цветные карты целых городов, прослеживая колебания социально-экономических и политических показателей от одного конца до другого, и все они были удивительно похожи на данные, собранные традиционными методами Бюро переписи населения. И все это путем простого наблюдения за автомобилями на улицах.
Однако