Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
Шрифт:
Интервал:
Закладка:
Для того чтобы что-то изменить, нам нужно мыслить масштабно.
Уже сейчас мы живем в эпоху большой науки. Большой адронный коллайдер, предназначенный для поисков бозона Хиггса, обошелся в 9 миллиардов долларов. Проект «Геном человека» (цель которого состоит в определении последовательности символов, записывающих химический код, лежащий в основе человеческой жизни) стоил 3 миллиарда. Средства, которые мы вкладываем в понимание человеческой истории, значительно меньше – весь годовой бюджет Национального гуманитарного фонда наук составляет около 150 миллионов долларов.
Оцифровка исторических данных представляет собой беспрецедентную возможность для организации работы в области гуманитарных наук по новым принципам. Если мы способны оправдать проекты с миллиардными бюджетами в области точных наук, то нам стоит подумать и о потенциальном влиянии многомиллиардного проекта, направленного на фиксирование, сохранение и обмен самыми важными и деликатными примерами нашей истории. Эти данные должны быть доступны нам и нашим детям. Работая сообща, команды ученых и инженеров могут создать невероятно мощные общие ресурсы. И эти усилия способны легко привести к появлению аналогов Google и Facebook завтрашнего дня. В конечном счете обе эти компании начали с попыток оцифровать те или иные аспекты нашего общества. Мир больших данных в области гуманитарных наук еще ждет своего часа.
Тем не менее, несмотря на значительный объем работ, который нам предстоит, оцифровка исторических данных уже сделала значительный шаг вперед. Наличие ресурсов, доступ к которым можно получить одним нажатием клавиши, меняет наше восприятие прошлого и позволяет без проблем показывать нашим детям то, что в прежние времена требовало путешествия в Лувр или Смитсоновский институт. Эти ресурсы изменят стиль общения ученых с прошлым. Они помогут нам лучше наблюдать и понимать, каким образом литература и искусство, а также вопросы войны и любви заняли свое теперешнее место.
Эдгар Аллан По изобрел жанр детектива, драматическая суть которого состоит в том, что даже у кажущихся обычными людей могут иметься свои темные секреты. Давайте представим себе, что вы – исторический сыщик, желающий узнать темные секреты самого По (суть его внутреннего мира или самые сокровенные мысли). Для начала было бы неплохо взглянуть на его личную корреспонденцию. Оставшиеся после По 422 потрясающих письма еще ждут своего исследователя.
Но знаете, чье наследие сохранено еще лучше, чем наследие По? Ваше. Если вы – обычный взрослый американец, то вы отправляете 422 электронных письма каждые две недели. Не исключено, что в вашем почтовом ящике сейчас можно найти письма за последние 10 лет. Это в сотни раз больше, чем объем материала, оставшийся от По. И такой фантастический архив есть не только у вас. В 2010 году два миллиарда людей отправили 10 триллионов электронных писем, не считая спама[204]. В наши дни корреспонденция среднего человека сохраняется куда лучше, чем послания большинства экс-президентов США.
Данные электронных писем представляют собой мощный ресурс. Они не только документируют детали нашего прошлого, но и позволяют нам понять себя по-новому. Возьмем, к примеру, электронную корреспонденцию одного из нас – авторов данной книги. Простой анализ n-грамов его почтового ящика способен многое сказать о его жизни. Вы можете увидеть, как с годами он все чаще переходит с французского языка на английский, что связано с его переездом из Франции в США. У него появляются и исчезают друзья. Падает уровень юношеского энтузиазма – в переписке все реже можно встретить слово «вечеринка». В то же время мы видим, как постепенно место вечеринок начинает занимать имя любви всей его жизни. Изучая свои собственные n-грамы подобным образом, мы раз за разом открываем вещи, которые когда-то были для нас важными, но потом начали постепенно забываться. Большие данные необязательно должны быть сложными. Они вполне могут стать окном в нашу собственную жизнь, в нашу «количественную» личность.
Человеческие цифровые воспоминания не ограничиваются перепиской. Помимо пятнадцати тысяч электронных писем, обычный человек ежегодно отправляет и получает 5 тысяч приложений к электронным письмам. Он «лайкает» около 140 сообщений и загружает 18 изображений на Facebook и еще два – в Instagram. Он пишет 9 твитов. Он просматривает 20 секунд видео на YouTube. Он добавляет 52 файла в Dropbox. Он взаимодействует с 53 друзьями в социальной сети. И эти впечатляющие средние значения еще не включают в себя все образы, документы, видео и музыку, которые мы создаем, но не выкладываем в общий доступ в сеть Интернет. И, конечно же, не стоит забывать о том, что пока что у почти трех четвертей населения мира отсутствует доступ в Интернет.
Взятый в совокупности, этот материал содержит удивительно подробные данные о жизни миллиардов людей – данные, которые просто не существовали еще десять лет назад[205]. У такой ситуации еще не было прецедента в человеческой истории. Наша цивилизация передает с помощью «Твиттера» больше слов каждый час, чем имеется во всех доживших до наших дней текстах из Древней Греции. В сравнении с обычным человеком наших дней человек типа По выглядит куда более загадочным и непонятным.
Но и сегодняшние люди представляют собой подлинную тайну в сравнении с людьми завтрашнего дня.
В самом начале этой книги мы сказали, что обычный современный человек создает немногим менее одного терабайта данных каждый год. Но некоторые люди превосходят усредненный показатель. Один из таких людей – Дуэйн Рой, младенец, живущий в Бостоне. Он регулярно производит подобный объем данных в течение каждых выходных.
Почему же Дуэйн создает так много битов? Нужно сказать, что он – сын профессора Деба Роя, управляющего работой группы Cognitive Machines в MIT Media Lab, и профессора Рупал Пател, изучающей патологию речи в Северо-Западном университете. Оба родителя Дуэйна с большим интересом изучают то, как дети учатся говорить. Это важно для Пател, поскольку именно это входит в выбранную ею область исследований. Для Роя это важно, поскольку он хочет использовать те же самые принципы для обучения роботов общению на человеческом языке. Супруги поняли, что для понимания того, как дети овладевают речью, нам недостаточно данных. Никто и никогда подробно не документировал того, как развиваются по мере взросления отношения детей и языка.