Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
Шрифт:
Интервал:
Закладка:
Все отсканированные Google книги
Скромны, как хайку.
Тем не менее видно, как постепенно оформлялся брисбейновский принцип работы с изображениями в экономике.
Судя по всему, все три варианта – «тысяча слов», «десяток тысяч слов» и «миллион слов» – возникли практически одновременно после того, как Брисбейн произнес эту фразу. На протяжении следующих двух десятилетий они конкурировали между собой. Вариант «десяток тысяч» быстро вырвался в лидеры. Однако затем наступили 1930-е. Может быть, «десять тысяч» и «миллион» показались во времена Великой депрессии слишком заоблачными? Какова бы ни была причина, частота употребления варианта «картинка стоит тысячи слов» стала постепенно расти и в какой-то момент оставила конкурентов далеко позади.
beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful beautiful, beautiful, beautiful, beautiful, beautiful, beautiful, beautiful, beautiful, – beautiful. beautiful. beautiful. beautiful… beautiful…
В 1996 году концептуальная художница Карен Реймер опубликовала книгу Legendary, Lexical, Loquacious Love («Легендарная, лексическая, болтливая любовь»). И вот как она ее написала – она взяла полный текст любовного романа и расставила все его слова по алфавиту. Если слово встречалось в произведении несколько раз, то оно появлялось такое же количество раз в ее книге.
В книге отсутствуют синтаксис и предложения. По сути, это 345-страничный список слов, расположенных в алфавитном порядке. Она не похожа на связное повествование. Собственно говоря, когда вы ее читаете, она кажется полной бессмыслицей.
Мы редко читаем любовные романы, однако работа Реймер стала исключением. Она заставила нас пролистать ее целиком, поразив с первой страницы до последней, с драматического начала:
Глава 1
A
A A A A A A A A A A A A A A A A
A A A A A A[35]
И до потрясающего конца:
Глава 25
Z
zealous[36]
Двадцать пять глав, а не двадцать шесть: для буквы X главы не нашлось, поскольку в книге не было ни одного слова, начинавшегося с нее. В любовных романах встречаются откровенные элементы (то, что принято обозначать аббревиатурой XXX), но вот слова на эту букву встречаются в них крайне редко.
И хотя эта книга мало чем примечательна, она тем не менее позволяет нам многое узнать о жанре любовного романа как таковом. Например, очевидно, что эта книга написана для «нее» – слово her («ее») занимает восемь полных страниц (с. 130–138), his («его») – две с половиной (с. 141–144). В книге можно найти полстраницы «глаз» (eyes) и треть страницы «грудей» (breasts), а вот «ягодицы» (buttocks) упоминаются в ней всего лишь один раз. Книгу можно назвать довольно динамичной – на одной лишь с. 62 слово «кульминация» (climax) встречается три раза.
Иногда книга может показаться не слишком интеллектуальной. Например, слово «прекрасный» (beautiful) встречается в ней 29 раз, «умный» (Intelligent) – всего однажды. Однако бывает и так, что мы ощущаем напряжение исходной книги, – взять хотя бы леденящий душу пассаж на с. 187: Murderers murderers, murdering murdering murdering murdering murdering murdering murdering, murderous murderous. murders murders, murky murmur murmured («Убийцы убийцы, убивая убивая убивая убивая убивая убивая убивая убивая, убийственный убийственный, убийства убийства мутный шум пробормотал»).
На протяжении нескольких лет мы обращались к этой книге снова и снова, каждый раз обнаруживая нечто новое и интересное.
Все это кажется поначалу странным. Можно было бы предположить, что, превращая любовный роман в алфавитный список и тем самым уничтожая его изначальный смысл, Реймер могла бы заодно уничтожить все то, что делало текст интересным. И в какой-то степени это правда. Однако в результате алфавитной реорганизации текста нам открывается невидимый прежде мир частотности слов – лексических атомов, из которых состоит текст. Эта частотность – и истории, которые она рассказывает, – как раз и превращает результат работы Реймер в столь увлекательное повествование.
На момент нашего знакомства в 2005 году тема больших данных была еще неактуальной[37]. Идея чтения миллионов книг за долю секунды пока что не приходила нам в голову. Мы были всего лишь молодыми студентами-старшекурсниками, которых интересовала масса вопросов.
Для того чтобы найти, чем заинтересоваться, нужна соответствующая среда. Мы встретились на гарвардской программе Evolutionary Dynamics[38] – в настоящей гавани творчества и науки, организованной харизматичным математиком и биологом Мартином Новаком. Программа «Эволюционная динамика» представляла собой площадку, на которой математики, лингвисты, онкологи, религиоведы, психологи и физики собирались вместе и размышляли о новых способах изучения мира. Новак призывал нас искать решения любых проблем, интересовавших нас, вне зависимости от того, к какой области знания они относились.