Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
Шрифт:
Интервал:
Закладка:
Однако в период между 1950 и 2000 годами английский язык вошел в период роста и почти удвоился в размере за счет добавления сотен тысяч новых слов. Новая рождаемость значительно превысила смертность слов. В настоящее время каждый год в английский язык добавляется около 8400 слов – иными словами, ежедневно порог преодолевает свыше 20 новых слов.
Наш язык не просто меняется – он растет[110].
Почему так происходит? В точности этого никто не знает, и (как и в случае степенных законов) у нас нет нехватки в домыслах[111]. Одна гипотеза заключается в том, что по мере повышения социальной сплоченности (мы поддерживаем связи с большим количеством людей) и сужения нашего мира (люди находятся на расстоянии телефонного звонка или перелета на самолете друг от друга), новые слова быстрее и проще набирают критическую массу. Другая гипотеза утверждает, что прогресс в науке, медицине и технологиях формирует новые слова вследствие того, что профессиональный жаргон проще попадает в общее употребление. Однако еще одно объяснение кроется в диверсификации, связанной с самими книгами, – основой нашего ципфовского словаря. Чем больше людей публикует тексты в конце XX столетия, тем чаще авторы пишут на различные темы, используя свой собственный идиолект. Иначе говоря, глобальная дискуссия начинает вестись все большим количеством слов.
Если честно, никто точно не знает, какая из гипотез верна, как возникает этот эффект и что будет дальше. Будет ли расти количество слов, появляющихся каждый год? Есть ли границы у нашего словарного состава? Насколько сильно язык ваших детей будет отличаться от вашего собственного? Массивы больших данных позволяют лучше представить себе язык и освещают нам путь к новому научному ландшафту, в котором не скрыться даже снежному человеку.
Однако слова, которые мы используем, способны рассказать куда более интересную историю, чем язык в целом. Слова представляют собой окно в мир наших мыслей, нравов и общества в целом. Поэтому давайте обратимся от механизма коммуникации к сути наших мыслей.
В середине XX столетия людям все больше нравилась идея ухода за ребенком (baby) с помощью специально нанятого человека (sitter). Поскольку у слов baby и sitter имелось немало сопоставимых интересов, они стали проводить много времени вместе, и в какой-то момент все чаще употреблялось слово baby sitter[112].
Затем люди принялись соединять их. Поначалу связь осуществлялась через дефис. По мере того как отношения между этими словами становились все более тесными, слово baby-sitter все чаще замещало собой слова baby sitter.
Со временем baby и sitter поняли, что им суждено быть вместе навсегда. Из этого союза родился ребенок. И именно поэтому, дорогой малыш, твои родители оставляют тебя со мной (babysitter).
В ассенизации нет ничего сексуального. Однако это может быть настоящим подвигом героя.
Стоит вспомнить хотя бы историю Геракла, полубога-героя из греческой мифологии. Пятый из двенадцати подвигов Геракла состоял в том, чтобы вычистить Авгиевы конюшни, в которых жили тысячи бессмертных коров. Поскольку конюшни не чистили 30 лет, в них скопилось немало навоза. Геракл сделал так, что две бурные реки изменили свой ход и за один-единственный день вымыли из конюшен все нечистоты. Его героический поступок до сих пор остается одним из величайших достижений в анналах ассенизаторского дела.
Через много тысячелетий, в будущем, такие же легенды будут рассказывать о Юане Шэне, нашем Геракле компьютерного мира. Компания Google провела 5 лет на богатейших пастбищах мирового знания, миллионами поглощая книги благодаря передовому процессу сканирования и обработки текста. Однако неизбежным побочным продуктом создания крупнейшей в мире «конюшни» книг, получивших бессмертие благодаря оцифровке, стал значительный объем загрязненных данных. Большие данные наполнены неразберихой. Пришло время вычистить конюшни.
Сколько времени вы потратили на работу с каталогом библиотечных карточек?
Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.