Наука о данных - Брендан Тирни
Шрифт:
Интервал:
Закладка:
Наука о данных предлагает свой способ для того, чтобы понять мир. В нынешнюю эпоху больших данных это предложение очень заманчиво, и действительно существует целый ряд аргументов в поддержку разработки и внедрения инфраструктуры и технологий, основанных на данных. Первый аргумент связан с повышением эффективности, экономичности и конкурентоспособности — аргумент, который в контексте бизнеса подтверждается научными исследованиями. Например, исследование, проведенное в 2011 г. с участием 179 крупных публичных компаний, показало, что чем больше решений принимается на основе данных, тем выше производительность: «Мы видим, что фирмы, которые принимают решения на основе данных, имеют производительность на 5‒6 % выше, чем можно было бы ожидать, учитывая другие их инвестиции и использование информационных технологий»{1}.
Еще один аргумент в пользу широкого внедрения методов науки о данных связан с безопасностью. Правительства часто его используют, оправдывая наблюдение и слежку долгосрочным повышением уровня безопасности. Как бы то ни было, начиная с 11 сентября 2001 г. и с каждым новым терактом этот аргумент набирал силу. Его использовали в публичных дебатах, которые начались после того, как Эдвард Сноуден раскрыл информацию о программе наблюдения PRISM Агентства национальной безопасности (АНБ) США, регулярно собирающей данные об американских гражданах. Красноречивым примером силы этого аргумента являются $1,7 млрд, инвестированные АНБ в центр обработки данных в Блаффдейле, штат Юта, который способен хранить огромное количество перехваченных сообщений{2}.
В то же время общество, государственные структуры и бизнес пытаются понять долгосрочные последствия применения науки о данных в мире больших данных. Учитывая быстрое развитие технологий сбора, хранения и анализа данных, неудивительно, что действующая правовая база и более широкие дискуссии вокруг этой темы, в том числе о неприкосновенности частной жизни, пытаются идти в ногу с достижениями прогресса. Несмотря на это, существуют основные правовые принципы сбора и использования данных, которые применимы почти всегда и которые важно понимать. Кроме того, дискуссии об использовании данных и конфиденциальности выявили ряд тревожных тенденций, о которых мы должны знать.
Науку о данных можно представить как процесс создания процветающего и безопасного мира. Но одни и те же аргументы могут использовать организации, имеющие очень разные повестки. Мы видим противоположные призывы: с одной стороны, от групп защиты гражданских свобод к большей открытости правительств в отношении данных, чтобы граждане могли привлекать правительства к ответственности, и с другой — призывы деловых кругов использовать эти же данные для увеличения прибыли{3}. Поэтому наука о данных — это палка о двух концах. Она может быть использована для улучшения жизни за счет повышения эффективности государственного управления, развития медицины и здравоохранения, удешевления страховки, создания умных городов, снижения уровня преступности и прочего. Но в то же время ее можно использовать для слежки, таргетирования нежелательной рекламы и поведенческого контроля — как в открытую, так и тайно (страх слежки может влиять на нас не менее негативно, чем сама слежка).
Часто противоречивость аспектов науки о данных можно увидеть в одном и том же приложении. Например, в андеррайтинге в сфере медицинского страхования используются сторонние маркетинговые наборы данных, которые содержат такую информацию, как покупательские привычки, история веб-поиска, а также сотни других атрибутов, касающихся частной жизни людей{4}. Использование таких данных от третьих сторон вызывает беспокойство, поскольку может привести к тому, что люди начнут избегать определенных видов активности, скажем посещения сайтов экстремальных видов спорта из-за боязни повышения страховых взносов{5}. В оправдание использования этих данных приводится тот факт, что они выступают в роли аналога более агрессивных и дорогих источников информации, таких как анализы крови, и в долгосрочной перспективе сокращают расходы и страховые премии, таким образом увеличивая количество застрахованных людей{6}.
Линия раскола между сторонниками коммерческих преимуществ и сторонниками этических соображений становится особенно очевидной в дискуссиях об использовании персональных данных для целевого маркетинга. С точки зрения рекламного бизнеса стимулом к такому использованию является наличие связи между персонализацией услуг и продуктов и эффективностью маркетинга. Было показано, что использование персональных данных из социальных сетей, например, для идентификации потребителей, связанных с действующими клиентами, повышает эффективность прямой почтовой рассылки от телекоммуникационных компаний в 3‒5 раз по сравнению с традиционным подходом{7}. Аналогичные заявления были сделаны о персонализации интернет-маркетинга на основе данных. Например, проведенное в 2010 г. исследование стоимости и эффективности таргетированной онлайн-рекламы в США сравнило сетевой маркетинг[25] с поведенческим таргетингом[26]{8}. Исследование показало, что поведенческий таргетинг в среднем обходится в 2,68 раза дороже, но и коэффициент конверсии в этом случае превышает аналогичный показатель сетевого маркетинга более чем в два раза. Другое совместное исследование эффективности интернет-рекламы, основанной на данных, было проведено учеными из Университета Торонто и Массачусетского технологического института{9}. В этом исследовании эффективность онлайн-рекламы в пределах Европейского союза, где был введен новый закон о защите конфиденциальности[27], ограничивающий возможность рекламных агентств отслеживать действия пользователей в интернете, сравнивалась с эффективностью онлайн-рекламы в США и других странах, где не действовали новые ограничения. Исследование показало, что из-за новых ограничений эффективность интернет-рекламы значительно снизилась: падение покупательской активности участников исследования составило 65 %. Результаты этого исследования были оспорены (см., например,{10}), но они продолжают использоваться в поддержку аргумента, что чем больше доступно информации о человеке, тем более эффективна направленная на него реклама. Зачастую сторонники целевого маркетинга подают этот аргумент как беспроигрышный и для рекламодателя, и для потребителя, утверждая, что рекламодатели снижают маркетинговые затраты за счет сокращения расходов на рекламу и достижения лучших показателей конверсии, а потребители получают более релевантную рекламу.