Наука о данных - Брендан Тирни
Шрифт:
Интервал:
Закладка:
Этот утопический взгляд на использование персональных данных для целевого маркетинга в лучшем случае основан на избирательном понимании проблемы. Вероятно, одна из самых тревожных историй, связанных с целевой рекламой, была опубликована в The New York Times в 2012 г. и касалась американского сетевого ритейлера — компании Target{11}. Маркетологи знают, что одна из причин, радикально меняющих покупательские привычки человека, — рождение ребенка. Из-за этого беременность рассматривается маркетологами как потенциальная смена привычек покупателя и приверженности брендам. Это хорошо известное явление, поэтому многие ритейлеры используют общедоступные сведения о рождениях, чтобы инициировать персонализированный маркетинг для молодых родителей, отправляя им предложения, касающиеся детских товаров. Чтобы получить конкурентное преимущество, Target решила выявлять беременность клиентов на ранней стадии (в идеале во втором триместре), но без ведома будущих матерей[28]. Это понимание должно было позволить Target начать персональный маркетинг прежде, чем другие ритейлеры узнают, что ребенок уже на подходе. Для достижения этой цели Target инициировала проект науки о данных с целью прогнозирования беременности на основе анализа покупательских привычек. Отправной точкой проекта стал анализ покупательских привычек женщин, скачавших составленный Target список покупок для будущего ребенка. Анализ показал, что в начале второго триместра беременные женщины, как правило, покупали большое количество лосьона без запаха, а в течение первых 20 недель беременности часто приобретали определенные пищевые добавки. На основе результатов анализа Target создала модель, использующую около 25 товаров и показателей, и присвоила каждому клиенту оценку «прогноз беременности». Успех этой модели, если можно так выразиться, стал очевидным, когда в магазин Target пришел мужчина, который пожаловался, что его дочь-старшеклассница получила по почте именные купоны на детскую одежду и кроватки. Он обвинил Target в том, что компания пыталась убедить его дочь забеременеть. Однако через несколько дней выяснилось, что его дочь на самом деле была беременна, просто держала это в секрете. Модель прогнозирования Target смогла распознать беременную старшеклассницу и использовать эту информацию еще до того, как та решилась открыться своей семье.
История о том, как Target выявила беременность старшеклассницы без ее согласия и ведома, показывает, каким образом наука о данных может использоваться для социального профилирования не только отдельных лиц, но и меньшинств. Изучая конкретные кейсы целевой рекламы, Джозеф Туроу в своей книге «Ежедневный ты» (The Daily You) рассказывает, как маркетологи используют цифровое профилирование для классификации потребителей на целевых и нецелевых, после чего персонализируют предложения и рекламные акции, адресованные конкретным лицам: «Нецелевые потребители игнорируются или перемещаются на другие продукты, которые маркетологи сочтут более подходящими их вкусам или доходам»{12}. Такая персонализация может привести к привилегиям для одних и понижению социального статуса других. Ярким примером этого является дифференцированное ценообразование на сайтах, где с одних клиентов взимают больше, чем с других, за один и тот же продукт, основываясь на их профилях{13}.
Часто эти профили создаются путем получения данных из нескольких отрывочных источников с высоким содержанием шума. Поэтому профиль может вводить в заблуждение относительно личности человека. Хуже всего то, что такие маркетинговые профили рассматриваются как продукты и продаются другим компаниям, в результате чего негативная маркетинговая оценка может преследовать человека в разных областях. Мы уже обсуждали использование маркетинговых наборов данных в качестве основы для страхового андеррайтинга{14}, но эти же профили могут влиять и на решения, касающиеся оценки кредитного риска, и на многие другие процессы, влияющие на человеческую жизнь. Два аспекта маркетинговых профилей делают их особенно проблематичными: их природа «черного ящика» и устойчивость. Природа «черного ящика» не позволяет человеку узнать, что о нем записано в профиле, где и когда это было записано и как работают процессы принятия решений, использующие эти данные. В результате если человек попадает в черный список заемщиков или пассажиров авиакомпаний, то «весьма затруднительно докопаться до причин такой дискриминации и оспорить их»{15}. Более того, в современном мире, где компьютерная память обходится дешево, данные часто хранятся в течение длительного срока. Поэтому записи о событиях в жизни человека продолжают существовать еще долго после самого события. Туроу предупреждает: «Превращение персональных профилей в персональные оценки — это результат того, что профиль начинают воспринимать как репутацию»{16}.
Кроме того, если использовать науку о данных неосторожно, она может увековечить и усилить подобное предубеждение. Часто утверждается, что наука о данных объективна: она основана на числах, поэтому предвзятости, влияющие на человеческие решения, в ней не используются и не кодируются. Однако правда в том, что алгоритмы науки о данных скорее аморальны, чем объективны. Наука о данных выявляет закономерности в данных, однако если данные кодируют предвзятые отношения в обществе, то алгоритм, скорее всего, идентифицирует эту закономерность и будет основывать свои выводы на ней. В самом деле, чем последовательнее предубеждение в обществе, тем сильнее оно будет отражено в данных и тем вероятнее алгоритм извлечет и воспроизведет эту модель предубеждения. Например, проведенное академическое исследование в системе онлайн-рекламы Google, показало, что система чаще предлагала рекламу высокооплачиваемой работы участникам исследования, чей профиль идентифицировала как мужской, по сравнению с участниками, идентифицируемыми как женщины{17}.
Тот факт, что алгоритмы науки о данных могут усилить предубежденность, особенно заметен при их применении полицией. PredPol[29] (сокращенно от Predictive Policing) — это инструмент, предназначенный для прогнозирования места и времени вероятного преступления. При развертывании в городе PredPol генерирует ежедневный отчет с указанием на карте горячих точек (небольших участков размером 150 на 150 метров), где, по мнению системы, могут быть совершены преступления, а также помечает каждую горячую точку временным отрезком, в который это преступление вероятно произойдет. Многие полицейские управления в Соединенных Штатах и Великобритании уже используют PredPol. Идея этого типа интеллектуальной системы контроля заключается в более эффективном управлении ресурсами. На первый взгляд такое применение науки о данных кажется разумным, ведь оно может привести к предупреждению преступлений и снижению затрат на работу полиции. Однако встают вопросы о точности предсказаний PredPol и эффективности аналогичных инициатив прогнозирования в полицейской деятельности{18},{19},{20}. Также отмечается потенциал этих типов систем для кодирования профилей по расовым или классовым признакам{21}. Развертывание отрядов полиции на основе исторических данных может привести к увеличению полицейского присутствия в определенных районах — как правило, экономически неблагополучных, — что, в свою очередь, приведет к росту ответной криминальной активности в этих районах. Другими словами, прогнозирование преступности становится самоисполняющимся пророчеством. Результатом этого цикла является то, что отдельные районы будут подвергаться избыточному контролю со стороны полиции, что повлечет снижение к ней доверия у жителей этих районов{22}.