Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Поскольку мы уже почти добрались до главы о вероятности, я готов биться об заклад, что с высокой вероятностью в обозримом будущем рейтинги, публикуемые U.S. News & World Report, по-прежнему будут пользоваться популярностью. Как сказал Леон Ботстейн, президент колледжа Bard College: «Люди предпочитают получать простые и легкие ответы. Какое место самое лучшее? Конечно же, первое»{24}.
Вывод, который можно сделать по прочтении этой главы, что «статистические преступления» не являются следствием математических ошибок. Скорее, наоборот: заумные математические расчеты подчас способны скрыть неблаговидные намерения. То, что вы правильно подсчитали среднее значение, не отменяет тот факт, что медиана представляет собой более точный индикатор. Здравое суждение и честный подход к делу оказываются более важными условиями для выяснения истины. Глубокое знание статистики не мешает нечистым на руку людям манипулировать данными точно так же, как хорошее знание уголовного кодекса не мешает преступникам заниматься своими темными делишками. И в том и в другом случаях «плохие парни» зачастую очень хорошо понимают, что они делают!
Netflix[18] утверждает, что мне точно понравится документальный фильм Bhutto, рассказывающий о жизни и трагической смерти бывшего пакистанского премьер-министра Беназир Бхутто. Возможно, мне действительно понравится этот фильм (я уже добавил его в список кинолент, которые собираюсь посмотреть). Прошлые рекомендации были просто потрясающими. К тому же когда Netflix советовала что-то из того, что я уже видел, то, как правило, фильм был из тех, которыми я действительно наслаждался.
Каким образом Netflix проделывает свои «фокусы»? Может быть, в штаб-квартире компании работает большое число стажеров, которые с помощью Google и опроса членов моей семьи и друзей «вычислили», что меня может заинтересовать документальный фильм о бывшем пакистанском премьер-министре? Конечно нет. Просто Netflix мастерски, со знанием дела использовала статистические данные. Netflix не знакома со мной. Но ей известно, какие фильмы мне понравились в прошлом (поскольку я выставлял им рейтинги). Воспользовавшись этой информацией наряду с рейтингами других кинозрителей и мощным компьютером, Netflix сумела сделать на удивление точные прогнозы относительно моих вкусов и предпочтений.
Я еще вернусь к алгоритму, который применила Netflix при составлении таких прогнозов, пока же достаточно будет сказать, что они основаны на корреляции. Netflix рекомендует фильмы, похожие на те, которые мне когда-то понравились или получили высокие оценки от других кинозрителей, чьи рейтинги подобны моим. Фильм Bhutto мне посоветовали потому, что в свое время я присвоил пятизвездочные рейтинги двум другим документальным фильмам: Enron: The Smartest Guys in the Room и Fog of War.
Корреляция измеряет степень связи между двумя явлениями. Например, существует корреляция между летними температурами и продажей мороженого. Когда повышается температура, растут объемы продажи мороженого. Две переменные положительно коррелированы, если изменение одной переменной вызывает изменение другой в том же направлении, то есть в направлении увеличения или уменьшения (например, взаимосвязь между ростом и весом человека). У более высоких людей больший вес (в среднем); низкорослые люди весят меньше. Корреляция отрицательна, если положительное изменение одной переменной обусловливает отрицательное изменение другой (например, связь между регулярным выполнением физических упражнений и весом человека).
В зависимостях такого рода интересно то, что не каждое наблюдение вписывается в соответствующую схему. Иногда низкорослые люди весят больше, чем высокие. Иногда те, кто вообще не занимается спортом, бывают гораздо стройнее, чем те, кто регулярно выполняет физические упражнения. Тем не менее существует отчетливо выраженная связь между ростом и весом человека, а также между весом и физическими нагрузками.
Если построить диаграмму разброса данных, отражающих рост и вес произвольной выборки взрослых американцев, то получится примерно такая картина:
Если бы нам нужно было построить диаграмму разброса для данных о выполнении физических упражнений (количество минут, затрачиваемых на них каждую неделю) и данных о весе человека, то можно было бы ожидать отрицательной корреляции, причем те, кто занимается спортом больше времени, будут весить меньше. Однако картина в виде совокупности точек, разбросанных по определенной площади, представляет собой несколько неуклюжий инструмент. (Если бы Netflix попыталась предлагать мне какие-то фильмы, продемонстрировав диаграмму разброса рейтингов для тысяч кинолент, выставленных миллионами кинозрителей, то я посчитал бы такую рекомендацию просто неудачной шуткой.) Эффективность корреляции как статистического инструмента заключается в том, что мы можем выразить связь между двумя переменными с помощью одной описательной статистики – коэффициента корреляции.
Коэффициент корреляции обладает двумя чрезвычайно привлекательными характеристиками. Во-первых, в силу причин математического характера, которые мы обсудим в приложении, он представляет собой число в диапазоне от −1 до 1. Корреляция, равная 1 (иногда ее называют идеальной корреляцией), означает, что каждому изменению одной переменной соответствует эквивалентное изменение другой переменной в том же направлении.
Корреляция, равная –1 (иногда ее называют идеальной отрицательной корреляцией), означает, что каждому изменению одной переменной соответствует эквивалентное изменение другой переменной в противоположном направлении.
Чем ближе корреляция к 1 или –1, тем сильнее связь между переменными. Нулевая (или близкая к 0) корреляция говорит об отсутствии значимой связи между двумя переменными (например между результатом экзамена по математике и размером обуви экзаменуемого).
Второй привлекательной особенностью коэффициента корреляции является то, что с ним не связаны никакие единицы измерения. Мы можем рассчитать корреляцию между ростом и весом, несмотря на то что рост измеряется в дюймах, а вес – в фунтах. Мы можем даже вычислить корреляцию между количеством телевизоров, имеющихся дома у учеников, и результатами их экзаменов по математике (я почему-то уверен, что она окажется положительной). (Несколько ниже я остановлюсь подробнее на данной связи.) Коэффициент корреляции буквально творит чудеса: он сжимает сложное сочетание данных, измеряемых в разных единицах (наподобие наших диаграмм разброса роста и веса), в единственную элегантную описательную статистику.