Как лгать при помощи статистики - Дарелл Хафф
Шрифт:
Интервал:
Закладка:
Примерно через год мы с вами снова встречаемся. Как член некого комитета налогоплательщиков, я собираю подписи под петицией, требующей не повышать налоговую ставку, оценочную стоимость налогооблагаемого имущества или плату за проезд в автобусах. Я привожу такой довод: мы, местные жители, не можем позволить себе платить больше, ведь, в конце концов, средний доход жителей нашей округи составляет всего лишь $3500 в год. Не исключено, что в этом вы соглашаетесь со мной и нашим комитетом – вы не только сноб, но еще и довольно прижимисты по натуре, – и все же вас не может не удивлять мое упоминание об этих жалких $3500 среднего дохода. Вру я сейчас или соврал тогда, год назад?
Вам не удастся дважды обвинить меня во лжи. В этом и состоит вся прелесть обмана при помощи статистики. Обе эти цифры представляют собой вполне правомочные среднестатистические показатели, обе вычислены с соблюдением всех правил. Обе отражают один и тот же массив данных, характеристики одной и той же группы людей, одни и те же показатели дохода. И тем не менее совершенно очевидно, что по крайней мере одна из цифр должна быть настолько недостоверной, что ничем не уступает самой отъявленной лжи.
Моя уловка состояла в том, что в первом и втором случае я воспользовался среднестатистическими показателями разного вида, ведь термин «средний» имеет очень расплывчатое толкование. Подобный трюк широко используют субъекты, желающие повлиять на общественное мнение или продать рекламное место – бывает, что по простоте душевной, но чаще вполне осознанно. Когда вам рассказывают, что некое число представляет собой среднюю величину, это мало о чем вам скажет, пока вы не разберетесь, какой из трех основных видов среднего перед вами – среднее арифметическое, медиана или мода.
Когда мне требовался показатель побольше, я упомянул $15 000. Это было простое среднее, то есть среднее арифметическое доходов всех семей, проживающих в той местности. Для его расчета требуется сложить доходы всех семей и разделить получившуюся сумму на число семей. Спустя год я воспользовался средним показателем меньшей величины – он представляет собой медиану и означает, что половина семей в рассматриваемой местности имеет годовой доход выше $3500, а вторая половина – ниже $3500. Я мог бы пустить в ход и моду, то есть чаще всего встречающееся значение в числовом ряду, составленном из доходов семей в интересующей нас местности. Если у большей части проживающих там семей годовой доход составляет $5000, это значение и будет модой, или модальным доходом.
В данном случае (и, как правило, это справедливо в отношении показателей доходов) некое абстрактное «среднее» – без уточнения, какого оно вида, – в сущности, лишено всякого смысла. Добавляет путаницы и еще один фактор: во многих случаях все три средних показателя настолько близки по значению, что нет никакой необходимости делать различие между ними, если требуется в общих чертах охарактеризовать положение вещей.
Если вы где-то прочитали, что у людей, относящихся к какой-то группе, средний рост составляет всего лишь полтора метра, это дает вам вполне ясное представление об их росте. Вам нет необходимости уточнять, будет ли этот показатель средним арифметическим значением, медианой или модой – эти величины примерно одинаковы. (Разумеется, если вы связаны с пошивом спецодежды для этого контингента, вам понадобится больше данных, чем те, что способен дать любой среднестатистический показатель. Вам потребуется информация о диапазоне и отклонениях, и этим мы займемся в следующей главе.)
Разные виды среднего имеют близкие значения, когда дело касается данных наподобие тех, что относятся ко многим характеристикам человека. Они настолько любезны, что изволят тяготеть к тому, что называется нормальным распределением. Если начертить кривую нормального распределения, то по форме она будет напоминать колокол, а среднее арифметическое значение, медиана и мода попадут в одну и ту же точку.
Следовательно, один вид среднего ничуть не хуже другого, когда требуется охарактеризовать рост группы мужчин. Но все совсем не так, когда стоит задача описать размер их доходов. Если вам требуется свести в один список показатели годового дохода всех жителей исследуемого города, то может оказаться, что эти величины варьируются в пределах от довольно скромных до, вероятно, $50 000 или около того. Кроме того, в списке могут фигурировать всего несколько показателей действительно очень высокого дохода. Порядка 95 % всех показателей будут ниже, чем $10 000, и они займут место в левой части кривой. В итоге вместо симметричной, как колокол, кривой вы получите кривую, скошенную в одну сторону. С одной стороны – крутая горка, с другой – постепенный плавный спуск. Среднее арифметическое окажется на некотором расстоянии от медианы. Сами посудите, как это могло бы сказаться на справедливости любого сравнения между «средним» (средним арифметическим) показателем за один год и «средним» (медианой) за другой год.
В той местности, где я продал вам кое-какую недвижимость, два средних показателя особенно сильно расходятся по значению, поскольку распределение доходов имеет явное смещение. Так уж получилось, что большинство ваших соседей – мелкие фермеры, наемные работники в близлежащем поселке или люди, отошедшие от дел и живущие на пенсию. Однако трое – миллионеры, они наведываются в здешние дома только по выходным, и именно за счет их миллионов суммарный годовой доход по вашей округе достигает такой значительной величины (и, соответственно, неимоверно увеличивает средний арифметический доход жителей). Из-за этих троих показатель среднего дохода приобретает огромный размер, какого и близко не имеет почти никто из остальных жителей местности. Это тот самый случай, когда шутка «Практически все имеют доход ниже среднего» становится реальностью.
И потому, если вам попадается заявление главы корпорации или владельца компании, где говорится, что у его сотрудников средняя зарплата достаточно высока, это может означать нечто конкретное, а может и не означать ничего. Если упомянутый средний показатель представляет собой медиану, он скажет вам нечто существенное, а именно, что половина сотрудников зарабатывает больше указанной суммы, а другая половина – меньше. Но если перед вами среднее арифметическое (а можете мне поверить, так оно и бывает, если вид среднего не уточняется), эта цифра не даст вам никакой полезной информации. Это всего лишь среднее арифметическое, которое складывается из одного показателя дохода в размере $45 000 (владельца бизнеса) и зарплат его низкооплачиваемых сотрудников. Если где-то говорится, что «средняя заработная плата составляет $5700», за этим могут скрываться заработки сотрудников размером $2000 и прибыли владельца, представленные в виде дохода колоссальной величины.
Давайте чуть подольше задержим взгляд на последнем примере. В первую очередь мы видим, кто сколько получает. Босс, вероятно, предпочел бы охарактеризовать ситуацию с оплатой труда как «средний заработок в размере $5700», то есть прибегнуть к обманчивому среднему арифметическому значению. Однако мода сказала бы нам намного больше: самый распространенный размер заработка в этой компании составляет $2000 в год. Однако медиана, как это часто бывает, лучше проясняет картину, чем любой отдельно взятый показатель: половина сотрудников зарабатывает больше $3000, а другая половина – меньше.