Как лгать при помощи статистики - Дарелл Хафф
Шрифт:
Интервал:
Закладка:
Подвергайте такому осмыслению все прочитанное, и тогда вы сумеете оградить себя от великого множества сведений, не имеющих под собой реальной почвы.
Полезно помнить и о том, что скрытые источники необъективности способны с такой же легкостью подорвать надежность выборки, как и очевидные. Я имею в виду, что, даже если вам не удается обнаружить явный источник необъективности, позвольте себе некоторую долю сомнений и не доверяйте выводам безоговорочно, если имеется хоть какая-то вероятность, что они предвзяты. А это, поверьте, всегда возможно. В доказательство достаточно вспомнить президентские выборы в 1948-м и 1952 г., и всякие сомнения в этом отпадут[5].
Для вящей убедительности давайте вернемся в 1936 г., к временам, когда влиятельнейший журнал Literary Digest, общепризнанный в то время лидер изучения предпочтений американских избирателей, потерпел приснопамятное фиаско. Те десять миллионов опрошенных телефонных абонентов и подписчиков Literary Digest, которые уверили редакцию злополучного журнала, что победителем в президентской гонки выйдет республиканец Альфред Лэндон с 370 голосами выборщиков против 161 голоса за Франклина Рузвельта, были из того же списка рассылки, каким журнал воспользовался в 1932 г., когда блестяще предсказал итоги президентских выборов.
Разве можно было заподозрить в предвзятости людей из списка, который в прошлом так хорошо себя зарекомендовал? Но, разумеется, предвзятость имела место, и список был нерепрезентативен, что и установили авторы диссертаций и прочие любители изысканий постфактум. Контингент населения, который в 1936 г. мог себе позволить иметь телефон и подписываться на Literary Digest, не был срезом всей совокупности избирателей. В экономическом плане это была особая категория населения, то есть нерепрезентативная выборка, поскольку она изобиловала теми, кто поддерживал Республиканскую партию. Данная выборка и отдала предпочтение Лэндону, тогда как избиратели в массе своей имели другое мнение на этот счет.
Базовая выборка относится к категории случайной (вероятностной) выборки. Она отбирается произвольным образом из генеральной совокупности, под которой статистики понимают весь обследуемый массив. Например, выбирается каждое десятое имя в картотеке индексных карточек. Или из шляпы, полной свернутых бумажек, наугад выбираются пятьдесят штук. Или интервьюируется каждый двадцатый человек на главной улице Сан-Франциско Маркет-стрит. (К вашему сведению, последняя из упомянутых не будет выборкой ни населения всего мира, ни Соединенных Штатов, ни самого Сан-Франциско, это всего лишь выборка из всей массы людей, находящихся в это конкретное время на Маркет-стрит. Одна дама, проводившая опрос общественного мнения, рассказывала, что находила респондентов на железнодорожной станции, поскольку «на вокзалах можно обнаружить людей всех возможных категорий». Следовало бы указать ей, что матери малолетних ребятишек, например, могли быть недостаточно представлены в вокзальной толпе.)
Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку?
Безупречно случайная – единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономной заменой, повсеместно используемой в таких сферах, как изучение общественного мнения и рыночной конъюнктуры, будет стратифицированная случайная выборка.
Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности. Вот тут-то и начнутся трудности: сведения о том, каково соотношение групп в генеральной совокупности, могут быть некорректны. Вы инструктируете интервьюеров, которые будут проводить опрос, и наказываете им проследить, чтобы среди опрошенных было столько-то чернокожих, такой-то процент людей, относящихся к нескольким группам населения по размеру доходов, определенное число фермеров и т. п. Но вместе с тем в группе должно быть представлено равное количество людей в возрасте старше и моложе сорока лет.
Все это выглядит убедительно, но что происходит на деле? В том, что касается цвета кожи респондентов – белый это или чернокожий, интервьюеры в большинстве случаев не ошибутся. Но они допустят больше ошибок в оценке размера доходов опрашиваемых. А если говорить о фермерах, то как вы классифицируете человека, который часть времени трудится на ферме, но вдобавок имеет работу в городе? Даже такой вопрос, как возрастная категория респондента, может создать некоторые трудности, но интервьюеры преодолевают их самым простым способом – выбирают респондентов, которые явно старше или значительно моложе сорока лет. Правда, в таких случаях выборка будет предвзятой ввиду фактического отсутствия в ней лиц в возрасте под сорок и тех, кому сорок с небольшим. Так что, как ни крути, хорошего решения все равно нет.
А кроме всего прочего, как на условиях стратификации получить вероятностную выборку? Самое очевидное решение – сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура. И тогда вы просто выходите на улицу – и сами искажаете свою выборку, поскольку в ней не будут представлены люди, которые сидят в это время по домам. Если вы будете стучаться в двери днем – значит, не охватите большинство тех, кто работает. Решив проводить опросы по вечерам, вы упустите любителей кинематографа и завсегдатаев ночных клубов.
В итоге проведение опроса сводится к стараниям побороть источники необъективности, и эту битву ведут все до единой почтенные организации, занимающиеся проведением опросов. Те, кто читает их доклады, должны помнить: эту битву никто и никогда не выигрывает. Всякий раз, когда вам где-нибудь встречается вывод, что «67 % американцев против» того-то или того-то, вам следует задаться вопросом: 67 % каких именно американцев?
То же самое относится и к «трактату о женской сексуальности» доктора Альфреда Кинси[6].