Новые темные века - Джеймс Брайдл
Шрифт:
Интервал:
Закладка:
По мере того как все больше научных публикаций становятся доступными все более широкому кругу читателей, потому что находятся в открытом доступе или распространяются в цифровом формате, эти работы подвергаются особо пристальному штудированию, которое не всегда исходит от людей. Университеты и частные компании разработали ряд программ, которые автоматически сравнивают научные статьи с теми, что уже выложены в огромные базы опубликованных работ, и выявляют некорректные заимствования и плагиат. Студенты же, чтобы обойти систему, придумали «контрмеры», например синонимизацию текста, при которой в оригинальном тексте все возможные слова заменяются на синонимы, что вводит в заблуждение проверяющий алгоритм. Идет «гонка вооружений» между авторами и машинами, и сегодня наиболее продвинутые алгоритмы по выявлению плагиата уже задействуют нейросети для поиска в тексте нехарактерных слов и фраз, которые могут свидетельствовать о недобросовестности писавшего. Но ни плагиата, ни явного мошенничества недостаточно, чтобы объяснить более серьезный кризис в науке – воспроизводимость.
Воспроизводимость – это краеугольный камень научной методологии, который подразумевает, что независимые исследователи могут точно повторить проведенное исследование и получить те же результаты. На практике эксперименты повторяют крайне редко, и даже в этом случае результаты редко совпадают с заявленными. В Центре открытой науки Университета Виргинии с 2011 года действует инициатива «Воспроизведение», в рамках которой были воссозданы условия для повторения пяти ключевых исследований в области раковых заболеваний. Целью проекта было получение результатов, соответствующих результатам исходных экспериментов, каждый из которых цитировался тысячи раз, что, казалось, должно было обеспечить их воспроизводимость. Однако в результате, несмотря на тщательную реконструкцию условий и особенностей проведения, удалось повторить результаты только двух из пяти экспериментов – два эксперимента дали неоднозначные результаты, а один и вовсе провалился. Проблема воспроизводимости не ограничивается областью медицины: в исследовании, проведенном журналом Nature среди представителей самых разных наук, выяснилось, что 70 процентам ученых, повторявших эксперименты других исследователей, не удалось получить изначальные результаты(14). Во всех областях – от медицины до психологии, от биологии до наук об окружающей среде, – исследователи приходят к пониманию того, что, возможно, ошибки кроются в самом основании их научных изысканий.
Причины научного кризиса различны и, как в случае с научной недобросовестностью, которая представляет собой часть большой проблемы, нередко кроются в растущей прозрачности исследований и возможностей пересмотра научных достижений. Иные проблемы носят более системный характер: от давления на ученых, вынуждающего их много публиковаться, а значит, представлять в выгодном свете «сырые», спорные результаты, умалчивая о выявленных противоречиях; до самих инструментов получения научных результатов.
Наиболее противоречивая из применяемых практик – техника «просеивания» данных, или по-английски «p-hacking», где p — значение, при котором полученные экспериментальным путем результаты могут считаться статистически значимыми. Возможность подсчитать значение p сделало его общепринятым показателем научной строгости при проведении экспериментов. При p меньше 0,05 вероятность того, что корреляция случайна или ошибочна, составляет менее 5 процентов, и во многих науках эта цифра принята в качестве порогового показателя успешности гипотезы. К сожалению, следствием такой договоренности стало то, что значение p менее 0,05 превратилось из мерила в основную цель. Исследователи, когда перед ними ставится конкретная задача, могут произвольно отсортировывать большие объемы данных так, чтобы доказать любую интересующую гипотезу.
Чтобы продемонстрировать, как работает просеивание данных, предположим, что зеленые игральные кости (в отличие от всех остальных игральных костей) имеют смещенный центр тяжести. Возьмем десять зеленых костей и бросим каждую из них по сто раз. Из тысячи бросков 183 раза выпадало «шесть». Если бы кости не были мечеными, то «шесть» должно было бы выпадать при каждом шестом броске, то есть 167 раз. Что-то здесь нечисто. Чтобы определить состоятельность эксперимента, нужно подсчитать, чему равно p. Хотя значение p не имеет никакого отношения к рассматриваемой гипотезе, p – это всего лишь вероятность, с которой случайным образом может 183 раза выпасть «шесть». Для тысячи бросков эта вероятность составляет всего четыре процента, следовательно, p = 0,04, а значит, мы экспериментальным путем получили результат, который во многих научных сообществах считается приемлемым для публикации(15).
Разве не должен такой смехотворный процесс считаться крайним упрощением? Должен, но он всех устраивает. Значение p легко подсчитать и понять, следовательно, все больше научных журналов используют его в качестве условного критерия, чтобы отсеять наиболее достоверные из тысяч поступивших на рассмотрение статей. Более того, «просеивание» зависит не только от этих случайных результатов. Сами исследователи могут прочесывать огромные объемы данных в поисках нужных им результатов. Допустим, помимо десяти зеленых костей, мы бросали еще и десять синих, десять желтых, десять красных и так далее. Я мог бы бросить кости пятидесяти разных цветов, и для большинства из них результаты были бы приближены к статистически усредненным. Но чем больше совершено бросков, тем выше вероятность получить аномальный результат, вот его-то можно опубликовать. Такая практика и дала название методу «просеивания», проявившему себя с особенно плохой стороны в общественных науках, в которых исследователи стремительно получили доступ к колоссальным объемам информации, поставляемой социальными сетями и другими источниками поведенческих данных. Однако вездесущее «просеивание» характерно не только для социальных наук.
Согласно проведенному в 2015 году масштабному анализу 100 000 научных работ, находящихся в открытом доступе, метод просеивания присутствовал в самых разных дисциплинах(16). В ходе анализа рассматривались все показатели p в каждой из работ, и было обнаружено, что в большинстве случаев значение p лишь немного недотягивало до границы в 0,05, что, вероятно, свидетельствует о том, что многие исследователи «подгоняли» результаты экспериментов, наборы данных или статистические методы, чтобы получить результат в пределах допустимых значений. Именно это побудило редакторов PLOS ONE, одного из ведущих медицинских научных журналов, опубликовать редакционную статью «Почему большинство опубликованных результатов исследований неверны», в которой они раскритиковали применяемые статистические методы(17).
Необходимо подчеркнуть, что просеивание данных само по себе не является мошенничеством. Даже если с результатами что-то не в порядке, беспокойство вызывает не намеренная подмена данных, а тот факт, что это может происходить бессознательно под давлением институтов, из-за низких стандартов принятия работ к публикации и самого объема данных, доступных ученым. Научное сообщество встревожено сочетанием растущего числа отзывов статей, невозможности воспроизвести эксперименты, внутренней сложности научного анализа и распространения материалов, и уже одна эта тревога губительна, так как наука строится на доверии между исследователями и доверии общественности. Любое снижение