Loading...

Воспроизводимая невоспроизводимость: как ученые друг друга перепроверяли
Подпись к картинке

О воспроизводимости научных экспериментов, разоблачениях Джона Иоаннидиса и знаменитом Стэнфордском тюремном эксперименте, который оказался не совсем экспериментом,  расскажет новый выпуск рубрики «Шнобелевская премия – это серьезно».

Наверное, все газеты и журналы периодически публикуют новости и статьи, в которых приводятся «научные данные», — со ссылкой на авторов исследований, с упоминанием престижных университетов, где эти авторы работают, а иногда даже с названием журнала, где была опубликована статья. Такие ссылки на авторитетное мнение, безусловно, повышают доверие к тексту — мы склонны думать, что ученые не напишут глупость, а значит, газетными пересказами научных статей вполне можно руководствоваться и в обычной жизни. Однако это далеко не всегда так: мы уже косвенно затрагивали эту тему в рассказе о премии 1994 года — о лечении змеиных укусов разрядами электрического тока, которое рекомендовалось в престижнейшем медицинском журнале Lancet. Шнобелевская премия 2019 года в номинации «Психология» привлекла внимание к этой проблеме на новом уровне.

Лауреатом награды стал немецкий социальный психолог Фриц Штрак, изучавший гипотезу мимической (или лицевой) обратной связи. Эта теория гласит, что возникновение эмоций — следствие изменений нашей мимики, а не наоборот. Проще говоря, если у вас плохое настроение, надо всего лишь улыбнуться или попробовать над чем-то засмеяться, и эти внешние проявления хорошего настроения заставят вас действительно почувствовать себя лучше. Эта гипотеза берет свое начало еще в работах Чарльза Дарвина и Уильяма Джеймса, то есть примерно во второй половине XIX века. Разумеется, позднее она была как подтверждена, так и раскритикована многими исследователями, но сейчас мы поговорим о работах Штрака. 

В 1988 году психолог провел первый эксперимент: две группы добровольцев (92 человека) смотрели мультфильмы с зажатой во рту ручкой. В одном случае ручку держали так, чтобы рот  растягивался в улыбку, а в другом — зажимали ее в губах, вытянутых в трубочку (то есть лицо испытуемого сохраняло серьезный вид). «Улыбающиеся» участники эксперимента реагировали на шутки более эмоционально, и Штрак сделал вывод — улыбка поднимает настроение. Спустя почти три десятилетия, в 2017 году, была опубликована еще одна работа, выполненная при участии Штрака. Психологи решили воспроизвести старый эксперимент: работа началась в 2013 году, в исследовании приняли участие 1894 человека, которых разделили на 17 групп. Для девяти из них результат исследования 1988 года подтвердился, а для восьми итоги оказались прямо противоположными. 

В итоге Штрак стал лауреатом Шнобелевской премии с формулировкой «за открытие, что зажатая в зубах ручка заставляет людей улыбаться и делает их счастливее — а затем за открытие, что это не так». Сам лауреат заключил: возможно, на негативный результат повлияло знание испытуемых о том, что ученые записывают их реакцию на видео (кстати, последующие эксперименты подтвердили значимость этого фактора). Вероятно и то, что эффект от улыбки такой слабый, что не воспроизводится при изменении условий эксперимента. А может быть, виной всему ошибка в расчетах.

Более поздние исследования 2018 и 2019 годов — в том числе и те, что анализировали большой массив научной литературы по этой тематике — вновь доказали состоятельность гипотезу лицевой обратной связи. Как бы то ни было, становится очевидно: существует огромная проблема с воспроизводимостью научных результатов. И речь в данном случае идет не только о некачественном рецензировании и плохой проверке данных, но и о некорректно поставленных экспериментах и небрежности в обработке информации. 

На первый взгляд кажется, что проблема невоспроизводимости касается в первую очередь психологии, социологии и прочих «неточных» наук — но это, к сожалению, не так. В 2005 году Джон Иоаннидис, врач-эпидемиолог и специалист по статистике, опубликовал статью, в которой утверждалось: больше половины научных публикаций на самом деле некорректны, потому что их результаты нельзя повторить. Иоаннидис проанализировал несколько десятков медицинских исследований, которые стали основой для дальнейших работ врачей, и обнаружил, что воспроизвести удалось лишь 44% из них. Для 16% статей полученные результаты противоречили исходным, еще 16% результатов оказались сильно преувеличенными, а для 11% случаев попыток воспроизведения вообще не было — медики просто принимали имеющиеся выводы за данность. Впрочем, справедливо будет отметить, что эти расчеты были в свою очередь раскритикованы другими исследователями: при помощи своих статистических выкладок они пришли к выводу, что статья Иоаннидиса сама является ложной.

Но давайте оставим статистику специалистам — Иоаннидис действительно занимался анализом уже имеющихся данных, не пытаясь собственноручно повторять медицинские исследования. Это, разумеется, невозможно сделать в одиночку — но вот когда над этим работают 270 специалистов… В 2015 году «Коллаборация за открытую науку» во главе с Брайаном Носеком (профессором психологии Университета Вирджинии и исполнительным директором Центра открытой науки) опубликовала результаты своей четырехлетней работы по воспроизведению сотни психологических экспериментов, опубликованных в ведущих журналах. Результат оказался впечатляющим: из 100 работ ученым удалось повторить — с разной степенью близости к оригиналу — только 39. А статистически значимых результатов было получено и того меньше — всего 36, при этом уровень значимости был примерно вдвое ниже, чем в исходных статьях. 

Некоторые ученые высказали предположение, что на самом деле уровень невоспроизводимости может быть и того выше — ведь команда Носека отбирала публикации только из наиболее уважаемых журналов. Однако это не означает, что психология несостоятельна как наука. Проблемы, обнаруженные Носеком и его группой, касаются в первую очередь практических аспектов: дизайна исследований, обработки данных и их интерпретации, а также редакционной политики журналов. По мнению авторов, их проект был нужен в первую очередь для выявления существующих в научной сфере проблем. Более того, как утверждал сэр Карл Поппер, один из самых влиятельных философов науки ХХ века, по-настоящему научным является такое утверждение, которое в принципе можно опровергнуть на основании новых данных. Если итоги вашего эксперимента после новой серии экспериментов оказались иными — это значит лишь то, что вы ученый, который ошибался или заблуждался.

При этом не стоит надеяться на то, что ошибочная статья, результаты которой широко разошлись и были опубликованы в СМИ, быстро привлечет внимание специалистов. Иногда ложные исследования не только прочно входят в сознание обывателя, но и попадают в учебники. Наверно, самый знаменитый пример такой истории — Стэнфордский тюремный эксперимент 1971 года. Он был проведен по заказу Военно-морского флота США и представлял собой проверку реакции человека на ограничение свободы в условиях тюремной жизни и создания новой иерархии.

Добровольцев для участия в эксперименте набрали по объявлению в газете. Ученые разделили 24 человек на две группы — «заключенных» и «охранников». В подвале факультета психологии Стэнфордского университета организовали «тюрьму» и поместили туда молодых людей. «Охранникам» велели создать у «заключенных» чувство тоски, страха, «ощущение произвола и того, что их жизнь полностью контролируется системой […] и у них нет никакого личного пространства». Использовать любое насилие при этом запрещалось. «Заключенные» сначала пытались бунтовать, впадали в ярость, а затем достаточно быстро стали вести себя пассивно. «Охранники» же начали проявлять настоящую жестокость, как психологическую, так и физическую — молодые люди действовали примерно так же, как и профессиональные надзиратели. 

Эксперимент был рассчитан на две недели, но его прекратили на шестой день, потому что действия «охранников» вышли из-под контроля. Руководитель Филипп Зимбардо заключил, что человеческое поведение может очень сильно меняться под влиянием внешних факторов: получившие власть будут доминировать над подчиненными, последние же получат психологические травмы. Эти выводы использовали даже для оправдания поведения охранников в настоящих тюрьмах, в том числе и нацистов в концлагерях. Стэнфордский тюремный эксперимент почти полвека был «классикой» психологических опытов (хотя его методология периодически и подвергалась критике), а сам Зимбардо написал о нем несколько книг. 

В 2002 году Стив Рейчер и Алекс Хаслам попробовали воспроизвести Стэнфордский эксперимент и получили совсем иные результаты. У назначенных учеными «охранников» не появилось склонности к жестокости, а «заключенные» успешно сопротивлялись — да так, что на шестой день сбежали из «тюрьмы». Потом участники попытались создать «самоуправляемую коммуну», но режим оказался нежизнеспособным из-за внутренних конфликтов. Тогда сформировалась группа «новых охранников», куда входили как бывшие «охранники», так и «заключенные» — и вот эти люди уже проявляли больше жестокости. Такой ход событий больше похож на правду: власть захватили те, кто к ней стремился, и они вполне могут быть более агрессивными и склонными к насилию. Рейчер и Хаслам прекратили эксперимент на этом этапе. Что касается Стэнфордского эксперимента, то правда  вышла наружу только в 2018 году: оказалось, что опыт был инсценировкой. На самом деле психоз одного из «заключенных», Дугласа Корпи, был хорошо разыгранной сценкой, а «охранники» придумывали изощренные наказания не сами — они получали ценные советы от организаторов. А значит, вопрос о том, в какой степени искусственно созданная иерархия меняет поведение людей, остается открытым.