Цифры врут. Как не дать статистике обмануть себя бесплатное чтение

Том Чиверс, Дэвид Чиверс
Цифры врут. Как не дать статистике обмануть себя

Посвящается нашим бабушке и дедушке —

Джин и Питеру Чиверсам

© Tom Chivers and David Chivers 2021

All rights reserved including the rights of reproduction in whole or in part in any form

© Designed by Luke Bird, 2021

Original front cover paper mockup by martyr

© Н. Шахова, перевод, 2022

© ООО «Индивидуум Принт», 2022

Введение

Цифрам неведомы чувства. Цифры не истекают кровью, не проливают слез, не питают надежд. Им не знакомы отвага и самопожертвование, любовь и преданность. На пике черствости вы найдете лишь нули и единицы.

Эми Кауфман и Джей Кристофф. «Иллюминэ»[1]

Цифры холодны и бесчувственны. Поэтому зачастую они вызывают неприязнь, и это вполне объяснимо. Во время написания этой книги газеты ежедневно сообщали о количестве умерших от COVID-19, пандемия которого в первой половине 2020 года завладела миром. Когда в Великобритании число погибших упало с тысяч всего до сотен, показалось, что виден свет в конце туннеля.

Но ведь каждый из скончавшихся от коронавируса был индивидуальностью, каждый был уникален. Можно говорить об их числе – к августу это 41 369 человек в Великобритании или 28 646 в Испании – или о том, сколько всего людей умрет к тому моменту, когда (если) пандемия закончится. Только сухие цифры ничего не сообщают нам об этих людях. А ведь у каждого из них своя история: кем они были, что делали, кого любили и кем были любимы. Их будут оплакивать.[2]

Представление всех погибших одним числом – «сегодня умерло Х человек» – кажется грубым и бездушным. Игнорируются печаль и горе. Устраняются индивидуальности и судьбы.

Но если бы мы не вели ежедневный учет смертей, не отслеживали распространение болезни, весьма вероятно, погибло бы еще больше людей. Еще больше уникальных личных историй оборвалось бы преждевременно. Просто мы бы не знали числа жертв.

В этой книге мы будем много говорить о числах: как их используют СМИ, что может пойти не так и как это может исказить реальную картину. Но по ходу дела постараемся не забывать: числа обозначают что-то конкретное. Часто – людей или что-то для людей важное.

Эта книжка в некотором роде математическая. Вы можете опасаться, что ничего не поймете, если вам кажется, что вы не в ладах с математикой. Но вы не одиноки. Похоже, чуть ли не все думают, что не разбираются в ней.

Дэвид преподает экономику в Даремском университете. Все его студенты получили высшую оценку (А) на школьном выпускном экзамене по математике, и тем не менее многие из них считают, что плохо разбираются в этом предмете. Том думает, что довольно плохо знает математику, хотя и выиграл две награды Королевского статистического общества за «статистическое совершенство в журналистике» (он любит время от времени невзначай упомянуть об этом). Дэвид тоже иногда думает, что плохо разбирается в математике, хотя и учит математике тех, кто уже неплохо ее освоил.

Возможно, и вы знаете математику лучше, чем вам кажется. Просто плохо считаете в уме. Когда мы думаем о тех, кто разбирается в математике, первыми в голову приходят люди вроде Кэрол Вордерман или Рэйчел Райли – ведущих телепередачи «Обратный отсчет», которые быстро считают в уме. Они-то, конечно, хорошие математики, но, если вы так не умеете, это еще не значит, что вы – плохой.

Принято думать, что в этой науке есть ответы верные и неверные. Зачастую это не так, по крайней мере в той математике, о которой мы говорим. Возьмем, к примеру, с виду простое, но такое печальное число – количество людей, умерших от коронавируса. Как его определить? Нужно ли учитывать только тех, у кого диагноз «COVID-19» был подтвержден тестом? Или просто вычислить количество «лишних» смертей, сравнив число умерших в этом году со среднегодовым показателем за последние несколько лет? Это будут два очень разных числа, и какое из них нам подходит, зависит от вопроса, на который мы хотим ответить. Ни одно из них не является неверным, но и правильным его не назовешь.

Важно понимать, почему эти числа неоднозначны и почему то, что порой кажется очевидным, на самом деле куда сложнее. Ведь числами легко затуманить смысл и сбить с толку, и многие (в особенности политики, но не они одни) пользуются этим. Различия в трактовках влияют на нашу жизнь, на способность участвовать демократических процессах. Тут так же, как с грамотностью. Демократическому государству трудно функционировать без грамотного населения: чтобы осознанно голосовать, избиратели должны понимать политические решения властей.

Но недостаточно понимать слова – нужно еще разбираться в цифрах. Новости всё чаще принимают числовую форму: число зарегистрированных полицией преступлений то увеличивается, то уменьшается; экономика страны растет или идет на спад; публикуются всё новые данные об умерших от ковида. Чтобы ориентироваться во всем этом, необязательно быть математиком, но нужно понимать, как числа подсчитываются, для чего применяются и какие с ними бывают подвохи. Иначе мы – как отдельные индивидуумы и как общество в целом – будем принимать неверные решения.

Иногда предельно ясно, как неверное истолкование статистики приводит к плохим решениям. Так, нельзя оценить адекватность антикоронавирусных мер, не зная точного числа заболевших. В других случаях – например, далее мы рассмотрим, вызывает ли бекон рак и повышает ли потребление газировки склонность к насилию, – опасность не так очевидна. При этом все мы, чтобы ориентироваться в мире, постоянно осознанно или неосознанно опираемся на числа. Пьем красное вино, занимаемся спортом, вкладываем средства – и всё это исходя из предположения, что преимущества (с точки зрения удовольствия, здоровья или богатства) перевешивают риски. Мы должны знать о них и оценивать их, чтобы делать разумный выбор. А представления о преимуществах и рисках мы зачастую получаем из СМИ.

Не стоит полагаться на то, что СМИ всегда дают точные числа без преувеличений и выбора эффектных ракурсов. И дело не в том, что медиа стремятся вас обмануть, – просто им нужно рассказывать об удивительных, интересных и поразительных вещах, чтобы вы покупали газеты и смотрели передачи. А еще потому, что они – и мы – жаждут историй, где у проблем есть очевидные причины и решения. Если же выбирать самые удивительные, интересные и поразительные числа, то многие из них вполне могут оказаться неверными или сбивающими с толку.

Кроме того, хотя журналисты обычно умны и (вопреки стереотипам) имеют добрые намерения, они, как правило, не очень ладят с числами. Поэтому числа, которые вы видите в СМИ, нередко неверны. Не всегда, но достаточно часто – не теряйте бдительности.

К счастью, пути искажения чисел бывают вполне предсказуемыми. Например, эффектный результат можно получить, выбрав какую-то экстремальную точку или удачное начало отсчета, а также многократно перебирая данные, пока не найдется что-то интересное. Результат можно преувеличить, если говорить не о реальном изменении, а о процентном. С помощью чисел создается видимость причинно-следственной связи там, где есть простая корреляция. Существует и масса других способов. Эта книга научит вас замечать некоторые из них.

Мы вовсе не утверждаем, что никаким цифрам из СМИ нельзя верить. Мы просто хотим научить вас разбираться, каким и когда верить можно.

Математику мы постарались свести к минимуму. Почти все, что похоже на уравнение, вынесено из основного текста в отдельные врезки. Их читать необязательно – вы и так все поймете.

Но мы не могли совсем обойтись без технических понятий, поэтому изредка в книге будут попадаться выражения типа p = 0,049 или r = —0,4; пусть они вас не пугают. Это лишь краткие формы записи совершенно простых житейских понятий – вы их, несомненно, легко поймете.

Книга разделена на 22 короткие главы. В каждой – на примерах, взятых из СМИ, – рассматривается какой-то один способ неправильной интерпретации чисел. Мы надеемся, что к концу каждой главы вы поймете, в чем проблема, и научитесь ее распознавать. Нам кажется, что лучше всего начать с чтения первых восьми глав – в них изложены идеи, которые помогут понять остальное. Но если вам нравится перескакивать с одного на другое – так тоже можно. Если мы опираемся на что-то уже описанное, то указываем на это.

В конце книги мы излагаем ряд предложений по совершенствованию работы СМИ – то, как можно избежать ошибок, которые мы обсуждаем. Мы надеемся, что эта книга станет своего рода руководством по правильной подаче статистики. Будет здорово, если вы посоветуете следовать ему тем СМИ, которые читаете или смотрите.

А теперь вперед.

Глава 1
Как числа могут вводить в заблуждение

Со статистикой врать легко, а без – еще легче.

Приписывается статистику Фредерику Мостеллеру

Из-за COVID-19 человечество прошло ускоренный (и весьма дорогостоящий!) курс статистики. Все были вынуждены в сжатые сроки познакомиться с экспоненциальными кривыми и интервалами неопределенности, ложноположительностью и ложноотрицательностью, усвоить разницу между уровнем инфекционной смертности и показателем летальности. Некоторые из этих понятий, бесспорно, сложны, но даже те, что на первый взгляд кажутся простыми, – например, количество умерших от вируса – на поверку вызывают затруднения. В первой главе мы рассмотрим, как обычные с виду числа могут удивительным образом сбивать с толку.

Одним из первых люди усвоили коэффициент распространения (R). Если еще в декабре 2019 года вряд ли хотя бы один человек из пятидесяти знал о нем, то уже к концу марта 2020-го этот показатель упоминался в новостях практически без всяких пояснений. Но поскольку числа могут вести себя очень коварно, искренние попытки сообщить аудитории об изменениях R вводили читателей и зрителей в заблуждение.

Напомним: R – это репродуктивное число чего-либо. Оно применимо ко всему, что распространяется или воспроизводится: мемам, людям, зевоте и новым технологиям. В эпидемиологии инфекционных болезней R – это число людей, которых в среднем заражает один заболевший. Если у инфекции коэффициент распространения равен пяти, то каждый инфицированный заражает в среднем пятерых.

Конечно, этот показатель не так прост: это всего лишь среднее. При R = 5 каждый из сотни человек может заразить ровно пятерых, но может случиться и так, что 99 человек не заразят никого, а один заразит 500 человек. Возможен и любой промежуточный вариант.

Причем с течением времени коэффициент распространения меняется. R может быть сильно больше в самом начале эпидемии, когда ни у кого еще нет иммунитета и никакие превентивные меры – социальное дистанцирование или ношение масок, – скорее всего, еще не приняты. Одна из задач здравоохранения в этот момент – с помощью вакцинации или выработки у населения новых привычек снизить R. Ведь если он выше единицы, инфекция будет распространяться экспоненциально, а если ниже – эпидемия сойдет на нет.

Но даже с учетом всех этих тонкостей можно было бы ожидать, что в случае вируса есть одно простое правило: если R растет, это плохо. Поэтому в начале мая 2020 года никого не удивлял тон сообщений, заполонивших британскую прессу: «коэффициент распространения вируса снова превысил единицу», вероятно из-за «скачка заболеваемости в домах престарелых».

Но, как обычно, всё несколько сложнее.

С 2000 по 2013 год медианная заработная плата в США выросла примерно на 1 % в реальном выражении (то есть с учетом инфляции).

Эту врезку читать необязательно, но, если вы не помните разницу между медианой и средним арифметическим, не пропускайте ее.

Понятия среднего арифметического, медианы и моды вы могли узнать в школе. Что такое среднее арифметическое, наверное, даже помните – нужно сумму нескольких чисел разделить на их количество. А медиана – это среднее число в последовательности чисел.

Разница вот в чем. Пусть население – 7 человек, причем один из них зарабатывает 1 фунт в год, один – 2 фунта и так далее – до 7. Если все эти числа сложить, получится 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. Разделив 28 на число людей (7), получим 4 фунта. Среднее арифметическое – 4 фунта.

А чтобы узнать медиану, числа не складывают, а располагают по возрастанию: с левого края заработок в 1 фунт, потом – 2, и так до 7 с правого края. Так вы увидите, кто оказался в середине – человек, получающий 4 фунта. Так что и медиана у нас равна 4 фунтам.

Теперь представим, что тот, кто зарабатывает 7 фунтов, продает свой технический стартап компании Facebook за миллиард. Наше среднее арифметическое внезапно становится равно (1 + 2 + 3 + 4 + 5 + 6 + 1 000 000 000) / 7 = 142 857 146 фунтам. Таким образом, хотя положение 6 из 7 человек никак не изменилось, «среднестатистический гражданин» стал мультимиллионером.[3]

В подобных случаях неравномерного распределения статистики часто предпочитают иметь дело с медианой. Если мы снова выстроим людей по порядку возрастания их зарплат, то в середине опять окажется тот, кто зарабатывает 4 фунта. При изучении реального населения, состоящего из миллионов человек, медиана дает лучшее представление о ситуации, чем среднее арифметическое, особенно если оно искажено зарплатами нескольких суперпреуспевающих работников.

А мода – это самое частое значение. Поэтому, если у вас есть 17 человек, зарабатывающих по 1 фунту, 25 – по 2 и 42 – по 3, то мода – 3 фунта. Все несколько усложняется, когда статистики принимаются с помощью моды описывать непрерывные величины вроде высоты, но об этом мы пока постараемся не думать…

Кажется, что рост медианной заработной платы – это хорошо. Но если рассмотреть отдельные группы населения США, то можно обнаружить нечто странное. Медианный заработок тех, кто окончил только среднюю школу, снизился на 7,9 %; тех, кто окончил старшие классы, – на 4,7 %. Медианный заработок людей с неполным высшим образованием снизился на 7,6 %, а с высшим образованием – на 1,2 %.

Окончившие и не окончившие старшие классы, окончившие и не окончившие колледж – медианная зарплата во всех группах с определенным уровнем образования снизилась, хотя медианная зарплата населения в целом повысилась.

Как так?

Дело в том, что количество людей с высшим образованием увеличилось, а их медианный заработок снизился. В результате с медианой происходят странности. Это называется парадоксом Симпсона – в 1951 году его впервые описал британский дешифровщик и статистик Эдвард Симпсон. Парадокс распространяется не только на медианы, но и на среднее арифметическое – однако в нашем примере мы поговорим о медианах.

Предположим, что население – 11 человек. Трое из них не пошли в старшие классы и зарабатывают по 5 фунтов в год; трое окончили школу и зарабатывают по 10; трое бросили университет и зарабатывают по 15; а двое закончили бакалавриат и зарабатывают по 20 фунтов. Медианная зарплата такой популяции в целом (то есть зарплата среднего человека при таком распределении доходов, см. врезку на предыдущей странице) составляет 10 фунтов.

Потом правительство проводит кампанию по стимуляции населения к продолжению учебы в старших классах и в университетах. При этом медианная зарплата в каждой группе уменьшается на 1 фунт. Внезапно оказывается, что школу не закончили двое и они получают по 4 фунта, двое выпускников школы зарабатывают по 9, двое бросивших университет – по 14, а пять выпускников университета – по 19. В каждой группе медианная зарплата уменьшилась на 1 фунт, но у населения в целом она выросла с 10 фунтов до 14. Вот и в американской экономике в период с 2000 по 2013 год случилось нечто подобное, только в более крупных масштабах.



Такое происходит на удивление часто. Например, чернокожие американцы курят чаще, чем белые, но если разбить их на группы по уровню образования, то оказывается, что в каждой из них чернокожие курят реже. А все потому, что среди более образованных граждан, где процент курящих меньше, ниже доля чернокожих.

Или вот еще один широко известный пример. В сентябре 1973 года в аспирантуру Калифорнийского университета в Беркли подали заявки 8000 мужчин и 4000 женщин. Из них было принято 44 % мужчин и только 35 % женщин.

Но если посмотреть повнимательнее, то можно заметить: почти на всех факультетах у женщин было больше шансов поступить. Самый популярный факультет принял 82 % подавших заявки женщин и лишь 62 % мужчин; второй по популярности – 68 % женщин и 65 % мужчин.

Тут дело в том, что женщины подавали заявки на факультеты с самым большим конкурсом. На один из факультетов было подано 933 заявки, из которых 108 подали женщины. Зачислили 82 % женщин и 62 % мужчин.

В то же время на шестой по популярности факультет было подано 714 заявок, из них 341 от женщин. Здесь поступили 7 % женщин и 6 % мужчин.

Но если сложить данные по этим двум факультетам, то на них поступало 449 женщин и 1199 мужчин. Было принято 111 женщин (25 %) и 533 мужчины (44 %).

Еще раз: на каждом из факультетов в отдельности у женщин было больше шансов поступить, а на двух вместе – меньше.

Как это лучше всего представлять? Зависит от обстоятельств. В случае с зарплатами американцев можно считать медианы более информативными, потому что медианный американец стал зарабатывать больше (поскольку теперь больше американцев оканчивают колледжи и школы). А в случае с аспирантами можно говорить о том, что, какой бы факультет ни выбрала женщина, у нее больше, чем у мужчины, шансов поступить в аспирантуру. Но с таким же успехом можно говорить о том, что для людей, не окончивших школу, ситуация ухудшилась; и можно отметить, что тем факультетам, на которые хотят поступать женщины, явно не хватает ресурсов: они могут принять лишь небольшую долю подавших заявки. Беда в том, что в ситуациях парадокса Симпсона можно высказывать противоположные точки зрения – в зависимости от вашей политической позиции. Честнее всего тут было бы сообщать о наличии этого парадокса.

А теперь вернемся к коэффициенту распространения COVID-19. Он вырос, стало быть, вирус поражает больше людей, а это плохо.

Только все не так просто. Одновременно происходили две как бы отдельные эпидемии: в домах престарелых и больницах болезнь распространялась не так, как в стране в целом.

Мы не знаем точных цифр, потому что такие подробности не публиковались. Но мы можем провести мысленный эксперимент сродни описанному выше. Предположим, что в домах престарелых было 100 заболевших, а еще 100 – вне их. В среднем каждый больной в домах престарелых заражает троих, а вне их – двоих. Тогда коэффициент распространения (среднее число людей, зараженных одним носителем инфекции) равен 2,5.

Затем объявляется локдаун. Количество заболевших снижается, и R тоже снижается. Но – и это важный момент – в домах престарелых снижение не такое сильное, как вне их. Теперь в них 90 человек, каждый передает инфекцию в среднем 2,9 людей, а в стране 10 заболевших, передающих вирус в среднем одному человеку. Поэтому теперь R = 2,71. Он вырос! Но в обеих группах снизился.[4]

Как правильно это рассматривать? Опять-таки ответ неочевиден. Вас может в первую очередь волновать значение R, потому что на самом деле наши две эпидемии не разделяются. Тем не менее ситуация явно не сводится к утверждению: когда R растет, это плохо.

Парадокс Симпсона – один из примеров более общей проблемы, называемой «экологической ошибкой», когда вы пытаетесь судить об отдельных людях или подгруппах по средним для группы значениям. Экологическая (или популяционная) ошибка встречается чаще, чем можно предположить. Читателям и журналистам важно понимать, что общая величина не всегда отражает реальность, а чтобы досконально разобраться в ситуации, следует копать глубже.

Глава 2
Отдельные наблюдения

В 2019 году сразу две газеты, Daily Mail и Mirror, написали о женщине, которая, узнав, что у нее терминальная стадия рака, прошла альтернативное лечение в мексиканской клинике. Ее терапия «включала гипербарическую оксигенацию, общую гипотермию, инфракрасное облучение, воздействие импульсного электромагнитного поля, кофейные клизмы, посещения сауны и внутривенное введение витамина С». И опухоль резко уменьшилась.

Мы предполагаем, что большинство читателей этой книги относятся к подобным историям со здоровым скептицизмом. Но этот случай – прекрасная отправная точка для понимания того, как числа могут вести к неверным выводам. На первый взгляд кажется, что здесь нет никаких чисел, однако одно неявно присутствует – единица. История одного человека служит основой для доказательства утверждения. Это пример того, что мы называем отдельным наблюдением (anecdotal evidence).

У таких доказательств плохая репутация, но назвать все такие рассуждения принципиально неверными нельзя. Как мы обычно решаем, где правда, а где ложь? Очень просто: проверяем утверждение сами или слушаем людей, проверивших его.

Если мы прикоснулись к горячей сковородке и обожглись, то мы, опираясь на этот единственный случай, приходим к выводу, что горячие сковородки обжигают и всегда будут обжигать и что их лучше не трогать. Более того: если кто-то скажет, что сковородка горячая и что мы обожжемся, если ее коснемся, мы легко в это поверим. Нас убеждает опыт других людей. В этом примере можно обойтись без всякого статистического анализа.

В жизни такой подход почти всегда срабатывает. Обучение на базе рассказа или личного опыта – когда человек делает вывод на основе отдельного наблюдения – довольно эффективно. Но почему? Почему единичное наблюдение тут годится, а в других случаях – нет?

Потому что еще одно прикосновение к горячей сковородке почти наверняка даст тот же результат. Можете трогать ее раз за разом – будьте уверены: вы каждый раз обожжетесь. Это нельзя доказать со стопроцентной уверенностью: возможно, на 15 363 205-й раз поверхность покажется холодной. Или на 25 226 968 547-й. Можно продолжать трогать сковородку до скончания века, чтобы убедиться – хотя вряд ли оно того стоит, – что она всегда обжигает. Но большинству людей достаточно один раз обжечься.

Есть и другие события, которые всегда происходят одинаково. Если отпустить что-то тяжелое, оно непременно упадет. Это неизменно, если вы находитесь на Земле. Как событие произошло в первый раз, так оно и будет происходить всегда. В статистике про такие события говорят, что они репрезентативны для распределения событий.

Отдельных случаев трудно избежать. Мы будем опираться на них на протяжении всей книги, показывая на конкретных примерах, какие ошибки делают СМИ. Надеемся, вы поверите, что они типичны и наглядно демонстрируют, что иной раз творится с числами.

Проблемы возникают, когда вы опираетесь на примеры в менее предсказуемых ситуациях, где распределение событий не так очевидно. Например, вы не сковородку трогаете, а гладите собаку, и она вас кусает. Разумно впредь проявлять большую осторожность, но не стоит считать, что, прикасаясь к собаке, вы обречены на укус. Или вы выпускаете из рук не что-то тяжелое, а воздушный шарик. Вы видите, как он поднимается и ветер сносит его на запад, но нельзя сделать вывод, что выпущенный из рук шарик всегда летит в этом направлении. Беда в том, что трудно определить, какие ситуации однотипны и предсказуемы (как случаи с горячей сковородой или брошенным камнем), а какие – нет (как с шариком).

Эта проблема характерна для медицины. Допустим, вас мучает головная боль – и вы принимаете какое-то лекарство, например парацетамол. Многим людям он помогает. Но заметной доле пациентов – нет. У каждого из них своя история, свой случай, когда лекарство не сработало, хотя в среднем оно и снижает боль. Ни один случай, ни несколько не дают полной картины.

А вот СМИ любят ссылаться на конкретные истории. Например: «Я вылечил хроническую боль в пояснице с помощью пластыря стоимостью в 19 фунтов, хотя врачи не хотели мне его прописывать», – цитировала Гари из Эссекса газета Mirror в марте 2019 года. Гари годами страдал от остеохондроза и был вынужден уйти на пенсию в 55. Он жил на чудовищной смеси болеутоляющих и противовоспалительных и тратил на нее тысячи фунтов в год. А потом стал применять пластырь ActiPatch, который «с помощью электромагнитных импульсов стимулирует нейромодуляцию нервов, помогая подавить болевые ощущения». Вскоре ему удалось вдвое снизить дозу болеутоляющих. Помог ли ему пластырь? Возможно. Но из самой истории этого узнать нельзя.

Согласно систематическому обзору, опубликованному в British Medical Journal в апреле 2010-го, в мире каждый десятый страдает от боли в пояснице (в одной Великобритании – это миллионы людей). Ощущения весьма неприятные, а врачи особо ничем, кроме болеутоляющих и упражнений, помочь не могут, поэтому пациенты нередко обращаются к альтернативной медицине, применяя пластырь ActiPatch или что-то аналогичное. Причем порой кому-то становится лучше независимо от того, лечится он или нет.

Так что довольно часто пациент обращается к новому нетрадиционному средству и при этом ему становится лучше. Но довольно часто эти события никак между собой не связаны. Поэтому отдельные случаи того, как кому-то помогло какое-то средство, могут оказаться мнимыми.

Ситуацию усугубляет то, что СМИ любят новости. Они старательно выискивают самые интересные, удивительные или трогательные – в общем, привлекающие внимание сообщения. Журналистов трудно в этом винить – не могут же они рассказывать о будничной жизни среднестатистического гражданина. Просто это означает, что удивительные истории чаще попадают в газеты, чем обычные.

Уточним: это необязательно относится к Гари с его пластырем. Если свидетельство неубедительно, это еще не значит, что вывод неверный. Возможно, пластырь действительно эффективен (есть некоторые свидетельства, что такие средства помогают, а американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов в 2020 году разрешило применять ActiPatch для лечения спины), и, возможно, Гари он помог. Просто его история не дает оснований для такого вывода. Если раньше мы не верили в лечебные свойства ActiPatch, то и теперь нет причины.

Неприятно, когда болит поясница, и это, конечно, накладывает на жизнь Гари жесткие ограничения. И если, прочтя его историю, товарищи Гари по несчастью станут использовать пластырь в надежде, что он поможет, в этом нет ничего плохого. Иногда даже наоборот: если лечение окажется успешным, снизит боль за счет эффекта плацебо или просто даст надежду на исцеление (хоть за это и заплатит система здравоохранения или сам пациент).

Иные истории звучат смешно. Например, в другой публикации газеты Mail в 2019 году рассказывается о шестерых излечившихся от псориаза. Они использовали гомеопатические средства, основанные на змеином яде, рвотных массах кита, протухшем мясе и «гное из уретры больного гонореей».

Порой о таких рецептах говорят, что «вреда-то нет». Но иногда – в начале главы мы рассказывали о женщине, лечившейся альтернативными средствами от рака, – все обстоит серьезнее. Уточним: нет никаких убедительных оснований считать, что гипербарическая оксигенация или кофейные клизмы помогают от онкологических заболеваний. Но есть все основания полагать, что многие отчаявшиеся онкологические больные – а их миллионы – готовы бороться с болезнью самыми экстремальными способами и что иногда таким больным становится лучше. Причем, как и в случае с Гари и его поясницей, существует огромная вероятность совпадения этих двух событий.

Возможно, что кофейные клизмы не принесли вреда женщине, лечившейся от рака с их помощью: если опухоль уменьшилась, это прекрасно независимо от того, помог ли ей кофе. И, возможно, альтернативные методы дали ей надежду. Но опасно, если человек откажется от обращения к доказательной медицине, прочитав в газете, как кому-то помогла терапия импульсным электромагнитным полем (что бы это ни значило!). Вот почему важно, чтобы мы – как общество – понимали роль опыта: когда на него можно опираться, а когда – нет. Это относится к отдельным случаям, но не только к ним, а вообще ко всему, изложенному в этой книге, когда числа становятся сложнее и в них все проще ошибиться.

Мы не утверждаем, что отдельные наблюдения бесполезны. В жизни мы постоянно (и весьма успешно!) ими пользуемся: это очень неплохой ресторан, вам понравится этот фильм, его новый альбом – полный отстой. Но когда мы узнаем о них из прессы, крайне высока вероятность случайного совпадения, поэтому их польза весьма сомнительна.

В следующей главе мы поговорим о том, что происходит, когда числа становятся немного больше, и почему это немного лучше, но лишь немного.

Глава 3
Размеры выборки

Легче ли поднимать тяжести, когда бранишься? Несомненно, если судить по статье из газеты The Guardian. И в это нетрудно поверить: кто из нас не ругался на чем свет стоит, пытаясь поднять по лестнице икеевский шкаф, опрометчиво собранный не там, где надо. Возможно, это и помогало.

В той статье ссылались на исследование, проведенное в Кильском университете. В предыдущей главе мы говорили о том, как могут вводить в заблуждение новости, основанные на отдельных случаях. Лучше опираться на научные работы, не так ли?

Отчасти. Но не все научные исследования устроены одинаково.

Если вас не убеждает опыт одного человека, то опыт скольких людей убедит? Жесткого правила тут нет. Представим: вы хотите что-то узнать – например, рост британских мужчин. Вы – инопланетянин, британцев в глаза не видели и не имеете о них ни малейшего представления. Может, их рост – всего несколько микронов, а может – со звездное скопление. Откуда вам знать?

Если выстроить по росту всех британских мужчин до единого и измерить их, то вы увидите полную картину: очень высоких и очень низких людей мало и чаще встречаются люди среднего роста. Но чтобы узнать это, придется изрядно постараться, и даже размахивание гауссовым бластером не поможет. Вместо этого можно ограничиться выборкой.[5]

Выборка – это небольшая часть чего-то, отражающая, как вы надеетесь, часть целого. Бесплатная выпечка, выставленная у местной булочной, дает представление обо всем ассортименте; ознакомительный фрагмент электронной книги дает представление о книге в целом. Статистическая выборка делает то же самое.

И вот вы начинаете измерять рост случайных прохожих, создавая выборку населения. Если не повезет, то первым вам попадется человек ростом аж в 2 м 13 см. Это даст вам хоть какую-то информацию: гипотеза о том, что британские мужчины ростом со звездные скопления, становится гораздо менее правдоподобной. Но если вы сделаете вывод, у всех них рост 2 м 13 см, то сильно ошибетесь. (Еще одна иллюстрация того, что отдельные случаи не могут служить доказательством.)

Все это вы знаете, поэтому продолжаете измерять прохожих. Вы чертите простой график: каждый раз, когда вам встречается мужчина ростом 1 м 56 см, вы добавляете штрих в колонку «1 м 56 см»; если же рост прохожего составляет 1 м 85 см, вы добавляете штрих в колонку «1 м 85 см», и так далее.

Вы заметите, что по мере увеличения числа измерений график приобретает определенную форму. У вас окажется много отметок возле середины и меньше по краям. Получится что-то вроде арки старинного каменного моста. Самое большое число отметок окажется возле значения 1 м 78 см, почти столько же – около 1 м 73 см и 1 м 85 см, и совсем мало – по краям. Это будет кривая, напоминающая нормальное распределение – знаменитый «колокол», – с осью симметрии на значении роста среднего британского мужчины.[6]

Полностью колокол сформируется, когда вы измерите рост тысяч людей, а поначалу он будет неровным. Если не повезет и вам попадется несколько слишком высоких или слишком низких людей, то кривая выйдет искаженной. Но если вы измеряете рост действительно случайных прохожих, то в среднем чем больше людей вы измерите, тем ближе окажетесь к среднему значению всего населения. (Если ваша выборка не случайна, то возникнут другие проблемы – см. главу 4 «Смещенные выборки».)



Необходимо также учесть, насколько рост людей отклоняется от среднего. Предположим, что средний рост составляет 1 м 78 см. Если почти все люди такого роста и лишь некоторые – 1 м 83 см и 1 м 73 см, то ваш колокол окажется высоким и узким. Если же многие люди ростом 1 м 47 см а многие – 2 м 8 см и любое значение из этого промежутка тоже встречается часто, то колокол будет более широким и плоским. Такую вариативность данных описывает переменная, называемая дисперсией (см. график на следующей странице).

Если дисперсия невелика, то вероятность встретить значения, сильно отличающиеся от среднего, мала, и наоборот.


Эту врезку читать необязательно, но, если вы хотите узнать, как работают размер выборки и нормальное распределение, не пропускайте ее.

Роль выборки удобно демонстрировать на примере игры в кости. Она сводится к тому, что бросаются два кубика, а очки на них суммируются.

Таким образом можно получить 11 различных результатов – от 2 до 12. Но вероятности их выпадения разные.

Представим, что мы сначала бросаем одну кость, а потом – другую. Если на первой выпало 1, то, что бы ни было на второй, 12 в сумме не получить. А если выпало не 1, то в сумме не выйдет 2. Число X на первой кости ограничивает сумму значениями от X + 1 до X + 6.

При этом сумму 7 можно получить всегда, независимо от того, что выпало при первом броске. Если 6, то 7 выйдет, если на второй кости выпала единица. Если на первой выпало 2, а на второй 5, в сумме получится 7. И так далее, вплоть до 6 на первой кости и 1 на второй. Поэтому независимо от значения первой кости вы получите в сумме 7 с вероятностью 1/6.

Кости могут выпасть в общей сложности 36 комбинациями. В шести случаях сумма равна 7, так что вероятность получить 7 равняется 6/36, или 1/6. В пяти случаях сумма равна 8, и в пяти – 6. В четырех – 9 и в четырех – 5. И так далее. А вот 2 можно получить только одним способом, и 12 – тоже одним.

Это можно доказать математически, как мы только что сделали, но в этом можно убедиться и на практике, бросая кости. Бросив их 36 раз, вы вряд ли получите в точности шесть раз 7, пять – 6 и т. п. Но если сделать это миллион раз, то сумма 7 выпадет практически в точности в 1/6 части случаев, а 2 – один раз из 36.

Предположим, вы хотите эмпирически определить, как часто на двух костях в сумме выпадает 7. Основной принцип тут такой: чем больше раз вы бросите кости, тем больше размер выборки и тем точнее окажется ваш прогноз, сколько раз сумма будет равна 7.

Если бросить кости 20 раз, то с вероятностью 95 % количество 7 будет в интервале от 1 до 6. Это 6 возможных вариантов – более 25 % от общего числа вариантов.

Если бросить кости 100 раз, то с вероятностью 95 % количество семерок будет в интервале от 11 до 25: всего 15 % от возможного числа вариантов.

Если бросить кости 1000 раз, то с вероятностью 95 % количество семерок будет в интервале от 140 до 190. Число вариантов сузилось до 4,6 % от общего числа.

То же самое произойдет для любой другой суммы: число двоек будет все больше приближаться к 1/36, как и две шестерки; такая закономерность сохранится и для всех промежуточных чисел.

Включая в свою выборку все большее число бросков, вы будете все ближе к «правильному» распределению.

* Тех, кто дочитал до этого места, ждет небольшой приз. Вас могут позабавить проблемы, возникшие у Джо Уикса (этот доброхот помогал Великобритании пережить локдаун физкультурными занятиями на ютубе, которые он проводил ежедневно из своей гостиной). Он пытался внести в выпуски элемент случайности – присвоил упражнениям номера от 2 до 12 и бросал кости, но был неприятно удивлен, что упражнение № 7 («бёрпи») приходилось делать намного чаще, чем № 2 (прыжок звездой). Поняв свою ошибку, Уикс заменил кости рулеткой.

С ростом мужчин у вас получилось простое распределение вокруг среднего значения. Если вы действительно выбираете мужчин случайным образом, то чем больше вы их измерите, тем больше ваша выборка будет напоминать популяцию в целом, точно так же как в примере с костями из врезки.

Но, предположим, вы хотите выяснить что-то другое – например, выздоравливают ли пациенты, принимающие определенное лекарство, быстрее не принимающих. В этом случае вы измеряете не одну величину, а две: насколько быстро выздоравливают те, кто принимает лекарство, и те, кто его не принимает.

Вы хотите узнать, есть ли различия между этими группами. Однако тут, как и в случае с измерением роста, бывают случайные отклонения. Если взять двух пациентов и одному давать лекарство, а другому – нет, то принимающий лекарство может выздороветь быстрее просто за счет более крепкого здоровья.

Поэтому вы берете целый коллектив больных и случайным образом разделяете его на две группы: одной даете лекарство, а другой – плацебо. Затем вычисляете среднее время, за которое идет на поправку каждая из них, точно так же как вы вычисляли средний рост мужчин. По сути, вы делаете то же самое: изучаете выборку из одной популяции (тех, кто принимал лекарство) и другой (тех, кто не принимал). Если окажется, что первая в среднем выздоравливает быстрее, то логично предположить, что лекарство ускоряет выздоровление.

Беда в том, что здесь, как и при измерении роста, притаилась опасность: в первой группе случайно окажутся все более здоровые люди или по крайней мере значительная их часть. Тогда создастся впечатление, что лекарство ускоряет выздоровление, хотя на самом деле эти пациенты и так поправились бы быстрее.

Конечно, чем больше будет ваша выборка, тем меньше вероятность, что такие случайные вариации повлияют на результат. Вопрос: сколько нужно изучить пациентов для надежной оценки? Ответ: бывает по-разному.

Это зависит от множества факторов, но один из самых главных – величина изучаемого эффекта. Чем она меньше, тем больше людей нужно обследовать – по-научному, тем большая «статистическая мощность» требуется. Если вдуматься, это совершенно очевидно. Для ответа на вопрос «Вреден ли для здоровья выстрел в голову?» не нужна выборка из десяти тысяч человек.

Возвращаясь к исследованию о ругани: можно предположить, что если ругань и придает сил, то лишь самую малость. Иначе мы бы это заметили, а финал Олимпийских игр по тяжелой атлетике приходилось бы транслировать в вечернее время (когда в эфире допустимы бранные выражения).

То исследование включало два эксперимента по измерению силы. В одном было 52 участника, а во втором – 29. Стоит отметить, что схема этих экспериментов слегка отличалась от описанной выше. Некоторых людей просили поднимать тяжести и ругаться, а других – выкрикивать небранное слово, как в описанном нами исследовании про лекарство. Потом группы поменяли местами: тех, кто не бранился, просили браниться, и наоборот. В обоих случаях измеряли силу в обеих группах. Такие исследования называются внутрисубъектными – они позволяют снизить проблемы с небольшими выборками.

Как уже говорилось, нужный размер выборки зависит от разных факторов, включая величину изучаемого эффекта. И существуют статистические хитрости, позволяющие снизить вероятность получения случайного результата.

Однако опыт показывает, что следует с осторожностью относиться к исследованиям с менее чем сотней участников, особенно если получаются какие-то удивительные или малозаметные результаты. По мере роста числа участников исследования – при прочих равных – доверие к его результатам повышается. Не исключено, что, бранясь, становишься сильнее, но нас бы это до чертиков удивило.

Опять же – это все развлечение и игра: кому реально важно знать, прибавляет ли ругань сил? Если так и есть, то это удивительный, но вряд ли жизненно важный факт.

Во многих других случаях дело обстоит иначе. В первой половине 2020-го, когда мир судорожно искал средство – какое угодно – для лечения или профилактики ковида, научные статьи и препринты (ранние версии научных статей, еще не одобренные рецензентами) заполонили интернет. В одной из них рассматривалось влияние на коронавирус антималярийного препарата гидроксихлорохина. Как и в случае исследования брани, оно было контролируемым (хотя и не рандомизированным). Оно привлекло такое внимание, что некий Дональд Трамп упомянул о нем в своем твите. В исследовании утверждалось, что «лечение гидроксихлорохином достоверно приводило к снижению вирусной нагрузки или полной элиминации вируса COVID-19 у пациентов с коронавирусной инфекцией».

В эксперименте задействовали 42 человек: экспериментальной группе (26 пациентов) давали гидроксихлорохин, контрольной (16 испытуемых) – нет. Даже если бы это исследование было идеально проведено со всех остальных точек зрения (а это не так), оно все равно являлось бы сомнительным из-за небольших размеров выборки. Точно так же как брань может придавать сил, так и гидроксихлорохин может как-то влиять на ковид. Но так же вероятно, что он не оказывает никакого влияния, а возможно, и наносит серьезный вред. Исследование не дает уверенных оснований для вывода. Тем не менее СМИ раструбили о нем всему миру.

Глава 4
Смещенные выборки

В апреле 2020-го The Sun и Daily Mail опубликовали сенсационную новость: любимый локдаунский перекус британцев – барабанная дробь! – тосты с сыром. Это горячее молочно-цельнозерновое блюдо получило 22 % голосов и опередило чипсы с сыром и луком всего на 1 %, отбросив конкурента с его 21 % на близкое, но все равно обидное второе место. Также в группу лидеров вошли сэндвичи с беконом (19 %), шоколадные кексы (19 %) и крекеры с сыром (18 %).

В предыдущей главе мы видели, как выборки небольшого объема, случайно оказавшись неудачными, искажают результаты. Вывод же о перекусах делался на основе опроса онлайн-банка Raisin, в котором участвовало две тысячи человек. Звучит убедительно?

Только вот исследование может оказаться недостоверным и по другим причинам. Самая очевидная – выборка не представляет население в целом.

Ранее мы проводили мысленный эксперимент – вычисляли средний рост населения, измеряя случайных прохожих. А теперь представьте, что вы делаете это на съезде баскетболистов, – и мимо вас – внезапно – дефилируют толпы двухметровых людей. Средний рост в вашей выборке резко подскочит, хотя для населения в целом останется неизменным.

Такая выборка называется смещенной, или предвзятой. Обычно так говорят о людях: судья предвзято относится к моей команде; СМИ предвзято подходят к моей любимой политической партии. Статистическая предвзятость – про то же самое. Представьте, что вы проводите опрос – «Назовите лучший футбольный клуб за всю историю Англии?» – сначала на Энфилд-Роуд, а потом на Сэр Мэтт Басби-Уэй. Вы получите совершенно разные результаты, потому что у вас будут совершенно разные выборки. [7][8]

Вред от смещенных выборок отличается от вреда маленьких. При выборе небольших групп случайным образом вы, по крайней мере, при увеличении размеров выборки приближаетесь к точному результату. А при смещенных выборках этого не происходит – будет расти лишь ваша уверенность в неверном результате.

Например, в преддверии общенациональных выборов 2019 года Джереми Корбин, тогдашний лидер лейбористской партии, и Борис Джонсон, премьер-министр и лидер тори, провели теледебаты.

После этого компания YouGov, специалист по политопросам, выяснила, что среди телезрителей мнения о том, кто же был убедительнее, разделились почти поровну: 48 % считали, что Джонсон, 46 % – Корбин и еще 7 % не могли определить победителя. (Да, в сумме получается 101 %. Так бывает, если округлять числа до ближайшего целого.)

Это вызвало споры в интернете. В одном вирусном твите (более 15 000 лайков на настоящий момент) упоминалось, что результаты других опросов резко отличались от данных YouGov[9] (см. рисунок на следующей странице).

Четыре из пяти опросов показали, что Корбин явно выиграл дебаты. У единственного, давшего иной результат, объем выборки был в несколько раз меньше, чем у каждого из остальных. Тем не менее только его и цитировали на всех новостных каналах. Говорит ли это о предвзятом отношении СМИ к Корбину?

Скорее, это пример смещенных выборок. Те четыре опроса проводились в твиттере. Обычно это – просто безобидное развлечение (полуфинал мировой лиги чипсов: Monster Munch Pickled Onion против Walkers Cheese & Onion и т. д.). Но иногда вопросы бывают политическими.[10]

Беда в том, что твиттер не представляет всего населения. Соцсетью пользуется 17 % британцев, и среди них, согласно опросу 2017 года, больше молодежи, женщин и представителей среднего класса, чем в целом по стране. А молодежь, женщины и средний класс чаще голосуют за лейбористов. (Ну и, конечно, те, кто увидел эти опросы и поучаствовал в них, не представляют твиттер в целом.)



Большее число опрошенных делу не помогло бы. Проблема сохранилась бы, ведь выборка оставалась бы нерепрезентативной. Даже миллион человек – это все равно опрос пользователей твиттера, а не населения страны. Вы бы получили только более точное значение неверного ответа.

Репрезентативную выборку вообще получить очень трудно. Опрашивая людей в твиттере, вы не узнаете мнения тех, кто им не пользуется. То же самое верно и во всех других случаях. Если проводить опрос в интернете, вы упустите из виду тех, у кого его нет; если на улице, то не охватите тех, кто сидит дома. Раньше при проведении политических опросов было принято обзванивать респондентов, потому что стационарные телефоны стояли почти у каждого и так можно было без труда получить случайную выборку – просто выбирая номера случайным образом. Но в наше время этот способ даст сильно смещенную выборку, потому что те, у кого есть домашние телефоны (и кто отвечает на звонки с неизвестных номеров), отличаются от тех, у кого их нет.[11]

Есть способы, которые отчасти помогают обходить подобные трудности при выборе респондентов. Но идеала достичь невозможно: никого нельзя заставить участвовать в опросе, поэтому вам никогда не удастся полноценно представить тех, кто их ненавидит. Так что приходится идти обходным путем – снабжать результаты весами.

Представьте, что, согласно переписи, и мужчины, и женщины составляют по 50 % населения. Вы проводите опрос, стараясь получить максимально репрезентативную выборку. Из вашей тысячи респондентов 400 – женщины и 600 – мужчины. Вы задаете вопрос: «Нравится ли вам сериал „Анатомия страсти“?» Оказывается, что 400 человек его любят, а 600 – нет. Можно было бы решить, что «Анатомии страсти» симпатизирует 40 % населения. Но, уточнив данные, вы обнаруживаете гендерный перекос: сериал нравится 100 % женщин и 0 % мужчин.

Вы получили 40 % потому, что ваша выборка не репрезентативна для населения страны в целом. К счастью, это легко исправить. Достаточно присвоить результатам веса. Вы знаете, что в вашей выборке женщин всего 40 %, хотя должно быть 50 %. И поскольку 50 на 25 % больше 40, увеличиваете 400 ответов «да» на 25 % и получаете 500.

С мужчинами делаете то же самое. В вашей выборке их 60 %, а в несмещенной должно быть 50 %. 50 составляет 0,833… от 60, следовательно, здесь вес составит 0,833…

Поэтому полученный вами результат 600 вы умножаете на 0,833… и получаете 500. Теперь взвешенные результаты показывают, что 50 % населения нравится сериал «Анатомия страсти».

Можно действовать более тонко. Например, если оказалось, что 50 % ваших респондентов на последних выборах голосовали за консерваторов, а вы знаете, что страна в целом отдала за них 40 % голосов, а за лейбористов – 35 %, то можете снабдить свою выборку соответствующими весами. Или, если в выборке преобладают люди старшего возраста, потому что вы со своими расспросами звонили на домашние телефоны, но вы знаете распределение населения по возрастам, то у вас тоже получится скорректировать это с помощью весов.

Конечно, это можно использовать, только когда вам известны точные статистические сведения. Если же вы думаете, что женщин и мужчин поровну, а на самом деле их 60 % и 40 %, то введение весов только ухудшит результаты. Но реальные цифры часто известны из результатов переписи или голосования.

Есть и другие способы смещения выборки. Первой приходит на ум формулировка вопроса. Например, если вы спрашиваете, дать ли лекарство 600 пациентам, ответ будет разным в зависимости от того, скажете ли вы, что «200 человек будет спасено» или что «400 человек умрут», хотя с точки зрения логики эти формулировки равноправны. Этот эффект обрамления (фрейминга) проявляет себя при опросах. На односложные вопросы (типа: должно ли государство оплачивать лечение?) чаще отвечают «да».

Ну и как? Правда ли, что британцы больше всего любят перекусывать тостами с сыром? Не исключено, что raisin.co.uk серьезно озаботилась репрезентативностью выборки и даже ввела веса для учета возрастных, гендерных и электоральных особенностей населения, но так ли это, мы просто не знаем. (Мы спрашивали! И если нам ответят, мы учтем это при переиздании, честное слово.)

Но тратить столько сил на чисто развлекательный опрос было бы довольно странно – мы бы удивились, если б они это сделали. Скорее всего, они просто разместили в сети анкету и получили ответы преимущественно от тех, кто участвует в интернет-опросах.

Вопрос в том, совпадают ли вкусы отвечавших и населения в целом. Могут и совпадать. Но этого мы не знаем. Знаем только, что из двух тысяч опрошенных ими людей 22 % выбрали тосты с сыром. Ну да, факт интересный сам по себе – из него следуют некоторые выводы в отношении этих двух тысяч. Но скорее всего, это мало что говорит обо всех британцах.

Глава 5
Статистическая значимость

Верно ли, что мужчины больше едят в присутствии женщин, чтобы произвести на них впечатление? Так утверждалось в новости, вышедшей в 2015 году в The Daily Telegraph. Об этом же исследовании писали и в Reuters, и в The Economic Times в Индии.

В тех публикациях говорилось, что в присутствии женщин мужчины едят на 93 % больше пиццы и на 86 % больше салата, чем в присутствии других мужчин. Они опирались на исследования Брайана Вансинка, психолога из лаборатории пищевых продуктов и торговых марок Корнеллского университета, и двух его соавторов.

Вы уже могли догадаться, в историях, о которых мы рассказываем в этой книге, не все числа надежны. Однако в данном случае это не вина журналистов. Здесь само исследование оказалось совершенно неправильным, и этот случай очень показателен: на его примере видно, как работает и не работает наука. Чтобы разобраться, почему приведенной статистике нельзя доверять, нам придется углубиться в механизмы научной деятельности. Если вы в них разберетесь, то многое из того, о чем мы расскажем в последующих главах, будет гораздо прощепо– нять.

Почти в любой публикации о науке и числах встречается термин «статистическая значимость». Вам простительно думать, что речь идет о важности чисел, о которых вы читаете. К сожалению, все намного сложнее. Вот что это значит, согласно публикации 2019 года:

В предположении, что верна нулевая гипотеза и что исследование повторяется бесконечное число раз с помощью случайных выборок из той же самой совокупности людей, менее 5 % этих результатов будут более экстремальны, чем текущий результат.

Стало понятнее? Давайте разбираться.

Предположим, мы хотим что-то выяснить. Например, помогает ли чтение книг с названием «Цифры врут» лучше понимать статистику, которая приводится в новостях. Возьмем солидную выборку из тысячи человек: в нее войдут некоторые из тех миллионов людей, кто прочитал эту книгу, а также несколько людей, которые – увы! – этого не сделали. (Для простоты будем считать, что до того, как кто-то ознакомился с нашим трудом, группы были совершенно одинаковыми; хотя понятно, что на самом деле покупатели этой книги в среднем намного талантливее, умнее и красивее, чем остальное население.)

Потом проведем среди этих людей несложный тест, чтобы проверить их знания статистики и узнать, лучше ли результаты у тех, кто прочитал книгу.

Предположим, что да, лучше. А как узнать, не простая ли это случайность? Наши читатели действительно лучше справляются с тестом или это случайная вариация? Для ответа на этот вопрос мы воспользуемся специальной методикой – проверкой достоверности (или проверкой гипотезы).

Так, предположим, что «Цифры врут» никак не влияют на читателей, и представим результаты. Это называется нулевой гипотезой. При другом варианте – альтернативной гипотезе – книга произвела некий положительный эффект.

Это хорошо иллюстрируется графиком. Если верна нулевая гипотеза, то пик кривой будет возле среднего значения – большинство людей окажется в середине, оттеснив на края тех немногих, кто выполнит тест очень хорошо или очень плохо. Сама кривая будет похожа на кривую нормального распределения из главы 3. При этом среднее значение и график кривой окажутся похожими у обеих групп (тех, кто прочитал книгу, и тех, кто этого не сделал).

Если же верна альтернативная гипотеза, то средний балл читателей будет выше среднего балла другой группы и кривая распределения для этой группы сместится вправо.



Но даже если верна нулевая гипотеза и книга не оказывает никакого эффекта; если – внезапно – окажется, что обе группы одинаково хорошо разбираются в статистике, все равно останется одна проблема – вам не избежать случайных вариаций. У кого-то будет просто неудачный день. Вспомните фильм «Осторожно! Двери закрываются» – Гвинет Пэлтроу в одной вселенной пропускает свой поезд, опаздывает на наш тест, расстраивается и сдает его плохо; а в другой – приходит вовремя, блестяще отвечает на вопросы и влюбляется в Джона Ханну. Пунктуальность и душевное равновесие, вероятно, не сделают из девушки эксперта по статистике, однако благоприятно отразятся на результатах теста. Есть некоторая (пусть и небольшая) доля случайности в том, насколько хорошо каждый участник выполнит задания.[12]

Если несколько не читавших книгу выполнят тест очень плохо, а несколько прочитавших – очень хорошо, это может заметно изменить среднее значение – покажется, что читатели в общем проходят тест намного лучше.

Итак, представим, что по какой-то причине ваши результаты говорят, что читатели лучше справляются с тестом. Теперь важно узнать, насколько вероятно получить такие (или еще более экстремальные) результаты, если верна ваша нулевая гипотеза – чтение книги не влияет, а все вариации случайны. Это и называется проверкой достоверности.

Нет конкретного значения, при котором абсолютно ясно, что нулевая гипотеза неверна: теоретически даже самые сильные различия могут оказаться случайными. Но чем больше разница, тем меньше шансов, что это случайно. Ученые измеряют шансы случайного совпадения с помощью вероятности, или p-значения.

Чем менее правдоподобна случайность какого-нибудь события, тем меньше p. Если есть только один шанс из ста, что получится не менее экстремальный результат, если чтение книги не оказывает никакого эффекта, то p = 0,01. (Однако это не значит – и это ИСКЛЮЧИТЕЛЬНО ВАЖНО, настолько, что мы дважды напишем «ИСКЛЮЧИТЕЛЬНО ВАЖНО» прописными буквами, что вероятность того, что данный результат неверен, составляет одну сотую. Мы позже вернемся к этому, а пока просто отметим как факт.)

Во многих науках принято считать, что если p меньше или равно 0,05 – иными словами вы ожидаете увидеть столь экстремальные результаты не более чем в 5 % случаев, – то открытие статистически значимо, а нулевую гипотезу можно отвергнуть.

Предположим, что при тестировании средний балл у людей, прочитавших книгу, действительно оказался выше. Если p-значение такого результата меньше 0,05, будем считать, что мы достигли статистической значимости, отвергнем нулевую гипотезу (что книга не приносит пользы) и примем альтернативную (книга помогает лучше понимать статистику). Величина p-значения здесь показывает нам, что будь нулевая гипотеза верна и проведи мы тестирование сто раз, наши читатели показали бы не меньшее преимущество перед второй группой менее чем в пяти случаях.

* * *

Статистическая значимость сбивает с толку даже ученых. Исследование 2002 года показывает, что 100 % студентов-психологов и, хуже того, 90 % их преподавателей неправильно трактуют этот термин. В другом исследовании выяснилось, что в 25 из 28 рассмотренных учебников по психологии есть хотя бы одна ошибка в данном определении.

Давайте же разберемся с некоторыми возможными заблуждениями. Во-первых, важно помнить, что статистическая значимость – понятие условное. Нет ничего магического в числе 0,05. Вы можете взять за основу другое: меньшее, тем самым объявляя недостоверными большее число результатов (отнеся их к категории случайных), или большее, расширяя границы статистически значимых данных. Чем выше планка, тем выше риск ложноположительных результатов, чем ниже – тем выше риск ложноотрицательных. Ужесточив критерий, мы можем подумать, что чтение книги никак не сказывается, хотя на самом деле это не так. Ну и, конечно, наоборот.

Во-вторых, статистически значимый результат не обязательно значим в обыденном смысле. Например, если в группе тех, кто книгу не читал, средний балл – 65, а в другой – 68, то результат вполне может считаться статистически значимым, но для вас он вряд ли важен. Статистическая значимость какого-то результата характеризует вероятность его случайного получения, а не его важность.

И в-третьих: p = 0,05 для вашего результата не гарантирует, что вероятность ложности вашей гипотезы составляет всего одну двадцатую. Это самое распространенное заблуждение, и оно лежит в основе многих научных ошибок.

Проблема же в том, что хотя выбор в качестве границы статистической значимости числа 0,05 совершенно условен, ученые и – что еще важнее – редакции научных журналов принимают ее за точку отсечения. Если для ваших результатов p = 0,049, у вас есть шансы их опубликовать, а если p = 0,051, то такие шансы ничтожны. А ученым нужны публикации их исследований, чтобы получить грант, найти постоянную должность и вообще рассчитывать на карьерный рост. Поэтому они крайне заинтересованы в получении статистически значимых результатов.

Вернемся же к нашему эксперименту. Мы хотим показать, что эта книга помогает лучше разбираться в статистике и достойна попасть в список бестселлеров Sunday Times; и после этого, надеемся, будем получать приглашения на престижные коктейльные вечеринки. Но мы получаем лишь p = 0,08.

Наверное, просто не повезло, думаем мы. И повторяем эксперимент – достигаем 0,11. И еще, и еще, и еще раз, пока наконец не выходит 0,04. Потрясающе! Мы докладываем о результатах и дальше припеваючи живем на роялти с продажи книги. Только это почти наверняка ложноположительный результат. Если провести эксперимент 20 раз, вполне можно ожидать один случайный результат.

Есть и другие способы достичь желаемого. Мы можем по-разному тасовать данные. Например, не только считать баллы, но и измерять, насколько быстро люди проходят тест, или оценивать красоту почерка. Пусть читатели книги не получают более высокие баллы, но вдруг они быстрее справляются с тестом? Или у них улучшился почерк? А можно отбросить самые крайние результаты, назвав их выбросами. Если ввести достаточно параметров и по-разному сочетать их или внести в данные необходимые и кажущиеся разумными поправки, то по чистой случайности рано или поздно наверняка найдется что-то подходящее.

Теперь вернемся к мужчинам, пытающимся покорить женщин хорошим аппетитом. В конце 2016 года Вансинк, ведущий автор того исследования, опубликовал в своем блоге пост – «Аспирантка, которая никогда не говорила „нет“». Это положило конец его карьере.

Вансинк написал о новой турецкой аспирантке, пришедшей в его лабораторию. Он дал ей данные провалившегося эксперимента, который проводился без внешнего финансирования и имел нулевые результаты. (Это был месячный эксперимент, в ходе которого одним людям продавали входные билеты в итальянский ресторан со шведским столом по цене в два раза выше, чем другим.) Вансинк предложил ей проанализировать данные, потому что, по его мнению, из них можно было что-нибудь извлечь.

По его рекомендации аспирантка сделала это десятками различных способов и – вас это не должно удивить – нашла кучу корреляций. В нашем воображаемом эксперименте с чтением книги мы бы точно так же могли перебирать данные на разные лады, пока бы не обнаружили что-нибудь со значением p < 0,05. На основании полученного набора данных аспирантка с Вансинком опубликовали пять статей, включая ту самую. В ней утверждалось, что в присутствии женщин мужчины едят больше пиццы (p < 0,02) и салата (p < 0,04).

Пост в блоге насторожил ученых. Описанная в нем практика называется p-подгонкой (p-hacking) – это перетряхивание данных в поисках утверждений, позволяющих преодолеть барьер в p = 0,05 и опубликовать статью. Методологически подкованные исследователи стали пересматривать все старые статьи Вансинка, а научная журналистка из BuzzFeed News Стефани Ли получила от своего источника электронную переписку ученого с сотрудниками и опубликовала ее. Оказалось, что он рекомендовал аспирантке разбивать данные на «мужчин, женщин, обедающих, ужинающих, питающихся в одиночку, по двое, в группах более двух человек, заказывающих алкогольные или безалкогольные напитки, садящихся рядом со шведским столом или далеко от него и т. п.».

В старых публикациях Вансинка обнаружились и другие проблемы методологического характера, а его имейлы указывали на порочную статистическую практику. Например, он писал: «Мы должны получить из этого намного больше… Думаю, стоит перебрать данные в поисках значимых и увлекательных утверждений». Он хотел, чтобы их исследование «стало вирусным».

Этот случай по-настоящему драматичен. Но вообще p-подгонка – в менее драматичных формах – происходит постоянно. Обычно она вполне невинна. Ученым нужно добиться p < 0,05 для публикаций, поэтому они повторяют исследования или заново анализируют результаты старых. Возможно, вы слышали о «кризисе воспроизводимости»: многие важные открытия в психологии и иных науках оказались неверными, когда другие ученые попытались повторить эксперименты первооткрывателей. Он произошел именно потому, что ученые не осознавали этой проблемы: они пересортировывали свои данные и повторяли эксперименты до тех пор, пока не получали статистически значимые результаты, не понимая, что таким образом работа становится бессмысленной. Мы еще вернемся к этому вопросу в главе 15, «В погоне за новизной».

Для того чтобы вскрыть ситуацию с Вансинком, потребовались месяцы кропотливой работы добросовестных статистически подкованных исследователей и опытного научного журналиста. По большей части научные журналисты пишут новости на базе пресс-релизов. Они вряд ли могут выявить p-подгонку, даже имея на руках наборы данных, которых у них обычно нет. А исследования, созданные в результате p-подгонки, имеют незаслуженное преимущество: их легче сделать сенсационными, ведь для них необязательна правдивость. Поэтому именно они так часто появляются в СМИ.

Читателям непросто выявить такие публикации. Но важно понимать, что статистически значимые утверждения не обязаны быть ни реально значимыми, ни верными.

Глава 6
Размер эффекта

Насколько опасно проводить время перед экраном? В последние годы мы слышали самые разные страшилки, вот наиболее яркие: «айфоны разрушили поколение» и «для девочек социальные сети намного опаснее героина» (сейчас это утверждение из статьи изъято). Подобные исследования трудны и противоречивы: сложно получить хорошие данные и устранить ложные корреляции. Впрочем, по-настоящему серьезные работы дают намного меньше поводов для беспокойства.

Особенно много внимания привлекает вопрос о связи гаджетов и сна. В 2014 году, например, вышла статья под кричащим (возможно, даже орущим) заголовком: «Чтение с экрана перед сном может убить вас». Статья опиралась на публикацию из Proceedings of the National Academy of Sciences.

Рассуждение было простым: недостаток сна вреден для здоровья, исследование показало, что чтение с экрана сокращает время сна; следовательно, чтение с экрана может оказаться смертельным.

Начнем с начала. Исследование действительно показало, что продолжительность чтения с экрана сказывается на продолжительности сна. Участникам предлагалось один вечер читать электронную книгу, а следующий – бумажную. (Расписание составлялось случайным образом: часть испытуемых начинали с бумажной книги, часть – с электронной; вдруг это тоже влияет на результаты.)

Был получен статистически значимый результат (p < 0,01), который, как объяснялось в главе 5, означает: если бы никакой связи не существовало, то при стократном повторении эксперимента такое резкое различие встретилось бы менее одного раза. Только это было очень небольшое исследование (всего 12 участников), а, как мы узнали в главе 3, небольшие выборки могут приводить к странным открытиям. Правда, при основательном подходе они могут быть полезными и прокладывать направления будущих исследований.

При этом, как отмечалось в главе 5, статистически значимый не равно значимый. Такой результат с большой вероятностью верен, только и всего. Следует учитывать размер эффекта. «Размер эффекта» – в отличие от «статистической значимости» – значит именно то, что написано: это просто размер эффекта. Удобно.

Поскольку речь снова зашла о книгах, вернемся к нашему воображаемому эксперименту из главы 5, в котором мы изучали наших читателей. В этот раз мы поступим немного иначе. Мы сравним 500 читателей «Цифры врут» и 500 читателей чего-нибудь менее ценного: «Мидлмарча» или, к примеру, полного собрания сочинений Шекспира. И вместо того чтобы выяснять, как чтение влияет на знание статистики, посмотрим, в какой из групп люди засыпают быстрее.[13]

Представим, что результаты ясно показывают: все 500 читателей этой книги ложатся позже. Это, бесспорно, статистически значимый результат. Независимо от величины различия шансы, что такой результат получился случайно, ничтожны. Намного меньше единицы, поделенной на число атомов во вселенной. При условии, что исследование проводилось правильно, эффект несомненно реален.

Теперь представим, что нас интересует размер эффекта. Оказывается, что все 500 читателей этой книги засыпают ровно на одну минуту позже, чем читатели другой.

Это реальный эффект. Он статистически значим. Но он никак не сказывается на вашей жизни. Если вы хотите знать, как улучшить свой сон, эта информация не принесет вам ровным счетом никакой пользы.

Бывает, что статистическая значимость представляет серьезный интерес для ученых: обнаружив какую-то корреляцию, они могут ее исследовать и узнать что-то о стоящем за ней механизме. Например, если чтение с экрана действительно влияет – пусть и незначительно – на сон, это дает какую-то информацию о работе суточных ритмов и о том, можно ли с помощью синего света переустановить наши внутренние часы. Что, в свою очередь, может привести к дальнейшим интересным открытиям. А иногда важны даже маленькие эффекты: если команда велосипедистов ухитрится сделать колесо более круглым, что сэкономит по 0,001 секунды на каждом километре, то этого может оказаться достаточным, чтобы получить не серебро, а золото, особенно если врач прописывает спортсменам верные дозы лекарств от астмы.[14]

Зато как читателя – человека, стремящегося разобраться в мире и научиться справляться со всеми рисками и трудностями, – вас не очень волнует, есть ли между двумя вещами статистически значимая связь: ее наличие или отсутствие представляет для вас не более чем интеллектуальный интерес. Например, вы предпочитаете читать в постели перед сном электронную книгу вместо бумажной, чтобы не зажигать свет и не мешать спать партнеру. Вам нет дела, есть ли связь, но важно, насколько она велика.

Насколько велик эффект чтения с экрана перед сном? Совсем невелик. Участников эксперимента просили читать книги – электронные или бумажные – по четыре часа (четыре часа!). Никто не предупреждал, что «чтение с экрана перед сном может оказаться смертельным», и в те вечера, когда испытуемые пользовались электронными книгами, они засыпали в среднем на десять минут позже. Возможно, ежедневная потеря десяти минут сна и имеет значение, но кто же перед сном так много читает?

Интересно, что позже более масштабное исследование молодежи пришло к тем же выводам: корреляция между чтением с гаджетов и сном есть, но небольшая. Лишний час экранного времени приводил к потере от трех до восьми минут сна. Возможно тут скрывается серьезный разброс – на большинство детей и подростков такое чтение никак не влияет, зато на некоторых влияет очень сильно. И все-таки нет ощущения, что отказ от гаджетов в вечернее время сильно скажется на продолжительности сна у британцев.

Было бы замечательно, если бы СМИ обсуждали не только статистическую значимость, но и размер эффекта. Стоит, не вдаваясь в технические детали, просто сказать, что «четыре часа чтения с экрана приводят к потере примерно десяти минут сна», и люди смогут сами распорядиться этой информацией и решат, критична ли такая потеря. А читателям стоило бы не просто искать зависимости (вызывает ли поедание бекона рак?), но и оценивать их масштаб (если я буду 20 лет ежедневно есть бекон, насколько повысится вероятность того, что я заболею раком?). Если в статье об этом не упоминается, скорее всего, эффект ничтожен и история не такая интересная, как кажется на первый взгляд.

Глава 7
Искажающие факторы

В последние несколько лет не утихают споры о вейпинге. Большинство некоммерческих организаций по борьбе с табакокурением и онкологическими заболеваниями считают, что вейп помогает бросить сигареты, но некоторые люди уверены, что он вреден или приучает к курению. В 2019 году даже сообщалось: дети, которые курят электронные сигареты, с большей вероятностью начнут употреблять марихуану.

Это утверждение опиралось на статью из журнала JAMA Pediatrics, в которой рассматривалась 21 публикация и подводились их итоги. Такие публикации, где объединяются результаты других исследований, называются метаанализами. В этом метаанализе делался вывод, что вейпящие подростки 12–17 лет, в отличие от других сверстников, с большей – примерно в три раза – вероятностью начнут курить марихуану.

Мы только что обсуждали размеры эффекта – здесь он кажется реально большим. В следующей главе мы поговорим о том, как трудно выявлять причинно-следственную связь, но в данном примере точно есть повод для беспокойства.

Однако когда видишь сильную корреляцию между двумя явлениями, в данном случае вейпингом и употреблением марихуаны, стоит задуматься: нет ли еще чего-то третьего, коррелирующего с обоими? Это что-то называется искажающим фактором.

Вот пример, чтобы было понятнее. В мире наблюдается корреляция между долей смертей, связанных с ожирением, и объемом углекислого газа, ежегодно выделяемым в атмосферу.

Следует ли из этого, что углекислый газ делает людей толстыми? Вряд ли. Скорее дело в том, что мир богатеет, а становясь богаче, люди тратят больше денег и на высококалорийную пищу, и на товары и услуги, связанные с выделением углекислого газа, например автомобили и электричество. это учесть, станет понятным: никакой связи между выделением углекислого газа и ожирением, скорее всего, нет. Однако важную роль играет третья переменная – ВВП.



Другой классический пример – мороженое и утопленники. В те дни, когда растет продажа мороженого, тонет больше людей, хотя очевидно, что отдыхающие идут ко дну не из-за него. Просто мороженое приятно съесть в жаркий день, вот и продажи растут, и плавать тоже хорошо в жару, а плавание, к сожалению, иногда заканчивается утоплением. Стоит учесть влияние температуры – как говорят статистики, проконтролировать этот фактор, – и связь пропадет. То есть вы не увидите зависимости, если посмотрите на продажу мороженого и число смертей на воде только в холодные или жаркие дни.

Это важно, когда обсуждаешь размер эффекта. Иной раз кажется, что одна переменная сильно зависит от другой, как, например, курение марихуаны от вейпинга. Но подчас трудно определить, реальна ли эта связь или видимая зависимость объясняется влиянием какой-то третьей величины – искажающего фактора.

В исследованиях вейпинга, включенных в метаанализ, учитывались потенциально искажающие факторы: возраст, пол, раса, образование родителей, табакокурение, употребление наркотиков. В разных исследованиях рассматривались разные факторы. В некоторых статьях говорилось о более сильной связи. Например, в одной, где делались поправки на пол, расу и школьные отметки, была обнаружена очень сильная корреляция: вейперы почти в десять раз чаще курили травку.

Но есть еще один потенциальный искажающий фактор, не учитывающийся в большинстве исследований. Подростки по природе своей чаще тянутся к опасностям и острым ощущениям, чем мы, взрослые. Те из нас, кто был когда-либо подростком, наверняка помнят, как совершали явно нелепые поступки, которые нам в наши зрелые годы просто не приходят в голову. И курение травки, и вейпинг относятся к категории «рискованного поведения».

И, конечно, не все подростки одинаковы. Некоторые больше стремятся к риску. Вейпер вероятнее всего также курит табак, употребляет алкоголь и принимает наркотики. Вряд ли это кого-то удивит.

Интересно отметить, что в двух из рассмотренных исследований уделялось внимание чему-то подобному: в них делались поправки на тягу как личностную характеристику – «стремление к возбуждающим и новым поступкам» – и тягу к экзотике. Те, кто при опросе получают высокий балл по шкале «стремление к экзотике», чаще тянутся к экстремальным видам спорта и быстрой езде, не отказывают себе в алкоголе и наркотиках. (Нет ничего удивительного, что это достигает пика в период от подросткового возраста до начала третьего десятка и сильнее выражено у мужчин, чем у женщин.)

Результаты этих двух исследований отличаются от других. В одном из них вероятность того, что вейпер начнет курить травку, оказывается всего в 1,9 раз выше, что намного ниже результатов большинства остальных работ, а во втором корреляция вообще не обнаружена (даже отмечается легкий спад). Вероятно, то, что в них принималась во внимание тяга к экзотике, частично объясняет более низкие показатели.

Контроль потенциальных искажающих факторов позволяет точнее определить «подлинный» размер эффекта. Однако иногда трудно понять, учитывали ли вы все необходимое, контролировали ли вы то, чего контролировать не следовало, не пропустили ли что-то важное и не возникла ли у вас ошибка коллайдера, о которой мы поговорим в главе 21. Все это очень запутанно и сложно.

При этом мы вовсе не хотим сказать, что вейпинг никак не влияет на употребление марихуаны. Для такой связи есть несколько правдоподобных объяснений: например, авторы полагают, что под влиянием никотина развивающийся мозг еще больше тянется к экзотике. Может, это и верно, хотя такой эффект кажется неправдоподобно большим, тем более что мы от рождения по-разному относимся к новым ощущениям.

Однако помните общее правило: если в новостях пишут, что X связано с Y, не стоит думать, что из этого непременно следует, что X влечет Y или наоборот. Возможно, есть еще скрытое Z, которое вызывает и X, и Y.

Вам нет необходимости читать эту врезку, но, если вы хотите узнать, как работает статистическая регрессия, не пропускайте ее.

Вы могли уже слышать термин «статистическая регрессия». Звучит наукообразно, но обозначает простую вещь.

Предположим, мы хотим узнать, зависит ли рост людей от их веса. Возьмем большую случайную выборку населения, измерим рост и вес этих людей и разместим на графике: один человек – одна точка, откладывая по оси X рост, а по Y – вес. Таким образом, точки, представляющие более высоких людей, окажутся правее, а более толстых – выше. Очень низкие и худые – слева внизу, а высокие и тучные – справа вверху.

Посмотрим на график, чтобы понять, есть ли тут какая-то явная зависимость. Мы видим, что график ползет вверх – если кто-то выше, он, скорее всего, и толще. Это называется позитивной связью (или позитивной корреляцией) – попросту говоря, когда увеличивается одно, другое тоже тяготеет к росту. А если одно растет, а другое уменьшается, то их связь называется негативной. Если точки разбросаны повсюду без ярко выраженной зависимости, мы считаем, что связи нет.

Теперь предположим, что мы хотим провести через точки линию, чтобы показать эту связь. Как это сделать? Можно рисовать на глаз, и даже вполне успешно, но есть более математически точный способ – метод наименьших квадратов.

Предположим, мы нарисовали на графике прямую. Часть точек окажется прямо на ней, но большая часть будет выше или ниже. Расстояние каждой точки до прямой по вертикали – это «ошибка», или «остаток». Возьмем значение каждого остатка и возведем в квадрат (то есть умножим само на себя, что решит проблему отрицательных чисел: число, умноженное само на себя, всегда дает положительный результат), а потом все их сложим. Это число называется остаточной суммой квадратов.

Линия с наименьшей остаточной суммой квадратов называется линией лучшей подгонки. Для приведенного выше графика она будет выглядеть так:

Эта линия позволяет делать прогнозы, и они тем точнее, чем меньше остатки (меньше сумма их квадратов). Если мы измеряем рост и вес любого нового человека, мы ожидаем, что соответствующая точка окажется вблизи этой линии. Зная чей-то рост, мы можем предсказать его вес. Например, судя по графику, 182-сантиметровый человек вероятнее будет весить 76 кг. (Можно действовать и наоборот: зная вес, можно угадать и рост. Но тогда линию надо проводить немного иначе, измеряя ошибки по горизонтали; не стоит сейчас в это углубляться.)

Стоит отметить, что по одному росту трудно точно предсказать вес. Уточнить его помогут дополнительные параметры: много ли вы занимаетесь спортом, много ли пьете, много ли пирогов съедаете в неделю. Учтя все эти переменные, вы получите более ясную картину влияния роста на вес. Это будет контролирование других переменных, о котором мы говорили в этой главе. Если не учитывать искажающие факторы, то можно переоценить или недооценить корреляцию или найти ее там, где ее на самом деле нет.

Глава 8
Причинно-следственная связь

Выпив кока-колы, вы рветесь в драку? А глотнув ледяной фанты, испытываете неконтролируемое желание долбануть кого-нибудь бутылкой?

Судя по новостным публикациям 2011 года, у некоторых такое бывает. Ох уж эта молодежь! «Газированные напитки делают подростков агрессивными», – объявила The Daily Telegraph. «Газированные напитки делают подростков агрессивнее, выяснили ученые», – вторит ей The Times.

В основе этих утверждений – исследование, вышедшее в журнале Injury Prevention. Было обнаружено, что подростки, пьющие более пяти банок газировки в неделю, с гораздо большей (на 10 %) вероятностью носят с собой оружие и проявляют агрессию по отношению к сверстникам, родственникам и возлюбленным.

Приглядимся к формулировкам. В публикации Injury Prevention утверждается, что потребители кока-колы с большей вероятностью агрессивны. В газетах же пишут, что газированные напитки делают подростков агрессивнее.

Здесь важно это различие. В исследовании обнаружили корреляцию – о ней мы говорили в предыдущих главах: вместе с одной переменной росла и другая. Но мы уже знаем: это не означает, что рост одной вызывает рост другой. Как увеличение объемов углекислого газа в атмосфере не приводит к ожирению населения, а продажа мороженого никак не сказывается на количестве смертей на воде.

Газеты же отмечают причинно-следственную связь. Газировка «делает подростков агрессивными», то есть вызывает вспышки ярости; из этого логически следует, что если запретить продажу таких напитков, то насилие прекратится.

Мы уже видели, что иногда трудно определить, прямая ли корреляция: продажи мороженого действительно – при учете других переменных – коррелируют с числом утопленников, или же оба показателя связаны с третьим фактором – температурой воздуха? Только часто нам интереснее ответ на иной вопрос: служит ли одно причиной другого? И как найти этот ответ?

Большинство описанных нами исследований были наблюдательными – в них рассматривался мир как он есть. Так, в примере с углекислым газом и ожирением ученые проследили за изменениями уровня углекислого газа в атмосфере и количеством смертей от избыточного веса и нашли, что и то и другое выросло.

Беда в том, что это не доказывает – и в принципе не может доказывать, – что население полнеет (или умирает) из-за CO2. Вдруг наоборот: выделяется больше углекислого газа, потому что люди толстеют? Или (что вероятнее) есть некий искажающий фактор: возможно, по мере того как страны богатеют, растет и число диагнозов «ожирение», и объемы выбросов в атмосферу? Мы отмечали это в предыдущей главе.

Определить причину в наблюдательных исследованиях помогают некоторые маркеры. Например, причина обычно предшествует следствию: если вы видите, что уровень углекислого газа возрастает раньше, чем количество случаев ожирения, это явно исключает версию, что ожирение провоцирует выбросы CO2. Второе, на что стоит посмотреть, – отношение «доза-реакция»: верно ли в данном конкретном случае, что чем выше гипотетическая причина, тем больше видимый эффект. И, конечно, неплохо иметь какое-то теоретическое обоснование того, почему одно влечет за собой другое. Между мокрыми тротуарами и дождевыми облаками есть корреляция, и в одном направлении объяснить причинно-следственную связь легко, а в обратном – намного труднее.

В случае с дождем и мокрым асфальтом зависимость абсолютно очевидна – как и в случае, что еще важнее, с курением и раком легких, где причина предшествует следствию, реакция зависит от дозы и есть внятное теоретическое обоснование, а эффект настолько велик, что его нельзя игнорировать. Однако в других ситуациях – без такой явной обусловленности – наблюдательные исследования мало подходят для выявления причинно-следственной связи. Так как же определить, служит ли одно причиной другого?

В идеале нужно провести так называемое рандомизированное контролируемое исследование (РКИ).

Что под ним понимается? Вернемся к знакомому примеру: помогает ли эта книга лучше понимать статистику? На этот раз мы не будем искать людей, которые удосужились прочесть ее, а дадим им книгу намеренно. Возьмем, например, тысячу человек. Сначала они сдадут тест по статистике. Потом мы произвольно разобьем их на две группы. Первой дадим читать эту книгу, второй – книгу-плацебо, которая выглядит точно так же, только статистика в ней изложена неверно. (Если вы нашли в этой книге ошибки, возможно, вам попалось плацебо.)

После того как все прочитали свои экземпляры, мы снова проведем тест и посмотрим, повысился ли средний балл в какой-либо группе (или даже в обеих). Если «Цифры врут» действительно повышают уровень знаний читателей, то можно ожидать, что в первой группе увеличится средний балл.

Контрольная группа позволяет провести рассуждение от обратного, как бы заглянуть в альтернативную вселенную. Если мы просто проведем тест до и после прочтения «Цифр…» и заметим улучшения, то, возможно, книга действительно помогла повысить балл. Но это может значить и то, что все испытуемые одновременно прошли онлайн-курсы по статистике. Или что чтение вообще любой книги улучшает знание математики. Или что участие в эксперименте меняет поведение людей. Поэтому и собирается контрольная группа – чтобы проверить, что будет с теми, кто не прочитает нашу книгу.[15]

Конечно, не всегда получается провести РКИ. Иногда это просто нереализуемо, а иногда и вовсе неэтично: нельзя исследовать воздействие табакокурения на детях, выдавая пяти сотням детей по пачке Embassy No. 1 в день в течение десяти лет и сравнивая результаты с контрольной группой, потому что это неприемлемо. И нельзя затевать войны в случайным образом выбранных странах, чтобы исследовать влияние вооруженных конфликтов на экономику. В подобных ситуациях помогают «естественные» эксперименты – в них нужные для исследования группы выделяются случайным образом с другими целями.

Например, в одном известном исследовании изучалось, влияет ли военная служба на заработки в течение жизни. Однако люди, выбирающие армейскую жизнь, отличаются от тех, кто этого не делает, поэтому их нельзя было просто сравнивать. К счастью (по крайней мере, для исследователей), в 1970 году, во время Вьетнамской войны, в США еще набирали призывников. Тогда это сделали с помощью лотереи, транслировавшейся по телевизору в прямом эфире, – шары вынимали из барабана, как при игре в лото. Так сформировалась экспериментальная (мужчины, которых призвали) и контрольная (мужчины, которых не призвали) группы. Исследование показало, что бывшие солдаты за свою жизнь зарабатывали в среднем на 15 % меньше.[16]

Большинство наблюдательных исследований не относятся ни к РКИ, ни к рандомизированным или квазирандомизированным естественным экспериментам. Поэтому они могут показать лишь, меняются ли две или более переменных примерно в одно и то же время. Так можно увидеть корреляцию, но не причинно-следственную связь – это объяснит вам любой зануда из соцсетей.

А вот в публикациях СМИ эта разница часто игнорируется. Так, в одной статье рассматривалось, как освещались в прессе 77 наблюдательных исследований (то есть не являющихся РКИ и потому непригодных для обнаружения причинно-следственной связи). Оказалось, что результаты почти половины из них подавались журналистами как утверждения о наличии причинно-следственной связи. Например, в газете писали, что «дневной сон помогает дошкольникам учиться лучше», хотя в научной статье отмечалась лишь корреляция.

* * *

Вернемся к газировке. Думаю, вы не удивитесь, узнав, что это исследование было наблюдательным: ученые не давали пяти сотням подростков «Айрн-Брю»[17], а пятистам – диетическую «Райбину»[18], чтобы посмотреть, какая группа с большей вероятностью станет колошматить прохожих. Они просто проверили, есть ли связь между числом выпитых банок и уровнем агрессии.

Так что мы не знаем, провоцирует ли потребление напитков насилие или же насилие – потребление напитков (звучит, конечно, малоправдоподобно, но, возможно, уличные драки вызывают жажду). Или – как в примере из главы 7 – есть еще какая-то переменная, связанная с этими двумя. В упомянутом исследовании отмечено, что контролировались различные параметры, при этом авторы высказывают предположение, что «прямая причинно-следственная связь возможна», однако не менее вероятно «наличие неких неучтенных факторов, которые ведут и к потреблению газированных напитков, и к проявлению насилия». Хотя они и учитывали ряд факторов – пол, возраст, потребление алкоголя и другие, – их исследование все равно не может указывать на причинную связь. Так что журналисты не имели оснований объявлять, что газированные напитки вызывают насилие, раз в самом исследовании такого вывода не было.

Мы не утверждаем, что все РКИ идеальны – в них тоже все может пойти наперекосяк по целому ряду практических обстоятельств, да и в методике есть целый комплекс проблем. Тем не менее такие исследования дают наиболее эффективный способ выявления причинной связи.

Для читателей есть очень простое базовое правило: если исследование, упомянутое в новостях, не относится к категории РКИ, остерегайтесь утверждений о наличии причинной связи. Несмотря на самые убедительные доводы в пользу того, что связь носит причинно-следственный характер, исследование вряд ли это подтвердит, если не проводилась рандомизация.

Вам нет необходимости читать эту врезку, но, если вы хотите больше узнать о причинно-следственных связях, можете ее не пропускать.

Иногда для установления причинно-следственной связи с помощью наблюдательных исследований ученые прибегают к хитрому приему – методу инструментальных переменных. Представьте, что вы экономист и хотите вычислить, как экономический рост влияет на войну в Африке. Конфликт, безусловно, может снизить экономический рост, замедлив торговлю, инвестиции и бизнес. Но тут есть и оборотная сторона. Вполне может оказаться, что замедление экономического роста повысит вероятность конфликта: учитывая массы озлобленных, оставшихся без работы людей, легко поверить, что насилия станет больше.

Как опознать причину и следствие, если вы видите, что войны и экономические кризисы идут рука об руку?

Если, как вам кажется, А служит причиной B, а выясняется, что B – причина или одна из причин A, это называется обратной причинностью. Возможно, все еще сложнее: А служит причиной B, а B в свою очередь является причиной A, и возникает петля обратной связи. Ситуация с насилием и экономическим ростом – яркая иллюстрация этого. И если такое происходит, то это влияет на ваши измерения точно так же, как искажающий фактор.

Так как же понять направление причинной связи? A → B, или B → A, или петля? Один из способов – воспользоваться инструментальной переменной, которая коррелирует с одним из двух показателей. В случае с насилием и экономическим ростом такой инструментальной переменной может служить количество осадков.

В одном исследовании 2004 года пытались выяснить, приводит ли замедление роста экономики к войне. Оказалось, что 5 %-ное снижение экономических показателей вело к 12 %-ному увеличению вероятности войны в следующем году. При этом, как отметили авторы исследования, хотя война и начиналась после кризиса, это не доказывает причинной связи. Вдруг граждане, чувствуя растущую напряженность, стали иначе вести себя, что и отразилось на экономике.

Тогда исследователи решили посмотреть на количество осадков. Это может показаться странным, но в аграрных странах погода влияет на экономику: засуха может привести к катастрофе, а чем в среднем обильнее осадки, тем выше экономический рост. А вот с войной осадки, предположительно, связаны слабо – только через экономику. Поэтому если в годы с повышенным числом осадков войн меньше, то можно предположить, что экономическая ситуация действительно влияет на вероятность конфликта, а через нее на войну (и только так) влияет дождь.

Подумать только: исследование показало, что в годы с хорошей погодой войн меньше – видимо, экономика и правда может стать причиной конфликтов.

Конечно, как обычно, все несколько сложнее. Вы стараетесь найти такую инструментальную переменную, которая влияет на один параметр, не затрагивая другой, – но где гарантия, что ваш выбор правильный? Для данного примера другой экономист указал, что трудно воевать, когда дороги затоплены. Исследователи попытались это учесть, но неясно, удалось ли им. Тут все очень сложно. Многие ученые, даже если ищут лишь корреляции, ошибаются, и их результаты оказываются неверными.

Глава 9
Это большое число?

Помните, как в первой половине 2016 года на одном автобусе [19]красовалось число? Довольно впечатляющее: 350 млн фунтов. Эти деньги Великобритания якобы еженедельно перечисляла ЕС. «Давайте лучше отдадим эти деньги на здравоохранение», – призывал автобус.

Не беспокойтесь: мы не собираемся возвращаться к спорам вокруг этого числа. Многие энтузиасты, занятые проверкой фактов и Статистическое управление Великобритании пришли к выводу, что реальная сумма ближе к 250 млн фунтов: около ста миллионов не уходили с британских счетов из-за налогового вычета, а с экономической точки зрения благодаря торговле страна приобретала гораздо больше, но сейчас нас это не волнует. Мы хотим обсудить, является ли это число большим.

Что такое большое число? Так вопрос вообще не стоит. Величина числа зависит исключительно от контекста. Сто человек у вас в гостях – целая толпа, но сто звезд в галактике – ничтожная горстка. Два волоса на голове – это мало, но две Нобелевские премии у одного человека – это впечатляюще, не говоря уж о двух огнестрельных ранениях в живот.

В новостях же число одиноко, поэтому трудно понять, большое оно или нет. Важен его знаменатель – он отражает контекст.

Знаменатель – это число, которое стоит под чертой дроби: 4 в ¾ или 8 в ⅝. (Над чертой – числитель.) Вы могли не вспоминать об этом термине со времен школы, но для оценки цифр в новостях он крайне важен. Чтобы определить, является ли число большим, нужно прежде всего выбрать подходящий знаменатель.

Рассмотрим такой пример. На улицах Лондона в период с 1993 по 2017 год погиб 361 велосипедист. Это большое число? Оно кажется довольно большим. Но какой же тут знаменатель? За 25 лет в общей сложности 361 поездка на велосипеде закончилась катастрофой. А сколько всего было поездок? Если знать нижнюю часть дроби, легче оценить реальную опасность каждой поездки.

Вам редко сообщают эту информацию, видимо, из расчета, что вы ее знаете. Попробуйте угадать, сколько в среднем велосипедных поездок ежедневно совершалось в Лондоне в 1993–2017 годах.

Предположим, 4000. Тогда за указанный период их было 36,5 млн – значит, на каждую из 100 000 поездок приходилась 1 смерть.

Предположим, их было 40 000. Это означает 1 смерть на 1 млн поездок.

Предположим, на самом деле их было 400 000. Это – 1 смерть на 10 млн поездок.

Какое из предположений верно? Если вы этого не знаете, то просто не представляете, какой риск грозит велосипедисту на улицах Лондона. Вы не знаете, насколько велико это число: лишенное контекста, оно осиротело. Вот почему так важно знать знаменатель.

Откроем истину: согласно муниципальной транспортной службе, в этот период в Лондоне совершалось примерно 437 000 поездок в день. Велик ли риск смерти в одну десятимиллионную, каждый решает самостоятельно, но, если не знаешь знаменателя, этот вопрос вообще не имеет смысла.

(Кстати, стоит отметить, что за эти годы среднее количество поездок резко выросло: с 270 000 в день в 1993-м до 721 000 в 2017-м. А число погибших уменьшилось – неравномерно, но существенно: в 1993-м – 18 человек, а в 2017-м – десять. Так что если вы – лондонский велосипедист, ваш шанс умереть во время конкретной вылазки с начала 1990-х снизился, грубо говоря, в шесть раз. А вообще поездки на этом виде транспорта чрезвычайно полезны: они увеличивают ожидаемую продолжительность жизни, и это несмотря на загрязненный воздух и риск аварий.)

Отсутствие знаменателя – типичная проблема новостей. В 2020 году Daily Express сообщила, что за предыдущие десять лет в полицейских участках умерло 163 задержанных – но сколько вообще людей побывало там? Одно дело, если тысяча, и совсем другое, если миллион. (Согласно данным Министерства внутренних дел, второе число ближе к реальности: в год производится около миллиона задержаний, хотя и не всех отвозят в участок.)

Другой пример – преступность: если вам скажут (как это сделал Трамп в 2018 году), что в США от рук нелегальных иммигрантов ежегодно погибает 300 человек, вам может показаться, что это большое число. А на самом деле? Каков знаменатель?

В данном случае все немного сложнее – потребуется несколько знаменателей. Общее количество убийств в США известно: 17 250 в 2016 году, по данным ФБР. Но это пока не дает представления о величине рассматриваемого числа. Важно еще знать, сколько в стране нелегальных мигрантов. Тогда мы сможем сказать, выше или ниже для них вероятность стать убийцей, чем для среднестатистического гражданина страны.

К счастью, в 2018 году Институт Катона изучил этот вопрос. Оказалось, что в 2015 году в Техасе (куда часто бегут за лучшей долей) было 22 797 819 «урожденных американцев», 1 758 199 «нелегальных мигрантов» и 2 913 096 «легальных мигрантов».

Исследователи также выяснили, что урожденные американцы лишили жизни 709 человек, а нелегальные мигранты – 46. Эти данные позволяют нам разделить число убийств, совершенных каждой группой, на количество людей в этой группе – разделить числители на знаменатели, – и посмотреть, что больше. В данном случае 709 / 22 797 819 = 0,000031, или 3,1 убийства на 100 000 человек; а 46 / 1 758 199 = 0,000026, или 2,6 убийства на 100 000 человек. Так что, по крайней мере в Техасе, нелегальный мигрант с меньшей долей вероятности станет убийцей, чем урожденный американец. А легальные мигранты, если хотите знать, совершают около одного убийства на 100 000 человек.

А теперь вернемся к автобусу. Эта сумма, 350 млн фунтов, кажется огромной. Во многих смыслах это действительно куча денег – она в сотни раз превосходит заработок среднестатистического гражданина за всю его жизнь. На нее можно купить дом аж с четырьмя спальнями в северном Лондоне[20].

Но велика ли эта сумма? Что у нас в знаменателе? Давайте посмотрим. Во-первых, умножим 350 млн на 52 и получим 18,2 млрд фунтов. Столько мы отдавали ЕС ежегодно (по крайней мере, если верить автобусу, – будем придерживаться его версии).

Согласно бюджету 2020 года, общие расходы британского правительства в 2020/21 финансовом году на всё, начиная обороной и заканчивая ремонтом дорог и пенсиями, должны были составить около 928 млрд фунтов. Разделив 18,2 на 928 (и умножив на 100 для получения процентной доли), получим чуть меньше 2 %. Так что дополнительные расходы в 18,2 млрд фунтов увеличивали национальный бюджет примерно на 2 %, по крайней мере в том году, о котором мы говорим. (Если вам все еще не по себе, то, если бы мы исходили из 250 млн фунтов, увеличение составило бы около 1,4 %.)

Это не то число, которым можно пренебречь: 2 %-ное увеличение национального бюджета эквивалентно, например, половине общих расходов на «персональные социальные услуги», то есть затраты местных властей на поддержку детей из групп риска, пожилых людей и инвалидов. Но оно и не столь ошеломляющее, как казалось. Беда в том, что, не упоминая знаменатели, вы просто рассчитываете, что число всем покажется большим.

От журналистов трудно требовать, чтобы они всегда подбирали подходящий знаменатель. Но вам как читателю стоит при виде какой-то внушительной статистики задаваться вопросом: а это большое число?

Глава 10
Теорема Байеса

Весной 2020 года многие оказались в домашнем заточении и отчаянно пытались придумать, как и когда удастся выбраться наружу и возродить социальную жизнь. Тогда всеобщий интерес и повсеместное обсуждение вызвала идея «иммунных паспортов».

В ее основе лежала следующая теория (на момент написания книги она по-прежнему кажется правдоподобной, хотя все еще не доказана): выздоровевший человек становится невосприимчивым к инфекции, поскольку его организм выработал антитела, которые будут сражаться с болезнью и защищать носителя если не до конца жизни, то по крайней мере в течение долгого времени. Иммунные паспорта выдавались бы при положительном тесте на антитела. В них утверждалось бы, что человек переболел ковидом и готов вернуться к нормальной жизни, поскольку не может ни сам подхватить болезнь, ни передать ее другим.[21]

Конечно, будут ли паспорта работать, зависит от точности тестирования. К весне 2020-го американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов в срочном порядке утвердило тест, который – как обещали – имел 95 %-ную точность. Значит, если вы получите положительный результат, то какова вероятность, что у вас есть иммунитет? Около 95 %, верно?

Нет. Если у вас нет больше никакой информации, то ответ будет, что вы понятия не имеете. У вас будет недостаточно информации, чтобы сделать хоть какой-то вывод о своих шансах обладать иммунитетом.

Это связано с так называемой теоремой Байеса, названной в честь пресвитерианского священника и увлеченного математика XVIII века Томаса Байеса. Она несложная, но из нее следуют весьма странные результаты.

Записанная с помощью логических значков, теорема Байеса выглядит устрашающе: P(A|B) = (P(B|A)P(A)) / P(B). Но на самом деле всё довольно просто. Теорема описывает вероятность того, что данное утверждение (А) будет верно при условии, что верно другое утверждение (В). Если вас интересуют подробности, обратитесь к приведенной ниже врезке. Важным и контринтуитивным это утверждение становится от того, что в нем учитывается априорная вероятность, что А верно, до того как вы узнаете, верно ли В.

Эту врезку читать необязательно, но, если вы хотите узнать больше об условной вероятности, не пропускайте ее.

В теореме Байеса говорится об условной вероятности – возможно, вы помните ее со школы. Представьте, что у вас в руках тщательно перетасованная колода карт. Какова вероятность, что первым вы достанете из нее туза? Она равна 4/52, потому что всего в колоде 52 карты, а тузов в ней – 4. Поскольку оба числа делятся на 4, эту дробь можно сократить до 1/13.

Предположим, в первый раз вы открыли туза. Какова вероятность, что такой же окажется и вторая карта? Поскольку одного туза вы уже вытащили, шансы изменились: теперь это три туза из 51 карты, то есть 3/51.

Это – вероятность вытащить туза, если одного туза вы уже вытащили и удалили из колоды.

В статистике вероятность (обозначим ее P) события (обозначим его A) записывается так:

P(A)

Если есть еще одно событие, которое произошло до A (обозначим его B), то вероятность записывается так:

P(A|B)

Здесь вертикальная линия обозначает «при условии». P(A|B) попросту значит «вероятность A при условии, что B уже произошло». Так что P(A|B) для «выпадения туза при условии, что одного туза вы уже из колоды удалили», равна 3/51, или примерно 0,06.

С помощью одних обозначений это трудно объяснить, поэтому давайте рассмотрим пример. В таких случаях обычно вспоминают медицинские обследования. Представим, что некоторый анализ крови позволяет выявить очень редкое, но смертельное нейродегенеративное заболевание на начальной стадии. Анализ крайне точный.

Важно отметить, что существует два вида точности. Первый – насколько вероятно определить наличие заболевания у того, у кого оно есть, – это доля истинно положительных случаев, которые тест идентифицировал верно, или чувствительность. Второй – насколько вероятно определить отсутствие заболевания у того, у кого его нет, – доля истинно отрицательных случаев, которые тест правильно идентифицировал, или специфичность. Будем считать, что у нас оба показателя составляют 99 %.

Важно отметить, что заболевание очень редкое. Предположим, оно встречается у одного человека из десяти тысяч. Это наша априорная вероятность.

Итак, вы берете анализы у миллиона человек. Из каждых десяти тысяч один болен, итого сто больных. Ваш анализ покажет, что 99 из них больны. Пока всё в порядке.

И он правильно выявит 989 901 человека, у которых заболевания нет. По-прежнему все идет неплохо.

Но есть одна загвоздка. Несмотря на то что анализ верен в 99 % случаев, он тем не менее покажет наличие смертельного заболевания у 9999 здоровых людей. Из тех 10 098 человек, у которых анализ выявит болезнь, на самом деле больны 99, то есть менее 1 %. Если бы вы стали принимать результаты за чистую монету и говорили каждому с положительным результатом, что он болен, то вы бы ошибались в 99 случаях из 100, напрасно пугая людей и, возможно, посылая их на ненужные, инвазивные и рискованные медицинские процедуры.

Не зная априорной вероятности, вы не можете знать значения положительного теста. Оно не скажет вам, с какой вероятностью у вас то заболевание, которое выявляет анализ. Поэтому сообщение о 95 %-ной точности бессмысленно.

Это не воображаемая проблема, интересная только ученым. В одном метаанализе (как вы помните из главы 7, это публикация, где собраны сведения о нескольких разных исследованиях) показано, что 60 % женщин, ежегодно проходящих маммографию в течение десяти лет, хотя бы один раз получают ложноположительный результат. В ходе исследования, изучавшего мужчин, которые были направлены на биопсию и ректальное исследование после положительного результата теста на рак простаты, обнаружилось, что у 70 % из них результат был ложноположительным. Согласно одной публикации, некий пренатальный тест на выявление хромосомных нарушений у плода – а они встречаются очень редко, – специфичность которого якобы составляла до 99 %, а ложноположительные результаты получались в 0,1 % случаев, на самом деле давал ложноположительные значения в 45–94 % случаев.

Хотя результаты этих тестов не указывают на окончательный диагноз – пациентов с положительными результатами затем тщательно обследуют, – они испугают многих людей, у которых в результате не окажется рака или родится здоровый ребенок.

И проблема не ограничивается медицинскими анализами. Она может иметь серьезные последствия и в юридических вопросах. Хорошо известная и частая судебная ошибка – ошибка прокурора – по сути сводится к непониманию теоремы Байеса.

В 1990 году Эндрю Дина – отчасти на основании ДНК-экспертизы – приговорили к 16 годам тюремного заключения за изнасилование. Выступавший на стороне обвинения судебный эксперт сказал, что вероятность принадлежности ДНК другому человеку составляла один на три миллиона.

Но как отметил главный судья лорд Тейлор при пересмотре дела, здесь смешались два разных вопроса: насколько вероятно, что ДНК невиновного человека совпадет с образцом, и насколько вероятно, что человек невиновен, если его ДНК совпала с образцом? Ошибка прокурора заключается в том, что эти два вопроса считаются одинаковыми.

Можно рассуждать точно так же, как и с анализом крови. Если у вас нет других доказательств – а это маловероятно – и вы просто наугад выбрали подозреваемого из всего населения Великобритании, которое в то время составляло около 60 млн, априорная вероятность, что этот человек и есть искомый убийца, составляет одну шестидесятимиллионную. Если протестировать все 60 млн человек, то убийца будет выявлен правильно, но при этом еще у 20 невиновных будут ложноположительные результаты. Поэтому, даже если вероятность такого результата при тестировании невиновного человека составляет всего одну трехмиллионную, вероятность того, что любой случайный человек, получивший положительный результат, окажется невиновным, составляет более 95 %.

В реальной жизни обвиняемые не выбираются случайным образом; обычно есть и другие доказательства, а это значит, что априорная вероятность больше одной шестидесятимиллионной. Но, как и в случае с анализом крови, знание вероятности ложноположительного результата тестирования ДНК не подтверждает виновность: нужна еще априорная вероятность, какая-то оценка вероятности того, что этот человек виновен.

В декабре 1993-го апелляционный суд отменил приговор Дина, объявив его необоснованным, потому что и судья, и судебный эксперт стали жертвами ошибки прокурора. (Впоследствии, в ходе пересмотра судебного дела, он все равно был осужден.)

Точно так же трагическое дело Салли Кларк, осужденной в 1998 году за убийство своих детей, обернулось ошибкой прокурора из-за свидетельских показаний эксперта. Он сказал, что вероятность гибели от синдрома внезапной детской смерти (СВДС) двух младенцев в одной семье составляет 1:73 млн. При этом он не учел априорную вероятность человека оказаться двойным убийцей, которая еще меньше. (Там были и другие проблемы: эксперт не учел, что, если в семье уже был один случай СВДС, вероятность второго увеличивается.) Дело Кларк тоже было пересмотрено – в 2003 году.

Так что же с иммунными паспортами? Если ваш тест на антитела положительный, даже если его чувствительность и специфичность составляют 95 %, вы не знаете, насколько вероятно, что вы перенесли это заболевание. Тут важно, насколько вероятно, что вы болели до того, как прошли тестирование, – это ваша априорная вероятность. Самое очевидное условие – степень распространенности заболевания среди населения.

Предположим: переболело 60 % населения, и вы протестируете миллион человек, тогда среди них будет 600 тысяч переболевших и 400 тысяч не болевших. При этом ваш тест правильно выявит 570 тысяч переболевших и неправильно укажет 20 тысяч человек как переболевших. Так что, если ваш результат положителен, то шансы, что он ложноположителен, составляют всего 3 %.

Но если переболело лишь 10 % населения, тогда из вашего миллиона человек переболевшими окажутся 100 тысяч, из которых тест правильно выявит 95 тысяч, но зато из оставшихся 900 тысяч он объявит болевшими 45 тысяч. Поэтому если вы получите положительный результат, то с вероятностью 32 % вы все-таки не болели, только теперь будете считать, что уже защищены, и поэтому можете гулять по улицам, навещать пожилых родственников и работать в домах престарелых.

Опять-таки все эти числа верны, если вы тестируете случайных людей. Ваши оценки будут точнее, если вы протестируете людей, у которых наблюдались основные симптомы болезни. Тогда вы будете проверять тех, кто с большей вероятностью переболел, так что положительный тест будет более убедительным. Ваша априорная вероятность будет выше. Но пока у вас нет какой-то оценки этой априорной вероятности, вы не можете знать, что означают результаты теста.

Эту концепцию трудно понять – и не только читателям и журналистам. В ходе проведенного в 2013 году исследования были опрошены почти 5000 американских ординаторов, специалистов в области акушерства и гинекологии, то есть квалифицированных врачей. Им было предложено вычислить вероятность того, что у человека рак, если известно, что эта болезнь у 1 % населения, а человек получил положительный результат при тестировании с 90 %-ной точностью. Верный ответ – около 10 %, но даже при выборе из заданных ответов 74 % докторов ошибались.

Однако эта концепция очень важна. Важна, потому что мы читаем публикации о массовых профилактических обследованиях, о тестировании на наличие заболевания и т. д. и без этой информации может показаться, что положительный результат при тестировании с 95 %-ной точностью означает, что человек болен с вероятностью 95 %. Но это не так. Когда вы читаете статью про тесты с 99 %-ной точностью, идет ли речь о массовом тестировании на рак, о ДНК-профилировании, ковиде или еще о чем-то, относитесь к ней с осторожностью, если там не уделяется внимание этим вопросам.

Глава 11
Риски абсолютные и относительные

В 2018 году The Daily Telegraph опубликовала устрашающую новость для возрастных отцов: у мужчины, ставшего родителем в 45 лет и позже, «дети с большей вероятностью имеют врожденные проблемы со здоровьем». В частности, у таких детей вероятность судорожных приступов на 18 % выше, чем у детей, родившихся у мужчин в возрасте от 25 до 34 лет. Честно говоря, это было приятным отступлением от популярных страшилок о повышенных рисках (обычно чудовищно преувеличенных) бесплодия и различных врожденных дефектов, которыми пугают старородящих матерей.

В основе этой статьи лежало исследование из British Medical Journal (BMJ), в котором изучалось, как на ребенка влияет возраст отца. В нем действительно отмечался рост упомянутых рисков. Но кое-что в материале The Telegraph не уточнялось: на 18 % больше, чем сколько?

Когда что-то выросло на 75 % или уменьшилось на 32 % и так далее – это все относительные изменения. Если мы говорим о рисках – что-нибудь в таком духе: у того, кто съедает пять и более жареных лебедей в неделю, риск когда-либо в жизни заболеть подагрой возрастает на 44 %, – то речь идет об относительных рисках.

Так часто говорят про риски. Например, в 2019 году на канале CNN объявили, что бекон повышает вероятность заболеть раком кишечника: она возрастает на 20 % с каждыми съеденными 25 граммами (примерно одним ломтиком) переработанного мяса в день.

Или, возвращаясь к риску врожденных пороков, связанных с возрастом отца: в 2015 году было заявлено, что дети отцов-подростков с большей вероятностью – на 30 %, по мнению Daily Mail, – будут страдать от «аутизма, шизофрении и расщепления позвоночника».

Звучит устрашающе. Как и увеличение на 20 или на 18 %. Все эти числа кажутся значительными. Вам даже может показаться, что вероятность заболеть раком кишечника для вас составляет 20 %, если вы будете есть бекон, или что ваш ребенок будет страдать от расщепления позвоночника с вероятностью 30 %, если вы станете родителем, не достигнув 20 лет.

Конечно, смысл этих утверждений иной. 30 %-ный рост означает, что ваш риск возрастает с некоторого значения X до значения 1,3, умноженного на X. Но если вам неизвестно X, это мало что дает. Вот почему такую информацию следует формулировать в контексте абсолютных рисков: сообщать, насколько вероятно наступление того или иного события, а не то, насколько эта вероятность изменилась.

Что касается опасности развития онкологического заболевания для любителей бекона, согласно Фонду исследований рака, базовая вероятность заболеть раком кишечника на протяжении всей жизни в Великобритании составляет около 7 % для мужчин и около 6 % для женщин.

Очевидно, это не так уж мало – примерно одна пятнадцатая, в зависимости от пола, заболеть. А теперь посмотрим, что означает 20 %-ное увеличение.

Возьмем наибольшую оценку. Предположим, вы – британский мужчина. Вероятность заболеть раком кишечника для вас составляет 7 %. Ежедневно вы съедаете по дополнительному ломтику бекона (около 25 г). Это повышает для вас риск на 20 %.

Но помните: это 20 % от 7 %, то есть 1,4 %. Значит, риск повышается с 7 до 8,4 %. Если вы не умеете обращаться с процентами или редко с ними сталкиваетесь, то могли бы подумать, что риск вырастет на 20 процентных пунктов, то есть до 27 %. Но это не так.

Итак, ваш риск развития рака кишечника увеличивается с одной пятнадцатой до одной двенадцатой. Тоже не пустяк, но звучит не так пугающе, как «повышается на 20 %».

Можно добавить больше точности. Ожидается, что семь из ста британских мужчин в какой-то момент заболеют раком кишечника. Если все они начнут ежедневно есть по дополнительному ломтику бекона, то вместо семи их будет уже примерно 8,4. Такое увлечение мясом ведет к одной семидесятой вероятности того, что у вас будет рак кишечника, которого иначе у вас бы не было. А для женщин риск еще меньше.

Мы не хотим сказать, что одной семидесятой вероятности можно пренебречь. Это важная информация, она поможет вам решить, стоит ли менять рацион. Но это совершенно не то же самое, что «увеличение риска на 20 %», которое ничего не говорит о ваших личных рисках. Это компромисс между удовольствием от дополнительной порции бекона (это вкусно и может наполнить вашу жизнь радостью!) и риском развития рака. Чтобы понять, стоит ли оно того, вам нужна полноценная информация.

Иногда с помощью относительных рисков преувеличивают эффективность лекарств. Например, реклама одного препарата от рака в США гласила: «снижает риск смерти на 41 % по сравнению с химиотерапией», что звучит неплохо, но фактически означает продление жизни на 3,2 месяца. Исследование, проведенное Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов, показало: когда докторам сообщают данные об относительной, а не абсолютной эффективности лекарства, они выше оценивают его эффективность и чаще его прописывают, то есть тоже обманываются величинами относительного риска. Доступ к абсолютным числам помогает всем нам – и пациентам, и врачам – лучше понимать опасность.

Точно так же надо быть бдительным, читая о быстром росте чего-либо, например числа приверженцев какой-то конфессии или политической партии. Пусть партия действительно растет быстрее, чем другие, в относительных числах и за неделю количество ее членов удвоилось. Но если потом окажется, что на прошлой неделе в ней состояла всего одна активистка, которая на этой неделе уговорила присоединиться своего мужа, так что теперь их двое, вы можете несколько разочароваться в темпах роста партии.

* * *

Вернемся к исходной статье о возрастных отцах и детях с судорогами. Вы знаете относительное увеличение риска – 18 %. Но теперь вам также известно, что само по себе это мало о чем говорит. Тут важна абсолютная величина риска: какова вероятность появления судорог у детей более молодых и более старых отцов.

Соответствующие показатели составляют 0,024 % и 0,028 %. Риск, что у вашего ребенка будут приступы, если вы стали отцом в возрасте 25–34 лет, равен 24 из 100 000, а если в 45–54 – 28 из 100 000. Разница – в среднем четыре младенца из ста тысяч.

Все это не значит, что разница несущественна. Даже четыре из ста тысяч – это реальный шанс. Но тут приходится идти на компромисс: тот, кто в старшем возрасте захочет завести ребенка, может решить, что это стоит небольшого дополнительного риска.

При всем при том трудно винить одни СМИ. Во многих научных статьях не указывается величина абсолютного риска, хотя это необходимо делать по правилам большинства журналов. Например, в опубликованной BMJ статье о возрастных отцах результаты исследования указывались – вопреки требованиям издания – в относительных рисках. Но даже если в самой статье есть абсолютные числа, не факт, что они попадут в СМИ. Журналисты обычно спешат и часто не подкованы в статистике – им затруднительно найти нужную информацию в самой статье (даже если она там есть, а ведь может и не быть), а порой они не понимают, что она нужна, даже если у них есть доступ к тексту.

Но это ключевой аспект коммуникации. Научная журналистика, по крайней мере когда речь идет об опасностях того или иного поведения, просто обязана предоставлять читателям полезную информацию: если я по вечерам выпиваю бокал вина, не будет ли у меня от этого рака или сердечной болезни? Причем информация нужна в абсолютных терминах, иначе от нее нет пользы. Научные журналы, пресс-службы университетов и СМИ должны следовать незыблемому правилу: указывать риски в абсолютных, а не относительных числах.

Глава 12
Не изменилось ли то, что мы измеряем?

«Количество преступлений на почве ненависти в Англии и Уэльсе за пять лет удвоилось», – сообщила The Guardian в октябре 2019 года. Звучит ужасно.

Данный заголовок опирался на статистику, собранную полицией за 2013–2019 годы. В газете констатировалось, что в 2018–2019 годах стражам порядка сообщили о 103 379 преступлениях на почве ненависти, 78 991 из них были связаны с расой. А в 2012–2013 годах их было меньше – 42 255.

Удивлены вы или нет, прочитав это, обе ваши реакции обоснованны. Мы живем в век страшных и громких преступлений на почве ненависти, хотя в то же время наблюдается всеобщая тенденция к снижению уровня нетерпимости. Например, в обзоре настроений британского общества отмечено, что выросла толерантность к однополым отношениям: в 1983 году менее 20 % британцев считали, что в них нет ничего неправильного, а к 2016 году доля таких ответов превысила 60 %. Сходным образом в 1983 году более половины белых британцев сказали, что им не понравится, если их близкий родственник вступит в брак с темнокожим или азиатом, а к 2013 году таких респондентов оказалось всего 20 %.

Вполне возможно, что общество в среднем становится терпимее, но при этом в некоем предубежденном меньшинстве растут радикальные настроения. И тем не менее странно, что число преступлений на почве ненависти будто бы удвоилось, а количество людей, которые разделяют взгляды, лежащие в основе этих преступлений, уменьшилось более чем наполовину. В чем дело?

Давайте сначала поговорим о другом. Диагноз аутизм – расстройство развития, связанное с проблемами в социальных коммуникациях и взаимодействии, – ставится все чаще. В 2000 году расстройства аутистического спектра (РАС), по оценкам американских Центров по контролю и профилактике заболеваний, встречались у одного из 150 детей; в 2016-м – уже у одного из 54. Но и оценка 2000 года была намного выше показателей предыдущих десятилетий: согласно исследованиям 1960-х и 1970-х, аутизм диагностировался у одного ребенка из 2500 или даже из 5000 детей. Сходные тенденции характерны и для других стран. Особенно для богатых.

Эта динамика привела к разговорам об «эпидемии аутизма», попыткам найти ее истоки. Психиатры винили холодных и отстраненных родителей (введя для этого ужасный термин «мать-холодильник»). Эта теория оказалась совершенно неверной, и то, что у эмоционально сдержанных родителей чаще встречаются эмоционально сдержанные дети, можно объяснить множеством причин. Позже аутизм пытались связать с загрязнением тяжелыми металлами, гербицидами, электромагнитным излучением, глютеном, казеином и – конечно же! – вакцинацией.

Но все эти объяснения не годятся. Мы не используем гербициды в большем количестве, и не доказано, что глифосат (гербицид, который чаще других называют виновником аутизма) как-либо связан с расстройствами развития. Нет никакого правдоподобного механизма или эпидемиологического обоснования связи между радиацией и аутизмом. Связь с вакцинацией не подтверждается доказательствами. Кроме того, если бы это было правдой, наблюдались бы всплески таких диагнозов после внедрения в стране соответствующей вакцинации, а этого не происходит. На самом деле никто не смог найти в окружающей среде никаких убедительных факторов риска возникновения аутизма; представляется, что речь идет в основном о сочетании наследственности и случайности.

Так почему же количество диагнозов аутизма растет так поразительно быстро?

Похоже, вот что произошло. Во втором издании «Диагностического и статистического руководства по психическим расстройствам» (DSM-II), опубликованном в 1952 году, аутизм как диагноз отсутствовал – термин упоминался лишь в связи с детской шизофренией. В 1980 году вышло третье издание справочника DSM-III, где аутизм был уже указан как самостоятельное заболевание – «первазивное расстройство развития», связанное с нарушениями в развитии мозга. Давались критерии постановки диагноза: «нежелание идти на контакт с окружающими», «большой дефицит языкового развития» и «странные реакции на окружающий мир». Если все это замечалось у ребенка до достижения им двух с половиной лет, у него диагностировали аутизм.

Стандарт DSM-III пересмотрели в 1987 году – диагноз расширили. В аутизм включили более легкие формы заболевания, список критериев увеличили до 16 (для постановки диагноза достаточно восьми из них), разрешалось ставить диагноз детям старше двух с половиной лет. Впервые аутизм был разбит на две части: «аутизм» и «первазивное расстройство развития без дополнительных уточнений (PDD-NOS)» – это позволяло ставить диагноз и тем детям, чьи особенности не подходили полностью под определение аутизма, но которые тем не менее нуждались в помощи.

В опубликованной в 1994 году версии (DSM-IV) впервые появилось слово «спектр» и было описано пять различных форм аутизма, включавшие хорошо известный синдром Аспергера.[22]

Из текущего издания, DSM-5 (от римских цифр теперь почему-то отказались), отдельные формы полностью исчезли – три из них объединены под названием расстройства аутистического спектра без четкого разграничения. (Две другие были исключены из категории «аутизм».)

Таким образом за несколько десятилетий понятие «аутистический» неоднократно менялось: сначала отдельного заболевания аутизм не было вовсе, потом их стало пять, а позже – одно, с расширенным определением. За это время соответствующая категория и расширилась: дети, которым раньше из-за старых критериев не могли поставить аутизм, теперь получали этот диагноз.

Неожиданно мы нашли простое объяснение, почему этот диагноз теперь ставится намного чаще, чем раньше: он несколько раз поменял свое значение и расширился до большей категории людей. Постепенно о нем узнавали все больше врачей и родителей, появлялись действенные способы, помогающие улучшить жизнь пациентов с РАС, – поэтому обследовалось все больше детей.

Вполне вероятно, что людей с ментальными особенностями, теперь ассоциирующихся с аутизмом, среди населения не стало больше. Кажущийся рост доли людей с аутизмом может объясняться тем, что медики изменили объект своих измерений: став более внимательно приглядываться к характеристикам, которые могут говорить о РАС.

Порой статистика существенно меняется из-за изменения системы учета. Например, за период 2002–2019 годов число изнасилований, зарегистрированных полицией в Англии и Уэльсе, утроилось – примерно с 50 000 до около 150 000. Однако связано это с тем, что раньше стражи порядка и суды не считали их серьезными преступлениями (поразительно, что сексуальное насилие в отношении супруги (или супруга) не считалось преступлением вплоть до 1991 года). Изменения в общественном сознании заставили полицейских пересмотреть свой подход, и теперь они с большей вероятностью регистрируют такие правонарушения.

Если бы мы хотели сравнить количество изнасилований в 2002-м и в 2019-м, используя данные полиции, нам понадобилось бы определить, сколько из них стражи порядка зарегистрировали бы в 2019 году, если бы применяли те же методы, подходы и критерии, которые были в ходу в 2002-м. Но это невозможно, поэтому придется пойти другим путем.

Обзор преступлений по Англии и Уэльсу – это массовый опрос людей о том, как часто они становились жертвами преступлений. Его цель – определить тенденции, поэтому методология не менялась десятилетиями. Соответственно, он не связан с тем, изменились ли у полицейских привычки регистрации преступлений, хотя, конечно, может зависеть от изменений в обществе, например от того, что люди начали свободнее говорить об изнасилованиях и сообщать о них – раньше это по многим причинам было не так. В опросе фиксируется не совсем то, что в полицейской статистике, но он тем не менее отражает ту же самую реальность.

Согласно Обзору, количество изнасилований сократилось с 800 000 в 2004 году до примерно 700 000 в 2018-м. Изменения учета и измерения данных привели к тому, что реальный спад стал выглядеть как подъем. (Стоит отметить, что в Обзоре выявляются только преступления, жертвами которых были люди 16–59 лет, в то время как полиция регистрирует также преступления против детей и лиц более старшего возраста; мы не думаем, что это существенно сказывается на результатах, но это означает, что рассматриваются немного разные вещи.)

Системы измерения и регистрации меняются довольно регулярно, часто по уважительной причине. Это неоднократно происходило в первые месяцы пандемии. Долгое время большинство американских штатов считали, что смерть обусловлена ковидом, только если имелся подтвержденный лабораторным исследованием положительный тест. Затем 26 июня 2020 года несколько штатов договорились включать в статистику «вероятные» смерти, то есть такие случаи, когда у пациента наблюдались симптомы ковида, но не было результатов ПЦР-теста. Потому что было ясно, что при учете только случаев, подтвержденных тестами, теряется большое количество реальных смертей от коронавируса. Так что 26 июня произошел резкий скачок смертности, хотя в реальной жизни ничего не изменилось.

Так что же происходило с преступлениями на почве ненависти? Точно так же, как с изнасилованиями, в новостях фигурировало число преступлений, зарегистрированных полицией. И точно так же, как с изнасилованиями, полиция традиционно была не особенно склонна считать преступления на почве ненависти по признаку расы, пола, особенностей здоровья или сексуальной идентичности достаточно серьезными. В последние годы это, к счастью, стало меняться.

И тут мы тоже не можем посмотреть, сколько преступлений зарегистрировала бы полиция, если бы продолжала применять методы и подходы 2013 года. Зато снова можем воспользоваться Обзором преступлений по Англии и Уэльсу, который, как вы помните, составлен на основании массового опроса населения и позволяет оценить уровень распространенности различных преступлений, не полагаясь на статистику полиции.

Опять-таки и в этом случае числа нельзя сравнивать напрямую, потому что в Обзор включено не совсем то, что в полицейскую статистику; но видно, что реальная тенденция движется в обратную сторону. Обзор показывает, что в 2017–2018 годах произошло около 184 000 преступлений на почве ненависти – меньше, чем в 2007 году (около 300 000) и в 2013-м (около 220 000). Правда, в The Guardian отмечалось, что видимый рост «частично объясняется улучшением учета преступлений».



Ничего хорошего тут все равно нет: 184 000 – это тоже ужасно много. При этом Обзор зафиксировал реальные пики после референдума 2016 года и серии террористических актов в 2017 году. Однако это показывает, что изменения в учете и регистрации могут перевернуть ситуацию с ног на голову, показав рост там, где на самом деле имел место спад. И если СМИ не укажут на эти изменения, вы получите превратное представление о происходящем.

Глава 13
Рейтинги

«Великобритания поднимается в международном рейтинге школ», – гласил заголовок на сайте BBC в 2019-м. В рейтинге Международной программы по оценке образовательных достижений учащихся (PISA) Соединенное Королевство за год поднялось с 22-го на 14-е место по чтению и повысило показатели по естествознанию и математике. Звучит хорошо, да?

Ну да, это явно неплохо (по крайней мере для Великобритании, ведь если одна страна поднялась, то другая опустилась). Но подобные недетализированные рейтинги могут скрывать массу информации. Они всего лишь располагают ряд чисел по порядку (от большего к меньшему), показывая, кто занял первое место, кто – второе, кто – третье (а кто – последнее). Само по себе это мало о чем говорит, если вас не интересует рейтинг как таковой.

Например, часто можно встретить утверждение, что Великобритания – пятая экономика мира. По крайней мере, раньше оно встречалось. Согласно Международному валютному фонду, в 2019 году Соединенное Королевство обошла Индия. Это был большой позор с точки зрения тех британцев, для которых позиция страны в данном рейтинге удивительным образом служила основой национальной гордости. (И это произошло не впервые. За последние годы Великобритания, Франция и Индия несколько раз менялись местами в таблицах МВФ: Индия уже занимала пятую строчку в 2016-м, Франция – в 2017-м.)

Но какая для Британии разница, занимает она пятое, шестое или седьмое место? Что говорит об экономике этой страны ее позиция в рейтинге?

Очевидно, что она росла не так быстро, как экономика Индии за год, прошедший между двумя рейтингами. Но значит ли это, что экономика Великобритании велика? Кажется, что да, ведь в мире 195 стран, пятая по величине – это же большая? Но так ли это?

Проведем аналогию с футболом. В сезоне 2018/19 года «Манчестер Сити» занял первое место, а «Ливерпуль» – второе. В сезоне 2019/20 «Ливерпуль» (в конце концов, после трехмесячного перерыва из-за ковида) занял первое место, а «Манчестер Сити» – второе. Если кроме рейтинга вас ничего не интересует, то вам покажется, что эти сезоны похожи. Но рейтинг скрывает важную разницу: в 2018/19 «Манчестер Сити» опередил «Ливерпуль» всего на одно очко, а в 2019/20 «Ливерпуль» обошел соперника на 18.

Так же и с рейтингом МВФ: семь ведущих стран по номинальному ВВП – это США, Китай, Япония, Германия, Индия, Великобритания и Франция. Определяются ли победители по фотофинишу, как в футбольном сезоне 2018/19, или это чистый разгром, как в 2019/20?

Давайте посмотрим.

Великобритания и Франция идут почти что ноздря в ноздрю: экономика Соединенного Королевства всего на 1,3 % больше, а поскольку измерить экономику страны очень сложно, то разница, возможно, находится в пределах погрешности. Индия снова немного впереди: ее ВВП примерно на 7 % больше, чем у Великобритании, но это едва ли ошеломляющий разрыв.

Зато дальше идет Германия, а ее экономика на 40 % больше, чем у Великобритании. Япония ушла вперед на 87 %. А Китай и США вообще играют на другом поле: ВВП Китая на 380 %, почти в пять раз, больше ВВП Соединенного Королевства, а ВВП США – на 630 % (почти в семь с лишним раз). Разговоры о том, кто занимает пятое место, напоминают борьбу «Эвертона», «Арсенала» и «Вулверхэмптона» за выход в Лигу Европы.[23]

На этот вопрос – велика ли экономика Великобритании? – можно ответить и с помощью сравнительной шкалы. Доля США в мировом ВВП огромна: почти каждый четвертый доллар, расходуемый в мире, тратится американцем. Каждый шестой – китайцем. А на долю Великобритании приходится чуть больше 3 % глобальной экономики. Тут можно вспомнить про напиток Virgin Cola, который в начале 1990-х выпустил Ричард Брэнсон в расчете на победу над кока-колой и пепси. Эти бутылочки, имитировавшие силуэт Памелы Андерсон, смогли захватить в Великобритании лишь около 3 % рынка безалкогольных напитков со вкусом колы и через несколько лет перестали выпускаться. Вполне вероятно, что Virgin Cola была третьей по популярности колой в стране, но объем продаж все же не был особо велик. Так и Великобритания: даже если она и пятая экономика мира, это мало что значит.

И нам по-прежнему не хватает многих данных. Представьте, что завтра кто-то что-то изобретет, например холодный ядерный синтез с помощью пары лимонов и банки из-под фанты. Мгновенно все экономики мира вырастут в десять раз.

Заглянем в нашу таблицу: Великобритания по-прежнему шестая, после Индии. Просто к ее ВВП добавился нолик на конце.

Относительное богатство действительно важно, и есть доказательства, что мы чувствуем себя лучше – по крайней мере частично – не от осознания абсолютной величины своего богатства, а когда понимаем, насколько мы состоятельнее окружающих. Но вот открытие холодного синтеза на базе банки из-под фанты произведет революцию в мире и выведет из бедности сотни миллионов людей. А в нашем рейтинге ничего не изменится. Французы – бездельники, которым лишь бы побастовать, – будут по-прежнему прозябать на седьмом месте.

(Стоит заметить, что лично вам не особенно важна величина ВВП страны, если рассматривать население в целом. У Лихтенштейна всегда будет крошечный ВВП, поскольку там не так много жителей, но большинство граждан состоятельны. А вот у Индонезии ВВП довольно велик, поскольку там немало людей, но многие ее жители совсем бедные. Возможно, больший интерес представляет ВВП на душу населения. По этому показателю МВФ спускает Великобританию намного ниже – на 21-е место.)

Рейтинги нельзя назвать абсолютно бесполезными. Они показывают ваше положение среди других, будь вы продавец в магазине, школа в Лестершире или западноевропейское демократическое государство среднего размера. Например, может быть полезным знать, отстает ли Великобритания от Германии по количеству сделанных ПЦР-тестов на коронавирус или как соотносятся расходы на культуру или оборону нашей страны и других государств. Но даже и это полезно только при условии, что мы также знаем, на каких данных основан рейтинг. Если мы отстаем от Германии в тестировании, потому что они проверяют 500 человек из каждых ста тысяч, а мы – 499, то, возможно, нам это неважно. А вот если это 500 против 50, то дело явно неладно.

Но в наше время принято все оценивать количественно: есть рейтинги университетов, школ, больниц. Рейтинги пиццерий и иерархия кебабов.

Дополнительная загвоздка в том, что многие рейтинги основаны на субъективных оценках. Например, мировой рейтинг университетов в значительной степени опирается на «научную репутацию» – от нее зависит 40 % баллов учебного заведения. Ученых опрашивают о том, насколько высоко они оценивают преподавание и исследования в 200 различных учебных заведениях. Поскольку большинство респондентов не посетили ни одной лекции в большинстве из этих вузов, многое тут будет основано лишь на догадках. Поэтому рейтинги университетов весьма волатильны. Например, Манчестерский университет, в котором учился Дэвид, занимает 27-е место в мировом рейтинге, но 40-е – в рейтинге британских университетов по версии The Guardian. Это, конечно, смешно: если в одной Великобритании 39 университетов лучше Манчестерского, то в мире их наверняка больше 26, раз мир содержит Великобританию. С Королевским колледжем Лондона, где Том был аспирантом, та же история: 63-й в Великобритании и 31-й в мире.



Эти противоречивые результаты объясняются выбором факторов, включаемых в оценку, и весами этих факторов: если решить, что удовлетворенность студентов важнее научной репутации, то результаты будут иными. Выбор того, что именно стоит принимать во внимание, сильно меняет положение. Это не означает, что рейтинги неверны, просто не стоит воспринимать их как истину в последней инстанции.

Вернемся к рейтингам PISA. На чем они основаны? Много ли от них пользы?

Прежде всего отметим, что они не столь субъективны, как рейтинги университетов. Баллы присуждаются по результатам стандартизированных экзаменов для 15-летних школьников, которые проводятся во всех участвующих в рейтинге странах; вопросы касаются математики, естествознания и навыков чтения. И похоже, что эти тесты значимы и в реальной жизни: дети, получившие высокие баллы на экзаменах PISA, в дальнейшем лучше учатся и имеют больше шансов найти работу, чем те, кто сдал экзамены хуже. Следовательно, на экзаменах PISA проверяется нечто действительно важное, поэтому данные рейтинги не то чтобы совсем бессмысленны.

Но рейтинги PISA базируются на баллах PISA, и в большинстве наиболее богатых развитых демократических стран (таких как Британия) эти баллы разнятся мало. Посмотрим, например, на чтение: в Соединенном Королевстве средний балл – 504, как и в Японии, на один выше, чем в Австралии, и на один ниже, чем в США. В целом баллы колеблются в диапазоне от 555 (в четырех китайских провинциях) до 320 (в Мексике и на Филиппинах); 20 стран – почти все из них богатые, развитые и демократические – набрали баллы от 493 до 524. Даже маленькое, статистически несущественное уменьшение приведет к тому, что Великобритания опустится на несколько позиций. Фактически рейтинг PISA показывает, что баллы Великобритании статистически неотличимы от баллов Швеции (506), Новой Зеландии, США, Японии, Австралии, Тайваня, Дании, Норвегии и Германии (498). Теоретически некая страна может прыгнуть с 20-го на 11-е место без каких-либо реальных изменений. (Рейтинг Великобритании по математике повысился с 27-го до 18-го места, и это очевидно было статистически значимо.)

Опять-таки это не значит, что рейтинги бессмысленны. Но это значит, что сами по себе они не очень полезны: все зависит от того, какие баллы лежат в их основе и из чего эти баллы складываются. Вам важно, что ваша футбольная команда обогнала соперников на одно очко, но может быть совершенно не важно, что ВВП вашей страны на 1 % меньше ВВП Индии.

Глава 14
Как результаты нового исследования соотносятся с другими публикациями?

Вот это да! Хорошая новость! «Исследование показало, что небольшой бокал красного вина в день может помочь избежать возрастных заболеваний – диабета, Альцгеймера, сердечных болезней».

Хотя постойте-ка! «Бокал красного НЕ полезен для сердца. Ученые развенчивают миф, что умеренное потребление алкоголя полезно для здоровья».

Хм-м.

И снова хорошая новость! «Один бокал богатого антиоксидантами красного вина в день снижает риск рака простаты у мужчин более чем на 10 %».

Опять постойте-ка… «Даже один бокал вина в день повышает вероятность развития рака: тревожное исследование показывает связь выпивки по меньшей мере с СЕМЬЮ формами заболевания».

Да, пить красное вино и читать Daily Mail – всё равно что кататься на американских горках. И дело не в том, что Mail что-то выдумывает (или что только у них одних есть подобные публикации): все эти заголовки опираются на реальные исследования, проведенные в последние пять лет. Так что же в итоге? Красное вино – эликсир вечной жизни или смертельный яд?

Вспомним главу 3, где мы говорили о размерах выборки, и главу 5, где обсуждали p-значения. Если вы проводите исследование, или опрос общественного мнения, или еще что-нибудь, пытаясь с помощью выборок выяснить что-то – сколько избирателей готовы проголосовать за лейбористов или насколько эффективно лекарство, – полученные данные необязательно будут точно отражать истину. Даже если вы взяли несмещенную выборку и правильно организовали исследование, результат может по чистой случайности оказаться выше или ниже реального значения.

Из этого следует очевидное. Предположим, что поедание рыбных палочек слегка уменьшает вероятность храпа. (Маловероятный сценарий, но предположить-то можно все?)

Допустим, что для изучения влияния палочек на храп ученые провели кучу исследований. И пускай, хотя некоторые из них были совсем небольшими, проведены они были превосходно и без публикационного сдвига (см. главу 15), p-подгонки (глава 5) или еще каких-нибудь статистических выкрутасов. (В такое тоже трудно поверить, но будем держаться выбранного пути.)

Можно ожидать, что в среднем исследования покажут: любители рыбных палочек храпят чуть меньше. Но результат любого отдельного исследования может слегка отличаться. Если исследования по-настоящему непредвзятые, то их результаты должны подчиняться нормальному распределению (о котором мы говорили в главе 3) с пиком в точке реального эффекта. Результаты некоторых будут выше, некоторых – ниже, у большинства – почти точные.

Поэтому, если проведено много исследований связи между рыбными палочками и храпом, то часть из них дадут не соответствующие реальности результаты. Они могут недооценивать или переоценивать эффект; могут показать, что эффекта нет вовсе; и даже прийти к выводу, что рыбные палочки вызывают храп. И снова: это вовсе не значит, что с исследованиями или с публикациями что-то не то. Всё это – просто следствия случайности.

Разумно постараться определить, вокруг какой точки концентрируются результаты всех исследований, то есть чему равен средний результат. Вот почему в начале научной статьи обычно дается обзор литературы – чтобы поместить ее результаты в общий контекст исследований. Иногда исследователи публикуют метаанализ – научную статью, где анализируются все имеющиеся публикации с целью объединить их результаты. Если исследований достаточно много и если не было никакого систематического смещения ни в исследованиях, ни в публикациях (это два очень серьезных «если», как мы уже упоминали), то объединенный результат даст довольно точное представление об истинной величине эффекта.

Именно так развивается наука, по крайней мере в теории. Каждое новое исследование добавляется к стопке предыдущих. Теперь это новый набор данных, который, можно надеяться, в среднем приблизит общенаучное представление к реальности.

А теперь представьте, что публикуется новое исследование и ученые вместо того, чтобы сказать: «Это исследование уточняет, а возможно, слегка изменяет наше понимание реальности», спешно выбрасывают прежние публикации и говорят: «Это новое исследование показывает, что все предыдущие были неверными: теперь-то мы знаем, что рыбные палочки – причина храпа, забудьте все, что мы говорили раньше».

Вот что происходит каждый раз, когда журналист пишет о новой научной публикации: «Ошеломляющее открытие: причиной храпа оказались рыбные палочки», не поместив ее в контекст существующих результатов.

Спору нет: перед журналистами стоит трудная задача. В газетах же пишут о новостях, а главные научные новости – это публикации новых исследований. «Новое исследование мало о чем говорит, оно имеет смысл лишь в контексте ранее сделанных» – не самый захватывающий заголовок. К тому же большинство журналистов – как и большинство читателей – могут не осознавать, что научные статьи следует рассматривать не сами по себе, а как часть целого, поэтому они думают: «Ага, значит, на этой неделе красное вино полезно» или что-то подобное. Надо добавить, что финансовое положение многих СМИ постоянно ухудшается, поэтому научным журналистам часто приходится писать по пять, а то и больше новостей в день. Порой им элементарно не хватает времени выйти за пределы пресс-релиза, не говоря уж о том, чтобы позвонить другим ученым и поместить новые результаты в существующий контекст.

Но это серьезная проблема, потому что таким образом читатели получают искаженное представление и об опасности определенных вещей, и о накоплении научных знаний. Если связь между рыбными палочками и храпом, по-видимому, меняется еженедельно – с каждым новым исследованием, – читателям простительно думать, что развитие науки по сути сводится к переходу от одной выдумки к другой.

Одно дело – нелепый мысленный эксперимент о рыбных палочках и храпе. Но и в реальной жизни подобное происходит постоянно. Если продолжать придираться к Daily Mail, то поиск на их сайте по фразе «new study says» («новое исследование показало») выдает более пяти тысяч результатов на различные темы, вроде влияния ожирения на работу мозга, взаимосвязи социальных сетей и стресса, продлевает ли кофе жизнь. Это все настоящие исследования? Да. Каждое ли из них точно передает современный научный взгляд на предмет? Необязательно.

И все становится еще серьезнее. В 2017 году внимание прессы привлекло исследование, в ходе которого обнаружили, что в мозгу у людей с аутизмом высок уровень содержания алюминия. За этим исследованием не стоят другие публикации – до сих пор попытки обнаружить заметное влияние окружающей среды на развитие аутизма не увенчались успехом, – тем не менее оно увеличило опасения, связанные с прививками (потому что некоторые вакцины содержат этот металл).

Прародителем всех этих страхов перед прививками, которые якобы вызывают аутизм, была статья Эндрю Уэйкфилда с соавторами, опубликованная в 1998 году в журнале The Lancet. В ней утверждалось, что существует связь между прививкой MMR (против кори, эпидемического паротита и краснухи) и аутизмом; эта статья тоже не подкреплялась никакими другими работами. Единичное небольшое исследование дало неожиданный результат: при взвешенном подходе к научным публикациям оно бы не вызвало особого интереса, даже если бы не оказалось фальсифицированным. Но из-за распространенной тенденции воспринимать такие работы как непреложную истину, а не как еще один штрих к картине мироздания, эта статья вызвала гигантскую волну страха и привела ко всемирному падению уровня вакцинации. В результате корь убила несколько детей или стала причиной их инвалидности. Иногда, пусть и изредка, важно точно оценивать значимость отдельно взятого исследования для науки в целом (обычно она не очень высока).

Так что там с красным вином и здоровьем? Несмотря на чересполосицу кричащих заголовков позиция здравоохранения по этому вопросу не меняется годами. Те, кто потребляет небольшое количество алкоголя (грубо говоря, до семи пинт [24]пива или чего-то подобного в неделю), как правило, живут чуть дольше тех, кто вообще не пьет; но с ростом потребления алкоголя ожидаемая продолжительность жизни снова падает. Это открытие неоднократно подтверждалось в масштабных исследованиях. Это описано как J-образная кривая: уровень смертности сначала падает, а потом поднимается, как у скошенной буквы J или у эмблемы Nike.

Эффект тут небольшой, и причина его не вполне ясна: человек может воздерживаться от алкоголя, например, из-за проблем со здоровьем, которые и сокращают продолжительность его жизни. Однако, по общему мнению, умеренное потребление алкоголя порой дает небольшой защитный эффект по сравнению с полным воздержанием. Относится ли это в большей степени к красному вину, неизвестно.

Но поскольку эффект невелик, каждое новое исследование может показать, что небольшое количество алкоголя вредно, полезно или вообще ни на что не влияет. Новые исследования обретают значение только в контексте. Будьте начеку, когда видите слова «новое исследование показало». Особенно если речь идет о здоровье и образе жизни.

Глава 15
В погоне за новизной

«Портят ли вас деньги?» – вопрошал заголовок BBC News в 2015 году. В статье обсуждалось исследование денежного прайминга [25]– направления в психологии, где изучается влияние финансов на поведение людей. В той эффектной публикации говорилось: вы можете «зафиксировать» человека на теме денег, если дадите ему задание по расшифровке фраз со словами, связанными с финансами, – после этого он с меньшей вероятностью будет заниматься благотворительностью или помогать другим.

Социальный прайминг – а денежный включается в данное понятие – стал популярен в первом десятилетии XXI века. В этой области были получены любопытные результаты вроде описанного выше. Или, в случае социального прайминга, что фиксация установки на словах, связанных с возрастом (например, «лото», «морщины» или «Флорида» – у американцев этот штат ассоциируется с выходом на пенсию), приводит к тому, что, покидая помещение, где проводился эксперимент, испытуемые замедляют шаг.

Социальный прайминг наделал много шуму. Даниэль Канеман, знаменитый психолог и первооткрыватель когнитивных искажений, получивший Нобелевскую премию по экономике за совместное с Амосом Тверски исследование, в 2011 году писал, что невозможно не верить в поразительное влияние прайминга[26]. Если над «коробкой честности» нарисована пара глаз, то в нее кладут больше денег, чем если бы ее украшала нейтральная картинка с цветами[27]. Вспоминая постыдный поступок вроде толчка в спину коллеге, люди склонны больше обычного покупать мыла и дезинфицирующих средств, чтобы очистить свою совесть, – это эффект леди Макбет, [28].

Однако, когда вышла статья BBC News – и другие публикации, например подробный материал в The Atlantic в 2014 году, – к денежному праймингу появились серьезные вопросы. Исследователи пытались получить те же результаты, но либо не получали их вовсе, либо эффект был слабее и не так впечатлял. Что же произошло?

Да много чего. И есть немало превосходных книг о «кризисе воспроизводимости» – ситуации, когда внезапно обнаруживается, что огромная часть прежних исследований в разных областях, особенно в психологии и особенно в социальном прайминге, не выдерживает тщательной проверки. Но сейчас мы хотим рассмотреть спрос на новизну в науке.

Серьезная проблема заложена в самой основе того, как вообще работает наука Это не вина конкретных ученых, хотя некоторые действительно манипулируют системой. Есть загвоздка и с тем, как популярные СМИ сообщают о новостях – не только научных, любых, – но это удивляет меньше.

Проблема в том, что научные журналы хотят печатать интересные научные результаты.

Однако, в конце концов, разве публикация интересных результатов – не прямая обязанность научных журналов? Какой толк в публикации скучных результатов, где нет ничего нового? И тем не менее это проблема, и колоссальная. Именно она лежит в основе того, что многие цифры, попадающие в ленту новостей (и, что, возможно, еще хуже, в научную литературу), неверны или сбивают с толку.

Спрос на новизну очевиден. Знаменитая статья Дэрила Бема «Чувствуя будущее: экспериментальные доказательства аномальных ретроактивных влияний на познание и аффект» («Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect») в 2011 году потрясла мир психологических исследований. Под неуклюжим заголовком скрывается, по всей видимости, экстраординарное открытие: люди – экстрасенсы и ясновидцы. Они могут предугадывать будущее.

В исследовании Бема несколько классических психологических экспериментов проводилось в обратном порядке. В том числе эксперимент по праймингу вроде социального, упомянутого выше. Предположим, вы хотите определить, получится ли повлиять на чье-либо поведение с помощью подсознательного образа – картинки, которая мелькнет лишь на долю секунды – так, что мозг не успевает ее опознать. Можно, например, показать испытуемому два одинаковых изображения – допустим, дерева справа и слева – и предложить выбрать одно из них. Но перед этим на мгновение предъявить слева или справа какой-нибудь тревожный или неприятный образ. Он пропадает так быстро, что его не успеваешь заметить, но предположительно подсознание его все-таки фиксирует – лет 10–20 назад эта гипотеза была очень популярна, и на ее основе развивалась идея о 25-м кадре. Если противная картинка появляется слева, то потом вы с меньшей вероятностью выберете левое дерево, и наоборот. Этой экспериментальной схемой часто пользовались исследователи социального прайминга.

А Бем делал то же самое, но – вот это поворот! – в обратном порядке: он показывал изображения дерева или чего-то другого, перед тем как показать что-то отвратительное. И – как ни странно – испытуемые по-прежнему с меньшей вероятностью выбирали ту картинку, которая демонстрировалась на месте неприятного образа. Эффект оказался небольшим, но статистически значимым. Исследователи на полном серьезе утверждали, что это не объяснить иначе как паранормальными способностями.

Дочитав нашу книгу до этого места, вы уже понимаете, что здесь есть место и другому объяснению – чистой случайности. Иногда в исследованиях получаются неверные результаты просто из-за зашумленности данных. В таком случае можно получить истинное значение, а можно большее или меньшее.

Большинство читателей, вероятно, полагает, что истинный уровень паранормальных способностей среди населения равен нулю. Но из-за случайных ошибок в данных исследования могут показывать, что экстрасенсы существуют.

Вот почему наука не опирается – или не должна опираться – на отдельные статьи, о чем мы и писали в главе 14. Она должна учитывать, как соотносится новое исследование с совокупностью уже имеющихся. Достичь консенсуса можно с помощью метаанализов и обзоров литературы, рассматривая все работы в данной области и комбинируя их. Если в одном исследовании доказывается, что паранормальные способности существуют, а в 99 – что их нет, то первое, вероятно, можно списать на случайность.

Однако такой механизм работает, только если публикуются результаты всех исследований по этой теме. А такого не бывает, ведь научные журналы стремятся публиковать лишь интересные. В случае с исследованием Бема понятно, почему этого не произошло: группа ученых – Стюарт Ричи, Ричард Вайзман и Крис Френч – пыталась повторить исследования Бема и получила нулевые результаты. Журнал, опубликовавший статью Бема, Journal of Personality and Social Psychology, отказался публиковать их статью. Скучно печатать нудные повторы старых работ – хочется новых результатов.

В конце концов это исследование вышло в свет в журнале с открытым доступом PLOS One. А если бы этого не произошло, то составитель метаанализа нашел бы только одну статью с полученным результатом – статью Бема, и больше никаких. Погоня журнала за новизной привела бы к видимости научного консенсуса о существовании паранормальных способностей. Исследование Бема всколыхнуло сообщество, ведь ученые поняли, что приходится принять одну из двух неприятных истин: либо паранормальные способности существуют, либо лежащие в основе психологии экспериментальные и статистические методы могут порождать бессмыслицу.

(Стоит отметить, что позже Бем сделал метаанализ, включив в него статью Ричи с соавторами и ряд других, и все равно вывел, что паранормальные способности существуют. Со всеми проверками на публикационный сдвиг и прочее. Так что либо паранормальные способности существуют, либо лежащие в основе психологии экспериментальные и статистические методы могут порождать бессмыслицу даже по итогам метаанализа.)

Эта погоня за новизной приводит к одной из фундаментальных научных проблем – публикационному сдвигу. Если из ста исследований по выявлению паранормальных способностей в 92 выяснится, что их не существует, а в восьми – что они есть, то это довольно надежный показа�

Скачать книгу

© Tom Chivers and David Chivers 2021

All rights reserved including the rights of reproduction in whole or in part in any form

© Designed by Luke Bird, 2021

Original front cover paper mockup by martyr

© Н. Шахова, перевод, 2022

© ООО «Индивидуум Принт», 2022

Введение

Цифрам неведомы чувства. Цифры не истекают кровью, не проливают слез, не питают надежд. Им не знакомы отвага и самопожертвование, любовь и преданность. На пике черствости вы найдете лишь нули и единицы.

Эми Кауфман и Джей Кристофф. «Иллюминэ»[1]

Цифры холодны и бесчувственны. Поэтому зачастую они вызывают неприязнь, и это вполне объяснимо. Во время написания этой книги газеты ежедневно сообщали о количестве умерших от COVID-19, пандемия которого в первой половине 2020 года завладела миром. Когда в Великобритании число погибших упало с тысяч всего до сотен, показалось, что виден свет в конце туннеля.

Но ведь каждый из скончавшихся от коронавируса был индивидуальностью, каждый был уникален. Можно говорить об их числе – к августу это 41 369 человек в Великобритании или 28 646 в Испании – или о том, сколько всего людей умрет к тому моменту, когда (если) пандемия закончится. Только сухие цифры ничего не сообщают нам об этих людях. А ведь у каждого из них своя история: кем они были, что делали, кого любили и кем были любимы. Их будут оплакивать.[2]

Представление всех погибших одним числом – «сегодня умерло Х человек» – кажется грубым и бездушным. Игнорируются печаль и горе. Устраняются индивидуальности и судьбы.

Но если бы мы не вели ежедневный учет смертей, не отслеживали распространение болезни, весьма вероятно, погибло бы еще больше людей. Еще больше уникальных личных историй оборвалось бы преждевременно. Просто мы бы не знали числа жертв.

В этой книге мы будем много говорить о числах: как их используют СМИ, что может пойти не так и как это может исказить реальную картину. Но по ходу дела постараемся не забывать: числа обозначают что-то конкретное. Часто – людей или что-то для людей важное.

Эта книжка в некотором роде математическая. Вы можете опасаться, что ничего не поймете, если вам кажется, что вы не в ладах с математикой. Но вы не одиноки. Похоже, чуть ли не все думают, что не разбираются в ней.

Дэвид преподает экономику в Даремском университете. Все его студенты получили высшую оценку (А) на школьном выпускном экзамене по математике, и тем не менее многие из них считают, что плохо разбираются в этом предмете. Том думает, что довольно плохо знает математику, хотя и выиграл две награды Королевского статистического общества за «статистическое совершенство в журналистике» (он любит время от времени невзначай упомянуть об этом). Дэвид тоже иногда думает, что плохо разбирается в математике, хотя и учит математике тех, кто уже неплохо ее освоил.

Возможно, и вы знаете математику лучше, чем вам кажется. Просто плохо считаете в уме. Когда мы думаем о тех, кто разбирается в математике, первыми в голову приходят люди вроде Кэрол Вордерман или Рэйчел Райли – ведущих телепередачи «Обратный отсчет», которые быстро считают в уме. Они-то, конечно, хорошие математики, но, если вы так не умеете, это еще не значит, что вы – плохой.

Принято думать, что в этой науке есть ответы верные и неверные. Зачастую это не так, по крайней мере в той математике, о которой мы говорим. Возьмем, к примеру, с виду простое, но такое печальное число – количество людей, умерших от коронавируса. Как его определить? Нужно ли учитывать только тех, у кого диагноз «COVID-19» был подтвержден тестом? Или просто вычислить количество «лишних» смертей, сравнив число умерших в этом году со среднегодовым показателем за последние несколько лет? Это будут два очень разных числа, и какое из них нам подходит, зависит от вопроса, на который мы хотим ответить. Ни одно из них не является неверным, но и правильным его не назовешь.

Важно понимать, почему эти числа неоднозначны и почему то, что порой кажется очевидным, на самом деле куда сложнее. Ведь числами легко затуманить смысл и сбить с толку, и многие (в особенности политики, но не они одни) пользуются этим. Различия в трактовках влияют на нашу жизнь, на способность участвовать демократических процессах. Тут так же, как с грамотностью. Демократическому государству трудно функционировать без грамотного населения: чтобы осознанно голосовать, избиратели должны понимать политические решения властей.

Но недостаточно понимать слова – нужно еще разбираться в цифрах. Новости всё чаще принимают числовую форму: число зарегистрированных полицией преступлений то увеличивается, то уменьшается; экономика страны растет или идет на спад; публикуются всё новые данные об умерших от ковида. Чтобы ориентироваться во всем этом, необязательно быть математиком, но нужно понимать, как числа подсчитываются, для чего применяются и какие с ними бывают подвохи. Иначе мы – как отдельные индивидуумы и как общество в целом – будем принимать неверные решения.

Иногда предельно ясно, как неверное истолкование статистики приводит к плохим решениям. Так, нельзя оценить адекватность антикоронавирусных мер, не зная точного числа заболевших. В других случаях – например, далее мы рассмотрим, вызывает ли бекон рак и повышает ли потребление газировки склонность к насилию, – опасность не так очевидна. При этом все мы, чтобы ориентироваться в мире, постоянно осознанно или неосознанно опираемся на числа. Пьем красное вино, занимаемся спортом, вкладываем средства – и всё это исходя из предположения, что преимущества (с точки зрения удовольствия, здоровья или богатства) перевешивают риски. Мы должны знать о них и оценивать их, чтобы делать разумный выбор. А представления о преимуществах и рисках мы зачастую получаем из СМИ.

Не стоит полагаться на то, что СМИ всегда дают точные числа без преувеличений и выбора эффектных ракурсов. И дело не в том, что медиа стремятся вас обмануть, – просто им нужно рассказывать об удивительных, интересных и поразительных вещах, чтобы вы покупали газеты и смотрели передачи. А еще потому, что они – и мы – жаждут историй, где у проблем есть очевидные причины и решения. Если же выбирать самые удивительные, интересные и поразительные числа, то многие из них вполне могут оказаться неверными или сбивающими с толку.

Кроме того, хотя журналисты обычно умны и (вопреки стереотипам) имеют добрые намерения, они, как правило, не очень ладят с числами. Поэтому числа, которые вы видите в СМИ, нередко неверны. Не всегда, но достаточно часто – не теряйте бдительности.

К счастью, пути искажения чисел бывают вполне предсказуемыми. Например, эффектный результат можно получить, выбрав какую-то экстремальную точку или удачное начало отсчета, а также многократно перебирая данные, пока не найдется что-то интересное. Результат можно преувеличить, если говорить не о реальном изменении, а о процентном. С помощью чисел создается видимость причинно-следственной связи там, где есть простая корреляция. Существует и масса других способов. Эта книга научит вас замечать некоторые из них.

Мы вовсе не утверждаем, что никаким цифрам из СМИ нельзя верить. Мы просто хотим научить вас разбираться, каким и когда верить можно.

Математику мы постарались свести к минимуму. Почти все, что похоже на уравнение, вынесено из основного текста в отдельные врезки. Их читать необязательно – вы и так все поймете.

Но мы не могли совсем обойтись без технических понятий, поэтому изредка в книге будут попадаться выражения типа p = 0,049 или r = —0,4; пусть они вас не пугают. Это лишь краткие формы записи совершенно простых житейских понятий – вы их, несомненно, легко поймете.

Книга разделена на 22 короткие главы. В каждой – на примерах, взятых из СМИ, – рассматривается какой-то один способ неправильной интерпретации чисел. Мы надеемся, что к концу каждой главы вы поймете, в чем проблема, и научитесь ее распознавать. Нам кажется, что лучше всего начать с чтения первых восьми глав – в них изложены идеи, которые помогут понять остальное. Но если вам нравится перескакивать с одного на другое – так тоже можно. Если мы опираемся на что-то уже описанное, то указываем на это.

В конце книги мы излагаем ряд предложений по совершенствованию работы СМИ – то, как можно избежать ошибок, которые мы обсуждаем. Мы надеемся, что эта книга станет своего рода руководством по правильной подаче статистики. Будет здорово, если вы посоветуете следовать ему тем СМИ, которые читаете или смотрите.

А теперь вперед.

Глава 1

Как числа могут вводить в заблуждение

Со статистикой врать легко, а без – еще легче.

Приписывается статистику Фредерику Мостеллеру

Из-за COVID-19 человечество прошло ускоренный (и весьма дорогостоящий!) курс статистики. Все были вынуждены в сжатые сроки познакомиться с экспоненциальными кривыми и интервалами неопределенности, ложноположительностью и ложноотрицательностью, усвоить разницу между уровнем инфекционной смертности и показателем летальности. Некоторые из этих понятий, бесспорно, сложны, но даже те, что на первый взгляд кажутся простыми, – например, количество умерших от вируса – на поверку вызывают затруднения. В первой главе мы рассмотрим, как обычные с виду числа могут удивительным образом сбивать с толку.

Одним из первых люди усвоили коэффициент распространения (R). Если еще в декабре 2019 года вряд ли хотя бы один человек из пятидесяти знал о нем, то уже к концу марта 2020-го этот показатель упоминался в новостях практически без всяких пояснений. Но поскольку числа могут вести себя очень коварно, искренние попытки сообщить аудитории об изменениях R вводили читателей и зрителей в заблуждение.

Напомним: R – это репродуктивное число чего-либо. Оно применимо ко всему, что распространяется или воспроизводится: мемам, людям, зевоте и новым технологиям. В эпидемиологии инфекционных болезней R – это число людей, которых в среднем заражает один заболевший. Если у инфекции коэффициент распространения равен пяти, то каждый инфицированный заражает в среднем пятерых.

Конечно, этот показатель не так прост: это всего лишь среднее. При R = 5 каждый из сотни человек может заразить ровно пятерых, но может случиться и так, что 99 человек не заразят никого, а один заразит 500 человек. Возможен и любой промежуточный вариант.

Причем с течением времени коэффициент распространения меняется. R может быть сильно больше в самом начале эпидемии, когда ни у кого еще нет иммунитета и никакие превентивные меры – социальное дистанцирование или ношение масок, – скорее всего, еще не приняты. Одна из задач здравоохранения в этот момент – с помощью вакцинации или выработки у населения новых привычек снизить R. Ведь если он выше единицы, инфекция будет распространяться экспоненциально, а если ниже – эпидемия сойдет на нет.

Но даже с учетом всех этих тонкостей можно было бы ожидать, что в случае вируса есть одно простое правило: если R растет, это плохо. Поэтому в начале мая 2020 года никого не удивлял тон сообщений, заполонивших британскую прессу: «коэффициент распространения вируса снова превысил единицу», вероятно из-за «скачка заболеваемости в домах престарелых».

Но, как обычно, всё несколько сложнее.

С 2000 по 2013 год медианная заработная плата в США выросла примерно на 1 % в реальном выражении (то есть с учетом инфляции).

Эту врезку читать необязательно, но, если вы не помните разницу между медианой и средним арифметическим, не пропускайте ее.

Понятия среднего арифметического, медианы и моды вы могли узнать в школе. Что такое среднее арифметическое, наверное, даже помните – нужно сумму нескольких чисел разделить на их количество. А медиана – это среднее число в последовательности чисел.

Разница вот в чем. Пусть население – 7 человек, причем один из них зарабатывает 1 фунт в год, один – 2 фунта и так далее – до 7. Если все эти числа сложить, получится 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. Разделив 28 на число людей (7), получим 4 фунта. Среднее арифметическое – 4 фунта.

А чтобы узнать медиану, числа не складывают, а располагают по возрастанию: с левого края заработок в 1 фунт, потом – 2, и так до 7 с правого края. Так вы увидите, кто оказался в середине – человек, получающий 4 фунта. Так что и медиана у нас равна 4 фунтам.

Теперь представим, что тот, кто зарабатывает 7 фунтов, продает свой технический стартап компании Facebook за миллиард. Наше среднее арифметическое внезапно становится равно (1 + 2 + 3 + 4 + 5 + 6 + 1 000 000 000) / 7 = 142 857 146 фунтам. Таким образом, хотя положение 6 из 7 человек никак не изменилось, «среднестатистический гражданин» стал мультимиллионером.[3]

В подобных случаях неравномерного распределения статистики часто предпочитают иметь дело с медианой. Если мы снова выстроим людей по порядку возрастания их зарплат, то в середине опять окажется тот, кто зарабатывает 4 фунта. При изучении реального населения, состоящего из миллионов человек, медиана дает лучшее представление о ситуации, чем среднее арифметическое, особенно если оно искажено зарплатами нескольких суперпреуспевающих работников.

А мода – это самое частое значение. Поэтому, если у вас есть 17 человек, зарабатывающих по 1 фунту, 25 – по 2 и 42 – по 3, то мода – 3 фунта. Все несколько усложняется, когда статистики принимаются с помощью моды описывать непрерывные величины вроде высоты, но об этом мы пока постараемся не думать…

Кажется, что рост медианной заработной платы – это хорошо. Но если рассмотреть отдельные группы населения США, то можно обнаружить нечто странное. Медианный заработок тех, кто окончил только среднюю школу, снизился на 7,9 %; тех, кто окончил старшие классы, – на 4,7 %. Медианный заработок людей с неполным высшим образованием снизился на 7,6 %, а с высшим образованием – на 1,2 %.

Окончившие и не окончившие старшие классы, окончившие и не окончившие колледж – медианная зарплата во всех группах с определенным уровнем образования снизилась, хотя медианная зарплата населения в целом повысилась.

Как так?

Дело в том, что количество людей с высшим образованием увеличилось, а их медианный заработок снизился. В результате с медианой происходят странности. Это называется парадоксом Симпсона – в 1951 году его впервые описал британский дешифровщик и статистик Эдвард Симпсон. Парадокс распространяется не только на медианы, но и на среднее арифметическое – однако в нашем примере мы поговорим о медианах.

Предположим, что население – 11 человек. Трое из них не пошли в старшие классы и зарабатывают по 5 фунтов в год; трое окончили школу и зарабатывают по 10; трое бросили университет и зарабатывают по 15; а двое закончили бакалавриат и зарабатывают по 20 фунтов. Медианная зарплата такой популяции в целом (то есть зарплата среднего человека при таком распределении доходов, см. врезку на предыдущей странице) составляет 10 фунтов.

Потом правительство проводит кампанию по стимуляции населения к продолжению учебы в старших классах и в университетах. При этом медианная зарплата в каждой группе уменьшается на 1 фунт. Внезапно оказывается, что школу не закончили двое и они получают по 4 фунта, двое выпускников школы зарабатывают по 9, двое бросивших университет – по 14, а пять выпускников университета – по 19. В каждой группе медианная зарплата уменьшилась на 1 фунт, но у населения в целом она выросла с 10 фунтов до 14. Вот и в американской экономике в период с 2000 по 2013 год случилось нечто подобное, только в более крупных масштабах.

Такое происходит на удивление часто. Например, чернокожие американцы курят чаще, чем белые, но если разбить их на группы по уровню образования, то оказывается, что в каждой из них чернокожие курят реже. А все потому, что среди более образованных граждан, где процент курящих меньше, ниже доля чернокожих.

Или вот еще один широко известный пример. В сентябре 1973 года в аспирантуру Калифорнийского университета в Беркли подали заявки 8000 мужчин и 4000 женщин. Из них было принято 44 % мужчин и только 35 % женщин.

Но если посмотреть повнимательнее, то можно заметить: почти на всех факультетах у женщин было больше шансов поступить. Самый популярный факультет принял 82 % подавших заявки женщин и лишь 62 % мужчин; второй по популярности – 68 % женщин и 65 % мужчин.

Тут дело в том, что женщины подавали заявки на факультеты с самым большим конкурсом. На один из факультетов было подано 933 заявки, из которых 108 подали женщины. Зачислили 82 % женщин и 62 % мужчин.

В то же время на шестой по популярности факультет было подано 714 заявок, из них 341 от женщин. Здесь поступили 7 % женщин и 6 % мужчин.

Но если сложить данные по этим двум факультетам, то на них поступало 449 женщин и 1199 мужчин. Было принято 111 женщин (25 %) и 533 мужчины (44 %).

Еще раз: на каждом из факультетов в отдельности у женщин было больше шансов поступить, а на двух вместе – меньше.

Как это лучше всего представлять? Зависит от обстоятельств. В случае с зарплатами американцев можно считать медианы более информативными, потому что медианный американец стал зарабатывать больше (поскольку теперь больше американцев оканчивают колледжи и школы). А в случае с аспирантами можно говорить о том, что, какой бы факультет ни выбрала женщина, у нее больше, чем у мужчины, шансов поступить в аспирантуру. Но с таким же успехом можно говорить о том, что для людей, не окончивших школу, ситуация ухудшилась; и можно отметить, что тем факультетам, на которые хотят поступать женщины, явно не хватает ресурсов: они могут принять лишь небольшую долю подавших заявки. Беда в том, что в ситуациях парадокса Симпсона можно высказывать противоположные точки зрения – в зависимости от вашей политической позиции. Честнее всего тут было бы сообщать о наличии этого парадокса.

А теперь вернемся к коэффициенту распространения COVID-19. Он вырос, стало быть, вирус поражает больше людей, а это плохо.

Только все не так просто. Одновременно происходили две как бы отдельные эпидемии: в домах престарелых и больницах болезнь распространялась не так, как в стране в целом.

Мы не знаем точных цифр, потому что такие подробности не публиковались. Но мы можем провести мысленный эксперимент сродни описанному выше. Предположим, что в домах престарелых было 100 заболевших, а еще 100 – вне их. В среднем каждый больной в домах престарелых заражает троих, а вне их – двоих. Тогда коэффициент распространения (среднее число людей, зараженных одним носителем инфекции) равен 2,5.

Затем объявляется локдаун. Количество заболевших снижается, и R тоже снижается. Но – и это важный момент – в домах престарелых снижение не такое сильное, как вне их. Теперь в них 90 человек, каждый передает инфекцию в среднем 2,9 людей, а в стране 10 заболевших, передающих вирус в среднем одному человеку. Поэтому теперь R = 2,71. Он вырос! Но в обеих группах снизился.[4]

Как правильно это рассматривать? Опять-таки ответ неочевиден. Вас может в первую очередь волновать значение R, потому что на самом деле наши две эпидемии не разделяются. Тем не менее ситуация явно не сводится к утверждению: когда R растет, это плохо.

Парадокс Симпсона – один из примеров более общей проблемы, называемой «экологической ошибкой», когда вы пытаетесь судить об отдельных людях или подгруппах по средним для группы значениям. Экологическая (или популяционная) ошибка встречается чаще, чем можно предположить. Читателям и журналистам важно понимать, что общая величина не всегда отражает реальность, а чтобы досконально разобраться в ситуации, следует копать глубже.

Глава 2

Отдельные наблюдения

В 2019 году сразу две газеты, Daily Mail и Mirror, написали о женщине, которая, узнав, что у нее терминальная стадия рака, прошла альтернативное лечение в мексиканской клинике. Ее терапия «включала гипербарическую оксигенацию, общую гипотермию, инфракрасное облучение, воздействие импульсного электромагнитного поля, кофейные клизмы, посещения сауны и внутривенное введение витамина С». И опухоль резко уменьшилась.

Мы предполагаем, что большинство читателей этой книги относятся к подобным историям со здоровым скептицизмом. Но этот случай – прекрасная отправная точка для понимания того, как числа могут вести к неверным выводам. На первый взгляд кажется, что здесь нет никаких чисел, однако одно неявно присутствует – единица. История одного человека служит основой для доказательства утверждения. Это пример того, что мы называем отдельным наблюдением (anecdotal evidence).

У таких доказательств плохая репутация, но назвать все такие рассуждения принципиально неверными нельзя. Как мы обычно решаем, где правда, а где ложь? Очень просто: проверяем утверждение сами или слушаем людей, проверивших его.

Если мы прикоснулись к горячей сковородке и обожглись, то мы, опираясь на этот единственный случай, приходим к выводу, что горячие сковородки обжигают и всегда будут обжигать и что их лучше не трогать. Более того: если кто-то скажет, что сковородка горячая и что мы обожжемся, если ее коснемся, мы легко в это поверим. Нас убеждает опыт других людей. В этом примере можно обойтись без всякого статистического анализа.

В жизни такой подход почти всегда срабатывает. Обучение на базе рассказа или личного опыта – когда человек делает вывод на основе отдельного наблюдения – довольно эффективно. Но почему? Почему единичное наблюдение тут годится, а в других случаях – нет?

Потому что еще одно прикосновение к горячей сковородке почти наверняка даст тот же результат. Можете трогать ее раз за разом – будьте уверены: вы каждый раз обожжетесь. Это нельзя доказать со стопроцентной уверенностью: возможно, на 15 363 205-й раз поверхность покажется холодной. Или на 25 226 968 547-й. Можно продолжать трогать сковородку до скончания века, чтобы убедиться – хотя вряд ли оно того стоит, – что она всегда обжигает. Но большинству людей достаточно один раз обжечься.

Есть и другие события, которые всегда происходят одинаково. Если отпустить что-то тяжелое, оно непременно упадет. Это неизменно, если вы находитесь на Земле. Как событие произошло в первый раз, так оно и будет происходить всегда. В статистике про такие события говорят, что они репрезентативны для распределения событий.

Отдельных случаев трудно избежать. Мы будем опираться на них на протяжении всей книги, показывая на конкретных примерах, какие ошибки делают СМИ. Надеемся, вы поверите, что они типичны и наглядно демонстрируют, что иной раз творится с числами.

Проблемы возникают, когда вы опираетесь на примеры в менее предсказуемых ситуациях, где распределение событий не так очевидно. Например, вы не сковородку трогаете, а гладите собаку, и она вас кусает. Разумно впредь проявлять большую осторожность, но не стоит считать, что, прикасаясь к собаке, вы обречены на укус. Или вы выпускаете из рук не что-то тяжелое, а воздушный шарик. Вы видите, как он поднимается и ветер сносит его на запад, но нельзя сделать вывод, что выпущенный из рук шарик всегда летит в этом направлении. Беда в том, что трудно определить, какие ситуации однотипны и предсказуемы (как случаи с горячей сковородой или брошенным камнем), а какие – нет (как с шариком).

Эта проблема характерна для медицины. Допустим, вас мучает головная боль – и вы принимаете какое-то лекарство, например парацетамол. Многим людям он помогает. Но заметной доле пациентов – нет. У каждого из них своя история, свой случай, когда лекарство не сработало, хотя в среднем оно и снижает боль. Ни один случай, ни несколько не дают полной картины.

А вот СМИ любят ссылаться на конкретные истории. Например: «Я вылечил хроническую боль в пояснице с помощью пластыря стоимостью в 19 фунтов, хотя врачи не хотели мне его прописывать», – цитировала Гари из Эссекса газета Mirror в марте 2019 года. Гари годами страдал от остеохондроза и был вынужден уйти на пенсию в 55. Он жил на чудовищной смеси болеутоляющих и противовоспалительных и тратил на нее тысячи фунтов в год. А потом стал применять пластырь ActiPatch, который «с помощью электромагнитных импульсов стимулирует нейромодуляцию нервов, помогая подавить болевые ощущения». Вскоре ему удалось вдвое снизить дозу болеутоляющих. Помог ли ему пластырь? Возможно. Но из самой истории этого узнать нельзя.

Согласно систематическому обзору, опубликованному в British Medical Journal в апреле 2010-го, в мире каждый десятый страдает от боли в пояснице (в одной Великобритании – это миллионы людей). Ощущения весьма неприятные, а врачи особо ничем, кроме болеутоляющих и упражнений, помочь не могут, поэтому пациенты нередко обращаются к альтернативной медицине, применяя пластырь ActiPatch или что-то аналогичное. Причем порой кому-то становится лучше независимо от того, лечится он или нет.

Так что довольно часто пациент обращается к новому нетрадиционному средству и при этом ему становится лучше. Но довольно часто эти события никак между собой не связаны. Поэтому отдельные случаи того, как кому-то помогло какое-то средство, могут оказаться мнимыми.

Ситуацию усугубляет то, что СМИ любят новости. Они старательно выискивают самые интересные, удивительные или трогательные – в общем, привлекающие внимание сообщения. Журналистов трудно в этом винить – не могут же они рассказывать о будничной жизни среднестатистического гражданина. Просто это означает, что удивительные истории чаще попадают в газеты, чем обычные.

Уточним: это необязательно относится к Гари с его пластырем. Если свидетельство неубедительно, это еще не значит, что вывод неверный. Возможно, пластырь действительно эффективен (есть некоторые свидетельства, что такие средства помогают, а американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов в 2020 году разрешило применять ActiPatch для лечения спины), и, возможно, Гари он помог. Просто его история не дает оснований для такого вывода. Если раньше мы не верили в лечебные свойства ActiPatch, то и теперь нет причины.

Неприятно, когда болит поясница, и это, конечно, накладывает на жизнь Гари жесткие ограничения. И если, прочтя его историю, товарищи Гари по несчастью станут использовать пластырь в надежде, что он поможет, в этом нет ничего плохого. Иногда даже наоборот: если лечение окажется успешным, снизит боль за счет эффекта плацебо или просто даст надежду на исцеление (хоть за это и заплатит система здравоохранения или сам пациент).

Иные истории звучат смешно. Например, в другой публикации газеты Mail в 2019 году рассказывается о шестерых излечившихся от псориаза. Они использовали гомеопатические средства, основанные на змеином яде, рвотных массах кита, протухшем мясе и «гное из уретры больного гонореей».

Порой о таких рецептах говорят, что «вреда-то нет». Но иногда – в начале главы мы рассказывали о женщине, лечившейся альтернативными средствами от рака, – все обстоит серьезнее. Уточним: нет никаких убедительных оснований считать, что гипербарическая оксигенация или кофейные клизмы помогают от онкологических заболеваний. Но есть все основания полагать, что многие отчаявшиеся онкологические больные – а их миллионы – готовы бороться с болезнью самыми экстремальными способами и что иногда таким больным становится лучше. Причем, как и в случае с Гари и его поясницей, существует огромная вероятность совпадения этих двух событий.

1 Перевод С. Рюмина. – Прим. ред.
2 По состоянию на 30.05.2022 от коронавируса в России умерло 379 029 человек. См.: https://coronavirusstat.ru. – Прим. ред.
3 Принадлежит компании Meta, которая признана экстремистской организацией и запрещена в РФ. – Прим. ред.
4 Рассчитывается так: (90 × 2,9 + 10 × 1) / 100 = 2,1. – Прим. авт.
Скачать книгу