Думай «почему?». Причина и следствие как ключ к мышлению бесплатное чтение

Дана Маккензи, Джудиа Перл
Думай «почему?». Причина и следствие как ключ к мышлению

Judea Pearl and Dana Mackenzie

The Book of Why: the New Science of Causes and Effect


The Book of Why

Copyright © 2018 by Judea Pearl and Dana Mackenzie. All rights reserved.

© ООО Издательство «АСТ»

© Мамедова Т., Антипов М., перевод

Предисловие

Почти два десятилетия назад, работая над предисловием к книге «Причинность» (2000), я сделал довольно смелое замечание, после которого друзья посоветовали мне умерить пыл. Я написал: «Причинность пережила важнейшую трансформацию — от понятия, овеянного тайной, до математического объекта с хорошо определенным смыслом и хорошо обоснованной логикой. Парадоксы и противоречия были разрешены, туманные понятия были истолкованы, а связанные с причинностью практические задачи, которые долго считались или метафизическими, или нерешаемыми, теперь могут быть разрешены при помощи элементарной математики. Проще говоря, причинность была математизирована».

Перечитывая этот отрывок сегодня, я чувствую, что был весьма близорук. Явление, описанное мной как «трансформация», оказалось «революцией», которая изменила мышление ученых в самых разных науках. Многие сегодня называют это Революцией Причинности, и волнение, которое она вызвала в кругах исследователей, сейчас распространяется на образование и практическую сферу.

У этой книги тройная задача: во-первых, описать для вас нематематическим языком интеллектуальную суть Революции Причинности и показать, как она влияет на нашу жизнь и на будущее; во-вторых, рассказать о героических путешествиях, как успешных, так и неудачных, в которые отправились некоторые ученые, столкнувшись с важнейшими вопросами, касающимися причинно-следственных связей.

Наконец, возвращая Революцию Причинности к ее истокам в сфере искусственного интеллекта (ИИ), я ставлю целью показать вам, как можно создать роботов, способных общаться на нашем родном языке — языке причины и следствия. Это новое поколение роботов должно объяснить нам, почему случились определенные события, почему они откликнулись определенным образом и почему природа действует так, а не иначе. Более амбициозная цель — узнать от них, как устроены мы сами: почему наш ум срабатывает именно так и что значит думать рационально о причине и следствии, вере и сожалении, намерении и ответственности.

Когда я записываю уравнения, у меня есть очень четкое представление о том, кто мои читатели. Но если я пишу для широкой публики, его нет, и это для меня совершенно новое приключение. Странно, но такой новый опыт стал одним из самых плодотворных образовательных усилий в моей жизни. Необходимость выражать идеи на вашем языке, думать о вашем опыте, ваших вопросах и ваших реакциях обострила мое понимание причинности больше, чем все уравнения, которые я написал до того, как создал эту книгу.

За это я буду вечно благодарен. И надеюсь, что вам так же, как и мне, не терпится увидеть результаты.

Джудиа Перл, Лос-Анджелес, октябрь 2017 года

Введение: Ум важнее данных

Любая развитая наука смогла развиться благодаря собственным символам.

Огастес де Морган, 1864

Эта книга рассказывает историю науки, которая повлияла на то, как мы отличаем факты от вымысла, и осталась при этом вне поля зрения широкой публики. Новая наука уже определяет важнейшие аспекты нашей жизни и потенциально может повлиять на многое другое: от разработки новых лекарств до управления экономическим курсом, от образования и робототехники до контроля над оборотом оружия и глобальным потеплением. Примечательно, что, несмотря на разнообразие и явную несоизмеримость этих областей, новая наука собирает их все в рамках единой структуры, которой практически не существовало два десятилетия назад.

У нее нет красивого названия — я называю ее просто причинным анализом, как и многие коллеги. Не особо высокотехнологичный термин. Идеальная технология, которую пытается моделировать причинный анализ, есть у нас в голове. Десятки тысяч лет назад люди начали понимать, что одни вещи приводят к другим вещам и что, регулируя первое, можно повлиять на второе. Ни один биологический вид, кроме нашего, не осознает этого — по крайней мере, до такой степени. Это открытие породило организованные общества, потом города и страны и наконец-то цивилизацию, основанную на науке и технике, которая есть у нас сегодня. И все потому, что мы задали простой вопрос: почему? Причинный анализ относится к этому вопросу очень серьезно. Он исходит из предпосылки о том, что человеческий мозг — самый продвинутый инструмент из когда-либо созданных для работы с причинами и следствиями. Мозг хранит невероятный объем знаний о причинности, и, поддержав его данными, можно использовать этот орган для ответа на самые насущные вопросы нашего времени. Более того, как только мы действительно поймем логику, стоящую за рассуждениями о причинах, мы будем способны имитировать ее в современных компьютерах и создать «искусственного ученого». Этот умный робот откроет еще неизвестные феномены, найдет объяснения для неразрешенных научных дилемм, разработает новые эксперименты и будет постоянно извлекать новые знания о причинах явлений из окружающей среды.

Но прежде, чем мы начнем размышлять о подобных футуристических достижениях, важно понять достижения, к которым уже привел нас причинный анализ. Мы исследуем, как он преобразил мышление ученых почти во всех дисциплинах, основанных на работе с данными и как это вскоре изменит нашу жизнь. Новая наука занимается довольно однозначными на первый взгляд вопросами вроде таких:

• Насколько эффективно данное лечение для предотвращения болезни?

• Что вызвало рост продаж — новый закон о налогообложении или наша рекламная кампания?

• Как ожирение влияет на траты на медицинское обслуживание?

• Могут ли данные о найме сотрудников служить доказательством последовательной дискриминации по половому признаку?

• Я собираюсь уволиться. Стоит ли это делать?


Во всех этих вопросах видна озабоченность причинно-следственными отношениями, которую можно узнать по таким словам, как «предотвращения», «вызвало», «влияет», «последовательной» и «стоит ли». Эти слова часто встречаются в повседневном языке, и наше общество постоянно требует ответы на эти вопросы. Но до недавнего времени наука не давала нам средств, чтобы даже выразить их, не говоря уже о том, чтобы на них ответить.

Наука о причинном анализе оставила это пренебрежение со стороны ученых в прошлом, и в этом состоит ее важнейшее достижение на благо человечество. Новая наука породила простой математический язык, чтобы выражать каузальные отношения — и те, о которых мы знаем, и те, о которых хотели бы узнать. Возможность выразить эту информацию в математической форме открыла изобилие мощных, основанных на твердых принципах методов, которые позволяют сочетать наше знание с данными и отвечать на каузальные вопросы вроде пяти, приведенных выше.

Мне повезло участвовать в развитии этой научной дисциплины в течение последней четверти века. Я наблюдал, как она оформляется в студенческих аудиториях и исследовательских лабораториях, и видел, как ее прорывы сотрясают угрюмые научные конференции вдали от софитов общественного внимания. Сейчас, когда мы вступаем в эру сильного искусственного интеллекта, многие славят бесконечные возможности, которые открывают большие массивы данных и технологии глубинного обучения. Я же нахожу своевременной и волнующей возможность представить читателю смелые пути, которыми идет новая наука, и рассказать, как она влияет на науку о данных и какими разнообразными способами изменит нашу жизнь в XXI веке.

Вероятно, когда вы слышите, что я называю эти достижения новой наукой, у вас появляется скепсис. Вы можете даже спросить: почему она не появилась давным-давно? Например, когда Вергилий провозгласил: «Счастлив тот, кто смог понять причины вещей» (29 год до н. э.). Или когда основатели современной статистики Фрэнсис Гальтон и Карл Пирсон впервые открыли, что данные о населении могут пролить свет на научные вопросы. Кстати, за их досадной неспособностью учесть причинность в этот ключевой момент стоит долгая история, которую мы рассмотрим в исторических разделах этой книги. Однако самым серьезным препятствием, с моей точки зрения, было фундаментальное расхождение между языком, на котором мы задаем вопросы о причинности, и традиционным языком, которым описываем научные теории.

Чтобы оценить глубину этого расхождения, представьте трудности, с которыми столкнется ученый, пытаясь объяснить некоторые очевидные причинные отношения, скажем, что барометр, показывающий B, считывает давление P. Это отношение легко записать уравнением B = kP, где k — некий коэффициент пропорциональности. Правила алгебры теперь позволяют нам переписать это уравнение в самых разных формах, скажем P = B/k, k = B/P или B — kP = 0. Все они означают одно и то же: если мы знаем любые две из трех величин, третья определена. Ни одна из букв k, B или P не имеет преимуществ перед остальными с математической точки зрения. Но как же выразить наше сильное убеждение в том, что давление заставляет показания барометра измениться, а не наоборот? А если мы не способны выразить даже это, как же сформулировать другие наши убеждения о причинно-следственных отношениях, у которых нет математических формул? Например, о том, что от кукареканья петуха солнце не встает?

Мои преподаватели в университете не могли этого сделать, но никогда не жаловались. Я готов поспорить, что ваши тоже. И сейчас мы понимаем почему: им никогда не показывали математический язык причинности и никогда не рассказывали о его пользе. Более того, это обвинительный приговор науке, которая в течение стольких поколений игнорировала необходимость подобного языка. Все знают, что если щелкнуть выключателем, то зажжется свет, и что в жаркий и душный день в местном кафе-мороженом поднимутся продажи. Почему же ученые до сих пор не выразили такие очевидные факты в формулах, как это было сделано с базовыми законами оптики, механики или геометрии? Почему они допустили, чтобы эти факты чахли, ограниченные голой интуицией и лишенные математических инструментов, которые позволили другим наукам зреть и процветать?

Отчасти ответ в том, что научные инструменты развиваются, дабы удовлетворять научные потребности. Именно потому, что мы так хорошо управляемся с вопросами о выключателях, мороженом и барометрах, наша потребность в особых математических инструментах, чтобы их решать, была неочевидной. Но по мере того, как научное любопытство увеличилось и мы начали задавать вопросы о причинности в сложных юридических, деловых, медицинских и политических ситуациях, оказалось, что у нас не хватает инструментов и принципов, которые должна предоставить зрелая наука.

Запоздалое пробуждение такого рода нередко встречается в науке. Например, вплоть до середины XVII века люди вполне удовлетворялись своей способностью справляться с неопределенностью в повседневной жизни — от перехода улицы до риска подраться. Только когда азартные игроки изобрели изощренные игры, порой тщательно нацеленные на то, чтобы вынудить других сделать неверный выбор, математики Блез Паскаль (1654), Пьер Ферма (1654) и Христиан Гюйгенс (1657) посчитали необходимым развить то, что сегодня мы называем теорией вероятностей. Подобным образом лишь тогда, когда страховым организациям потребовалось точно рассчитать пожизненную ренту, такие математики, как Эдмунд Галлей (1693) и Абрахам де Муавр (1725), использовали данные о смертности, чтобы вычислить ожидаемую продолжительность жизни. Аналогично потребности астрономов в точном предсказании движения небесных тел подтолкнули Якоба Бернулли, Пьера Симона Лапласа и Карла Фридриха Гаусса разработать теорию ошибок, которая помогает выделить сигналы из шума. Все эти методы — предшественники сегодняшней статистики.

Удивительно, но потребность в теории причинности начала оформляться в то же время, когда появилась статистика. Более того, современная статистика родилась из вопросов о причинах, которые Гальтон и Пирсон задавали применительно к наследственности, и из их изобретательных попыток на них ответить, используя данные о нескольких поколениях. К сожалению, попытка не удалась, и вместо того, чтобы остановиться и спросить почему, они объявили эти вопросы недоступными для изучения и занялись развитием процветающей, свободной от причинности области под названием «Статистика».

Это был важнейший момент в истории науки. Возможность решать вопросы причинности на ее собственном языке почти воплотилась, однако ее растратили напрасно. В последующие годы эти вопросы были объявлены ненаучными и отправлены в подполье. Несмотря на героические усилия генетика Сьюалла Райта (1889–1988), вокабуляр причинности был буквально запрещен больше чем на 50 лет. А запрещая речь, вы запрещаете мысль и душите принципы, методы и инструменты.

Читателям этой книги не надо быть учеными, чтобы увидеть данный запрет своими глазами. Осваивая курс «Введение в статистику», каждый студент учится повторять: «Корреляция не означает причинно-следственную связь». И этому есть хорошее объяснение! Кукареку петуха тесно коррелирует с рассветом, но не является его причиной.

К сожалению, в статистике это здравое наблюдение стало фетишем. Оно сообщает нам, что корреляция не означает причинно-следственную связь, но не говорит нам, что такое эта причинно-следственная связь. Попытки найти раздел «Причина» в учебниках по статистике обречены на неудачу. Студентом не разрешается говорить, что X причина Y, — только что X и Y «связаны» или «ассоциируются».

Из-за этого запрета математические инструменты для работы с вопросами причинности были признаны излишними, и статистика сосредоточилась исключительно на обобщении данных, а не на их интерпретации. Блестящим исключением стал путевой анализ, изобретенный генетиком Сьюаллом Райтом в 1920-е годы — прямой предок методов, которые мы рассмотрим в этой книге. Однако путевой анализ не получил должной оценки в статистике и сопряженных сообществах и десятилетиями пребывал в состоянии эмбриона. То, что должно было стать первым шагом по направлению к причинному анализу, оставалось единственным шагом до 1980-х годов. Остальная статистика, а также многие дисциплины, которые на нее ориентировались, так и жили в эпоху этого «сухого закона», ошибочно полагая, что ответы на все научные вопросы кроются в данных и должны быть открыты с помощью умных способов их интерпретировать.

Эта ориентация на данные до сих пор преследует нас. Мы живем в эпоху, когда большие данные считаются потенциальным решением для всех проблем. Курсы по теории и методам анализа данных в изобилии преподаются в наших университетах, а компании, участвующие в «экономике данных», готовы платить хорошие деньги специалистам в этих вопросах. Но я надеюсь убедить вас этой книгой, что данные — вещь крайне тупая. Они могут рассказать вам, что люди, которые приняли лекарство, восстановились быстрее, чем те, кто его не принимал, но не могут рассказать почему. Может, те, кто принял лекарство, сделали так, поскольку были в состоянии позволить это себе, но восстановились бы столь же быстро и без него.

Снова и снова в науке и бизнесе мы наблюдаем ситуации, в которых одних данных недостаточно. Большинство энтузиастов, работающих со значительными массивами данных, осознавая порой эти ограничения, продолжают ориентироваться на искусственный интеллект, обрабатывающий данные, как будто альтернатива все еще под запретом.

Как я говорил выше, за последние 30 лет ситуация радикально изменилась. Сегодня, благодаря тщательно созданным причинным моделям, современные ученые могут обратиться к проблемам, которые когда-то сочли бы нерешаемыми или даже не подходящими для научного изучения. Например, всего 100 лет назад вопрос о том, вредит ли здоровью курение сигарет, был бы признан ненаучным. Одно упоминание слов «причина» и «следствие» вызвало бы лавину возражений в любом авторитетном журнале о статистике.

Еще 20 лет назад задать статистику вопрос вроде «Это аспирин помог мне от головной боли?» было все равно, что спросить, верит ли он в магию вуду. Как выразился мой почтенный коллега, это была бы «скорее тема для светской беседы, а не научный запрос». Но сегодня эпидемиологи, обществоведы, специалисты по компьютерным наукам и, по крайней мере, некоторые просвещенные экономисты и статистики регулярно ставят такие вопросы и отвечают на них с математической точностью. Для меня эти перемены равнозначны революции. Я осмеливаюсь называть их Революцией Причинности, научной встряской, которая позволяет принимать, а не отрицать наш врожденный когнитивный дар понимать причины и следствия.

Революция Причинности произошла не в вакууме; за ней стоит математический секрет, который лучше всего можно описать как численные методы причинности; они отвечают на самые сложные вопросы, когда-либо заданные о причинно-следственных отношениях. Я открываю эти методы с большим волнением — не только потому, что бурная история их появления весьма интригует, но и в большей степени потому, что, по моим ожиданием, в будущем их потенциал раскроют, опередив самые смелые мечты, и… вероятно, это сделает один из читателей настоящей книги.

Вычислительные методы причинности включают два языка: диаграммы причинности, которые выражают то, что мы знаем, и символический язык, напоминающий алгебру, который выражает то, что мы хотим узнать. Диаграммы причинности — простые рисунки из точек со стрелками, которые обобщают существующее научное знание. Точки символизируют интересующие нас факторы под названием «переменные», а стрелки — известные или подразумеваемые причинные отношения между ними, означающие, к каким переменным «прислушивается» та или иная переменная. Такие диаграммы невероятно легко рисовать, понимать и использовать, и читатели обнаружат их в изобилии на страницах этой книги. Если вы сможете найти дорогу по карте улиц с односторонним движением, то поймете диаграммы причинности и ответите на вопросы, относящиеся к тому же типу, что и заданные в начале этого вступления.

Диаграммы причинности, которые я предпочитаю использовать в этой книге и выбираю в качестве основного инструмента в последние 35 лет, не единственная модель причинности. Некоторые ученые (например, специалисты по эконометрике) любят работать с математическими уравнениями, другие (скажем, закоренелые статистики) предпочитают список допущений, которые предположительно обобщают структуру диаграммы. Независимо от языка, модель должна описывать, пусть и качественно, процесс, который порождает данные, — другими словами, причинно-следственные силы действуют в среде и формируют порождаемые данные.

Бок о бок с этим диаграммным «языком знания» существует символический «язык запросов», на котором мы выражаем вопросы, нуждающиеся в ответах. Так, если нас интересует эффект лекарства (D — drug) на продолжительность жизни (L — lifespan), то наш запрос можно символически записать так: P (L | do (D)). Иначе говоря, какова вероятность (P — probability) того, что типичный пациент проживет L лет, если его заставят принимать это лекарство? Вопрос описывает то, что эпидемиологи назвали бы интервенцией или лечением, и соответствует тому, что мы измеряем во время клинического исследования. Во многих случаях мы также захотим сравнить P (L | do (D)) и P (L | do (не-D)); последнее в данном случае описывает пациентов, которые не получили лечения, так называемую контрольную группу. Оператор do означает, что мы имеем дело с интервенцией, а не с пассивным наблюдением. В классической статистике нет ничего даже напоминающего этот оператор.

Мы должны применить оператор интервенции do (D), чтобы убедиться: наблюдаемое изменение в продолжительности жизни L объясняется самим лекарством и не объединено с другими факторами, которые могут укорачивать или удлинять жизнь. Если мы не вмешиваемся и даем самим пациентам решить, принимать ли лекарство, эти иные факторы могут повлиять на их решение, и разница в продолжительности жизни у тех, кто принимает и не принимает лекарство, больше не будет объясняться только этим. Например, представьте, что лекарство принимают только смертельно больные люди. Они определенно будут отличаться о тех, кто его не принимал, и сравнение двух групп будет отражать разницу в серьезности их болезни, а не эффект от лекарства. Однако, если заставлять пациентов принимать лекарство или отказываться от него, независимо от их изначального состояния, эта разница перестанет иметь значение и можно будет сделать обоснованное сравнение.

На языке математики мы записываем наблюдаемую частоту продолжительности жизни L у пациентов, которые добровольно приняли лекарство, как P (L | D), и это стандартная условная вероятность, которая используется в учебниках по статистике. Это выражение подразумевает, что вероятность P продолжительности жизни L допускается только в случае, если мы увидим, что пациент принимает лекарство D. Учтите, что P (L | D) может резко отличаться от P (L | do (D)). Это разница между увиденным и сделанным фундаментальна, она объясняет, почему мы не считаем падение атмосферного давления причиной надвигающегося шторма. Если мы увидим, что падение атмосферного давление повышает вероятность шторма и заставим показания барометра измениться, мы, однако, никак не повлияем на эту вероятность.

Эта путаница между тем, что мы видим, и тем, что происходит, привела к изобилию парадоксов, и некоторые из них мы разберем в этой книге. Мир, лишенный P (L | do (D)) и управляемый исключительно P (L | D), был бы действительно странным местом. Например, пациенты не ходили бы к врачу, чтобы избежать вероятности серьезно заболеть; города отказались бы от пожарных, чтобы сократить вероятность пожаров; врачи рекомендовали бы лекарства пациентам мужского и женского пола, но не пациентам, гендер которых неизвестен, и т. д. Трудно поверить, что менее трех десятилетий назад наука действовала в таком мире: оператора do не существовало.

Одним из главных достижений Революции Причинности стала возможность объяснить, как предсказать эффекты интервенции без ее осуществления. Это не было бы доступным, если бы, во-первых, мы не определили оператор do, с помощью которого формулируется верный вопрос, и, во-вторых, не нашли бы способ моделировать его без реального вмешательства.

Когда интересующий нас научный вопрос подразумевает ретроспективное мышление, мы полагаемся на еще один тип причинного рассуждения — контрфактивное. Предположим, что Джо принял лекарство D и умер через месяц; нас интересует вопрос, могло ли лекарство вызвать его смерть. Чтобы разобраться в этом, нужно вообразить сценарий, при котором Джо уже собирался принять лекарство, но передумал. Выжил ли бы он?

И вновь скажем, что классическая статистика только обобщает данные, поэтому она не обеспечивает даже язык для ответа на такие вопросы. Наука о причинном анализе предоставляет систему обозначений, и, что важнее, предлагает решение. Как и в случае с эффектом интервенций (упомянутым выше), во многих ситуациях мы можем моделировать ретроспективное мышление человека с помощью алгоритма, который использует то, что мы знаем о наблюдаемом мире, и дает ответ о контрфактивном мире. Такая «алгоритмизация контрфактивного» — еще одна жемчужина Революции Причинности.

Контрфактивное рассуждение, основанное на «что, если», кажется ненаучным. Действительно, эмпирическое наблюдение не способно ни подтвердить, ни опровергнуть ответы на такие вопросы. Но наш ум постоянно делает весьма надежные и воспроизводимые суждения о том, что может быть или могло бы быть. Например, все мы понимаем, что, если бы петух не кричал этим утром, солнце все равно бы встало. Это согласие основано на том факте, что контрфактивные суждения — не игра воображения, а размышление о самой структуре нашей модели мира. Два человека, у которых одна и та же модель причинности, придут к одним и тем же контрфактивным суждениям.

Контрфактивные суждения — это строительные кирпичи этичного поведения и научной мысли. Способность размышлять о своих действиях в прошлом и предвидеть альтернативные сценария — это основа свободной воли и социальной ответственности. Алгоритмизация контрфактивных суждений открывает думающим машинам эту возможность, и теперь они могут разделить этот (доселе) исключительно человеческий способ осмыслять мир.

Я сознательно упомянул думающие машины в предыдущем абзаце. Я пришел к этой теме, когда занимался компьютерными науками, конкретно искусственным интеллектом, что обобщает две точки отправления для большинства из моих коллег, занятых причинным анализом. Во-первых, в мире искусственного интеллекта вы по-настоящему не понимаете тему до тех пор, пока не обучите ей робота. Вот почему вы увидите, что я неустанно, раз за разом подчеркиваю важность системы обозначений, языка, словаря и грамматики. Например, меня завораживает вопрос, в состоянии ли мы выразить определенное утверждение на том или ином языке и следует ли это утверждение из других. Поразительно, сколько можно узнать, просто следуя грамматике научных высказываний! Мой акцент на язык также объясняется глубоким убеждением в том, что последний оформляет наши мысли. Нельзя ответить на вопрос, который вы не способны задать, и невозможно задать вопрос, для которого у вас нет слов. Изучая философию и компьютерные науки, я заинтересовался причинным анализом во многом потому, что мог с волнением наблюдать, как зреет и крепнет забытый когда-то язык науки.

Мой опыт в области машинного обучения тоже мотивировал меня изучать причинность. В конце 1980-х годов я осознал, что неспособность машин понять причинные отношения, вероятно, самое большое препятствие к тому, чтобы наделить их интеллектом человеческого уровня. В последней главе этой книге я вернусь к своим корням, и вместе мы исследуем, что значит Революция Причинности для искусственного интеллекта. Я полагаю, что сильный искусственный интеллект — достижимая цель, которой, к тому же не стоит бояться именно потому, что причинность — часть решения. Модуль причинного осмысления даст машинам способность размышлять над своими ошибками, выделять слабые места в своем программном обеспечении, функционировать как моральные сущности и естественно общаться с людьми о собственном выборе и намерениях.

Схема реальности

В нашу эпоху всем читателям, конечно, уже знакомы такие термины, как «знания», «информация», «интеллект» и «данные», хотя разница между ними или принцип их взаимодействия могут оставаться неясными. А теперь я предлагаю добавить в этот набор еще один термин — «причинная модель», после чего у читателей, вероятно, возникнет закономерный вопрос: не усложнит ли это ситуацию?

Не усложнит! Более того, этот термин свяжет ускользающие понятия «наука», «знания» и «данные» в конкретном и осмысленном контексте и позволит нам увидеть, как они работают вместе, чтобы дать ответы на сложные научные вопросы. На рис. 1. показана схема механизма причинного анализа, которая, возможно, адаптирует причинные умозаключения для будущего искусственного интеллекта. Важно понимать, что это не только проект для будущего, но и схема того, как причинные модели работают в науке уже сегодня и как они взаимодействуют с данными.

Механизм причинного анализа — это машина, в которую поступают три вида входных переменных — допущения, запросы и данные — и которая производит три типа выходных данных. Первая из входных переменных — решение «да/нет» о том, можно ли теоретически ответить на запрос в существующей причинной модели, если данные будут безошибочными и неограниченными. Если ответ «да», то механизм причинного анализа произведет оцениваемую величину. Это математическая формула, которая считается рецептом для получения ответа из любых гипотетических данных, если они доступны. Наконец, после того как в механизм причинного анализа попадут данные, он использует этот рецепт, чтобы произвести действительную оценку. Подобная неопределенность отражает ограниченный объем данных, вероятные ошибки в измерениях или отсутствие информации.


Рис. 1. Как механизм причинного анализа связывает данные со знанием причин, чтобы дать ответы на интересующие нас запросы. Блок, обозначенный пунктиром, не входит в механизм, но необходим для его построения. Также можно нарисовать стрелки от блоков 4 и 9 к блоку 1, но я решил сделать схему проще.


Чтобы объяснить схему подробнее, я пометил блоки цифрами от 1 до 9, и теперь прокомментирую их на примере запроса «Какой эффект лекарство D оказывает на продолжительность жизни L


1. «Знание» обозначает следы опыта, которые делающий умозаключения получил в прошлом. Это могут быть наблюдения из прошлого, действия в прошлом, а также образование и культурные традиции, признанные существенными для интересующего нас запроса. Пунктир вокруг «Знания» обозначает, что оно имеется в виду делающим умозаключения и не находит выражения в самой модели.

2. Научное исследование всегда требует упрощать допущения, т. е. утверждения, которые исследователь признает достойными, чтобы сформулировать их на основе доступного знания. Большая его часть остается подразумеваемой исследователем, и в модели запечатлены только допущения, которые получили формулировку и таким образом обнаружили себя. В принципе, их реально вычленить из самой модели, поэтому некоторые логики решили, что такая модель представляет собой всего лишь список допущений. Специалисты по компьютерным наукам делают здесь исключение, отмечая, что способ, избранный для представления допущений, в состоянии сильно повлиять на возможность правильно их сформулировать, сделать из них выводы и даже продолжить или изменить их в свете новой убедительной информации.

3. Причинные модели записываются в разной форме. Это могут быть диаграммы причинности, структурные уравнения, логические утверждения и т. д. Я убежденный приверженец диаграмм причинности почти во всех случаях — прежде всего из-за их прозрачности, но также из-за конкретных ответов, которые они дают на многие вопросы, которые нам хотелось бы задать. Для этой диаграммы определение причинности будет простым, хотя и несколько метафорическим: переменная X — причина Y, если Y «слушает» X и приобретает значение, реагируя на то, что слышит. Например, если мы подозреваем, что продолжительность жизни пациента L «прислушивается» к тому, какое лекарство D было принято, то мы называем D причиной L и рисуем стрелку от D к L в диаграмме причинности. Естественно, ответ на наш вопрос о D и L, вероятно, зависит и от других переменных, которые тоже должны быть представлены на диаграмме вместе с их причинами и следствиями (здесь мы обозначим их совокупно как Z).

4. Эта практика слушания, предписанная путями в причинной модели, обычно приводит к наблюдаемым закономерностям или зависимостям в данных. Подобные закономерности называются проверяемыми выводами, потому что они могут быть использованы для проверки модели. Это утверждение вроде «Нет путей, соединяющих D и L», которое переводится в статистическое утверждение «D и L независимы», т. е. обнаружение D не влияет на вероятность L. Если данные противоречат этому выводу, то модель нужно пересмотреть. Чтобы это сделать, требуется еще один механизм, которые получает входные переменные из блоков 4 и 7 и вычисляет «степень пригодности», или степень, до которой данные совместимы с допущениями модели. Чтобы упростить диаграмму, я не стал показывать второй механизм на рис. 1.

5. Запросы, поступающие в механизм причинного анализа, — это научные вопросы, на которые мы хотим ответить. Их необходимо сформулировать, используя термины причинности. Скажем, что такое P (L | do (D))? Одно из главных достижений Революции Причинности состоит в том, что она сделала этот язык научно прозрачным и математически точным.

6. Оцениваемая величина — это статистическая величина, которая оценивается на основе данных. После оценки данных она в состоянии обоснованно представить ответ на наш запрос. Если записать ее как формулу вероятности, например P (L | D, Z) × P (Z), то фактически получишь рецепт, как ответить на причинный запрос с помощью имеющихся у нас данных, когда механизм причинного анализа подтвердит эту возможность.

Очень важно осознавать, что, в отличие от традиционной оценки в статистике, нынешняя модель причинности порой не позволяет ответить на некоторые запросы, даже если какие-то данные уже собраны. Предположим, если наша модель покажет, что и D, и L зависят от третьей переменной Z (скажем, стадии болезни), и если у нас не будет способа измерить Z, то на запрос P (L | do (D)) нельзя будет получить ответ. В этом случае сбор данных окажется пустой тратой времени. Вместо этого придется вернуться назад и уточнить модель, либо добавив новые научные знания, которые позволят оценить Z, либо сделав допущения, которые все упростят (рискуя оказаться неправыми), например о том, что эффектом Z на D можно пренебречь.

7. Данные — это ингредиенты, которые используются в рецепте оцениваемой величины. Крайне важно осознавать, что данные абсолютно ничего не сообщают нам об отношениях причинности. Они обеспечивают нам значения, такие как P (L | D) или P (L | D, Z). Задача оцениваемой величины — показать, как «испечь» из этих статистических значений одну формулировку, которая с учетом модели будет логически эквивалентна запросу о причинности, скажем P (L | do (D)).

Обратите внимание, что само понятие оцениваемой величины и, более того, вся верхняя часть рис. 1 не существует в традиционных методах статистического анализа. Там оцениваемая величина и запрос совпадают. Так, если нам интересна доля тех, кто принимал лекарство D, среди людей с продолжительностью жизни L, мы просто записываем этот запрос как P (D | L). То же значение и будет нашей оцениваемой величиной. Оно уже определяет, какое соотношение данных надо оценить, и не требует никаких знаний о причинности. Именно поэтому некоторым статистикам по сей день чрезвычайно трудно понять, почему некоторые знания лежат за пределами статистики и почему одни только данные не могут заменить недостаток научного знания.

8. Оценка — то, что «выходит из печи». Однако она будет лишь приблизительной из-за еще одного свойства данных в реальном мире: они всегда относятся к ограниченной выборке из теоретически бесконечной популяции. В нашем текущем примере выборка состоит из пациентов, которых мы решили изучить. Даже если мы возьмем их произвольно, всегда останется некий шанс на то, что пропорции, которые мы определили, сделав измерения в выборке, не будут отражать пропорции в населении в целом. К счастью, статистика, как научная дисциплина, вооруженная продвинутыми приемами машинного обучения, дает нам великое множество способов справиться с этой неопределенностью: методы оценки максимальной вероятности, коэффициенты предрасположенности, интервалы доверия, критерии значимости и т. д. и т. п.

9. В итоге, если наша модель верна и если у нас достаточно данных, мы получаем ответ на запрос о причине, скажем такой: «Лекарство D повышает продолжительность жизни L у пациентов-диабетиков Z на 30 ± 20 %». Ура! Этот ответ добавит нам научных знаний (блок 1) и, если все пошло не так, как мы ожидали, обеспечит некоторые улучшения для нашей модели причинности (блок 3).


На первый взгляд, эта диаграмма может показаться сложной, и вы, вероятно, задумаетесь, необходима ли она. Действительно, в повседневной жизни мы каким-то образом способны выносить суждения о причине, не проходя через такой сложный процесс и точно не обращаясь к математике вероятностей и пропорций. Одной нашей интуиции о причинности обычно достаточно, чтобы справиться с неопределенностью, с которой мы сталкиваемся каждый день дома или даже на работе. Но, если мы захотим научить тупого робота думать о причинах или раздвинуть границы научного знания, заходя в области, где уже не действует интуиция, тщательно структурированная процедура такого рода будет обязательной.

Я хочу особенно подчеркнуть роль данных в вышеописанном процессе. Для начала примите во внимание, что мы собираем данные, предварительно построив модель причинности, сформулировав научный запрос, на который хотим получить ответ и определив оцениваемую величину. Это противоречит вышеупомянутому традиционному для науки подходу, в котором даже не существует причинной модели.

Однако современная наука ставит новые вызовы перед теми, кто практикует рациональные умозаключения о причинах и следствиях. Хотя потребность в причинной модели в разных дисциплинах становится очевиднее с каждым днем, многие исследователи, работающие над искусственным интеллектом, хотели бы избежать трудностей, связанных с созданием или приобретением причинной модели, и полагаться исключительно на данные во всех когнитивных задачах. Остается одна, в настоящий момент безмолвная надежда, что сами данные приведут нас к верным ответам, когда возникнут вопросы о причинности.

Я отношусь к этой тенденции с откровенным скепсисом, потому что знаю, насколько нечувствительны данные к причинам и следствиям. Например, информацию об эффекте действия или интервенции просто нельзя получить из необработанных данных, если они не собраны путем контролируемой экспериментальной манипуляции. В то же время, если у нас есть причинная модель, мы часто можем предсказать результат интервенции с помощью данных, к которым никто не прикасался.

Аргументы в пользу причинных моделей становятся еще более убедительными, когда мы пытаемся ответить на контрфактивные запросы, предположим: «Что бы произошло, если бы мы действовали по-другому?». Мы подробно обсудим контрфактивные запросы, потому что они представляют наибольшую сложность для любого искусственного интеллекта. Кроме того, развитие когнитивных навыков, сделавшее нас людьми, и сила воображения, сделавшие возможной науку, основаны именно на них. Также мы объясним, почему любой запрос о механизме, с помощью которого причины вызывают следствия, — самый прототипический вопрос «Почему?» — на самом деле контрфактивный вопрос под прикрытием. Таким образом, если мы хотим, чтобы роботы начали отвечать на вопросы «Почему?» или хотя бы поняли, что они значат, их необходимо вооружить моделью причинности и научить отвечать на контрфактивные запросы, как показано на рис. 1.

Еще одно преимущество, которое есть у причинных моделей и отсутствует в интеллектуальном анализе данных и глубинном обучении, — это способность к адаптации. Отметим, что на рис. 1 оцениваемая величина определяется на базе одной только причинной модели — еще до изучения специфики данных. Благодаря этому механизм причинного анализа становится невероятно адаптивным, ведь оцениваемая величина в нем подойдет для любых данных и будет совместима с количественной моделью, какими бы ни были числовые зависимости между переменными.

Чтобы понять, почему эта способность к адаптации играет важную роль, сравните этот механизм с системой, которая пытается учиться, используя только данные. В этом примере речь пойдет о человеке, но в других случаях ей может быть алгоритм глубинного обучения или человек, использующий такой алгоритм. Так, наблюдая результат L у многих пациентов, которым давали лекарство D, исследовательница в состоянии предсказать, что пациент со свойством Z проживет L лет. Но теперь ее перевели в новую больницу в другой части города, где свойства популяции (диета, гигиена, стиль работы) оказались другими. Даже если эти новые свойства влияют только на числовые зависимости между зафиксированными переменными, ей все равно придется переучиваться и осваивать новую функцию предсказания. Это все, на что способна программа глубинного обучения — приспосабливать функцию к данным. Однако, если бы у исследовательницы была модель для действия лекарства и если бы ее причинная структура оставалась нетронутой в новом контексте, то оцениваемая величина, которую она получила во время обучения, не утратила бы актуальности. Ее можно было бы применить к новым данным и создать новую функцию предсказания.

Многие научные вопросы выглядят по-другому «сквозь линзу причинности», и мне очень понравилось возиться с этой линзой. В последние 25 лет ее эффект постоянно усиливается благодаря новым находкам и инструментам. Я надеюсь и верю, что читатели этой книги разделят мой восторг. Поэтому я хотел бы завершить это введение, анонсировав некоторые интересные моменты книги.

В главе 1 три ступени — наблюдение, интервенция и контрфактивные суждения — собраны в Лестницу Причинности, центральную метафору этой книги. Кроме того, здесь вы научитесь основам рассуждений с помощью диаграмм причинности, нашего главного инструмента моделирования, и встанете на путь профессионального овладения этим инструментом. Более того, вы окажетесь далеко впереди многих поколений исследователей, которые пытались интерпретировать данные через линзу, непрозрачную для этой модели, и не знали о важнейших особенностях, которые открывает Лестница Причинности.

В главе 2 читатели найдут странную историю о том, как научная дисциплина статистика развила в себе слепоту к причинности и как это привело к далеко идущим последствиям для всех наук, зависящих от данных. Кроме того, в ней излагается история одного из величайших героев этой книги, генетика Сьюалла Райта, который в 1920-е годы нарисовал первые диаграммы причинности и долгие годы оставался одним из немногих ученых, осмелившихся воспринимать ее серьезно.

В главе 3 рассказывается равно любопытная история о том, как я обратился к причинности, работая над искусственным интеллектом — особенно над байесовскими сетями. Это был первый инструмент, который позволил компьютерам понимать «оттенки серого», и какое-то время я полагал, что они содержат главный ключ к искусственному интеллекту. К концу 1980-х годов я пришел к убеждению, что ошибался, и эта глава описывает мой путь от пророка до отступника. Тем не менее байесовские сети остаются очень важным инструментом для искусственного интеллекта и по-прежнему во многом определяют математическое основания для диаграмм причинности. Помимо постепенного знакомства с правилом Байеса и байесовскими методами рассуждения в контексте причинности, глава 3 представит увлекательные примеры того, как байесовские сети можно применить в реальной жизни.

Глава 4 рассказывает о главном вкладе статистики в причинный анализ — рандомизированном контролируемом исследовании (РКИ). С точки зрения причинности РКИ — это созданный человеком инструмент, позволяющий вскрыть запрос P (L | do (D)), возникший в природе. Главная его цель — отделить интересующие нас переменные (скажем, D и L) от других переменных (Z), которые в противном случае повлияли бы на обе предыдущие. Избавление от осложнений, вызванных такими неочевидными переменными, было проблемой в течение 100 лет. Эта глава показывает читателям удивительно простое ее решение, которое вы поймете за 10 минут, играючи проходя по путям в диаграмме.

Глава 5 повествует о поворотном моменте в истории причинности (и даже в истории всей науки), когда статистики столкнулись со сложностями, пытаясь выяснить, приводит ли курение к раку легких. Поскольку они не могли использовать свой любимый инструмент, РКИ, им было трудно прийти не только к единому выводу, но и к общему пониманию вопроса. Миллионы жизней оборвались или сократились из-за того, что ученым недоставало подходящего языка и методологии для ответов на вопросы о причинности.

Глава 6, надеюсь, даст читателям приятный повод отвлечься от серьезных вопросов из главы 5. Это глава о парадоксах — Монти Холла, Симпсона, Берксона и др. Классические парадоксы такого рода можно рассматривать как занимательные головоломки, однако у них есть и серьезная сторона, которая видна особенно хорошо, если взглянуть на них с точки зрения причинности. Более того, почти все они отражают столкновения с причинной интуицией и таким образом обнажают анатомию этой интуиции. Словно канарейки в шахте, они сигнализировали ученым, что человеческая интуиция укоренена в причинной, а не статистической логике. Я полагаю, читателям понравится новый взгляд на любимые парадоксы.

Главы 7–9 наконец-то позволят читателю совершить увлекательный подъем по Лестнице Причинности. Мы начнем в главе 7 с интервенции, рассказывая, как я со студентами 20 лет пытался автоматизировать запросы типа do. В итоге нам удалось добиться успеха, и в этой главе объясняется, как устроен механизм причинного анализа», который дает ответ «да/нет», и что такое оцениваемая величина на рис. 1. Изучив этот механизм, читатель получит инструменты, которые позволят увидеть в диаграмме причинности некие структуры, обеспечивающие немедленный ответ на причинный запрос. Это «поправки черного входа», «поправки парадного входа» и инструментальные переменные — «рабочие лошадки» причинного анализа.

Глава 8 поднимет вас на вершину лестницы, поскольку в ней рассматриваются контрфактивные суждения. Они считаются одной из необходимых составляющих причинности по меньшей мере с 1748 года, когда шотландский философ Дэвид Юм предложил для нее несколько искаженную дефиницию: «Мы можем определить причину как объект, за которым следует другой объект, если за всеми объектами, схожими с первым, следуют объекты, схожие со вторым. Или, другими словами, если бы не было первого объекта, второй бы не существовал». Дэвид Льюис, философ из Принстонского университета, умерший в 2001 году, указал, что на деле Юм дал не одно, а два определения: во-первых, регулярности (т. е. за причиной регулярно идет следствие) и, во-вторых, контрфактивности («если бы не было первого объекта…»). Хотя философы и ученые в основном обращали внимание на определение регулярности, Льюис предположил, что определение контрфактивности лучше сопрягается с человеческой интуицией: «Мы считаем причиной нечто, вызывающее перемену, и это перемена относительно того, что случилось бы без нее».

Читателей ждет приятный сюрприз: теперь мы можем отойти от научных дебатов и вычислить настоящее значение (или вероятность) для любого контрфактивного запроса — и неважно, насколько он изощрен. Особый интерес вызывают вопросы, связанные с необходимыми и достаточными причинами наблюдаемых событий. Например, насколько вероятно, что действие ответчика было неизбежной причиной травмы истца? Насколько вероятно, что изменения климата, вызванные человеком, являются достаточной причиной аномальной жары?

Наконец, в главе 9 обсуждается тема медиации. Возможно, когда мы говорили о рисовании стрелок в диаграмме причинности, вы уже задавались вопросом, стоит ли провести стрелку от лекарства D к продолжительности жизни L, если лекарство влияет на продолжительность жизни только благодаря воздействию на артериальное давление Z (т. е. на посредника). Другими словами, будет ли эффект D, оказываемый на L, прямым или непрямым? И если наблюдаются оба эффекта, как оценить их относительную важность? Подобные вопросы не только представляют большой научный интерес, но и могут иметь практические последствия: если мы поймем механизм действия лекарства, то, скорее всего, сумеем разработать другие препараты с тем же эффектом, которые окажутся дешевле или будут иметь меньше побочных эффектов. Читателя порадует тот факт, что вечный поиск механизма медиации теперь сведен до упражнения в алгебре, и сегодня ученые используют новые инструменты из набора для работы с причинностью в решении подобных задач.

Глава 10 подводит книгу к завершению, возвращаясь к проблеме, которая изначально привела меня к причинности: как автоматизировать интеллект человеческого уровня (его порой называют сильным искусственным интеллектом). Я полагаю, что способность рассуждать о причинах абсолютно необходима машинам, чтобы общаться с нами на нашем языке о политических мерах, экспериментах, объяснениях, теориях, сожалениях, ответственности, свободной воле и обязанностях — и в конечном счете принимать собственные этические решения.

Если бы я мог суммировать смысл этой книги в одной лаконичной и многозначительной фразе, она была бы такой: «Вы умнее ваших данных». Данные не понимают причин и следствий, а люди их понимают. Я надеюсь, что новая наука о причинном анализе позволит нам глубже осознать, как мы это делаем, ведь нет более эффективного способа понять себя, чем смоделировать себя. В эпоху компьютеров это новое знание также добавляет перспективу усилить наши врожденные способности, чтобы лучше постигать данные — как в больших, так и в малых объемах.

Глава 1. Лестница причинности

В начале…

Мне было, наверное, шесть или семь лет, когда я впервые прочел историю об Адаме и Еве в Эдемском саду. Мы с одноклассниками абсолютно не удивились капризным требованиям Бога, который запретил им есть плоды с древа познания. У божеств на все есть свои причины, думали мы. Но нас заинтриговал тот факт, что, когда Адам и Ева вкусили запретный плод, они, как и мы, стали осознавать свою наготу.

Когда мы стали подростками, наш интерес медленно сместился в сторону философских аспектов этой истории (израильские школьники читают Бытие несколько раз в год). Прежде всего нас взволновало, что возникновение человеческого знания было процессом не радостным, а болезненным — его сопровождали непослушание, вина и наказания. Некоторые спрашивали: имело ли смысл ради него отказываться от беззаботной жизни в Эдеме? И можно ли утверждать, что сельскохозяйственные и научные революции, которые случились после, стоили всех трудностей, войн и социальной несправедливости, неотъемлемых от современной жизни?

Не поймите меня неправильно: мы вовсе не были креационистами, и даже наши учителя были дарвинистами в душе. Однако мы знали, что автор, разыгравший эту историю по ролям, пытался ответить на самые насущные философские вопросы своего времени. Подобным образом мы ожидали, что она несет культурные отпечатки действительного процесса, в ходе которого Homo sapiens стал доминировать на нашей планете. Какой же в таком случае была последовательность шагов в этом скоростном процессе суперэволюции?

Интерес к таким вопросам угас, когда я на заре карьеры начал преподавать технические науки, но вдруг возродился в 1990-е годы, когда, работая над книгой «Причинность» (Causality), я познакомился с Лестницей Причинности.

Перечитывая Бытие в сотый раз, я заметил деталь, которая каким-то образом ускользала от моего внимания все эти годы. Когда Бог находит Адама, прячущегося в саду, он спрашивает: «… не ел ли ты от дерева, с которого Я запретил тебе есть?» И Адам отвечает: «… жена, которую Ты мне дал, она дала мне от дерева, и я ел». Бог спрашивает Еву: «… что ты это сделала?» Она отвечает: «… змей обольстил меня, и я ела».

Как мы знаем, Всемогущего не слишком впечатлили эти взаимные обвинения и он изгнал обоих из райского сада. И вот что я всегда пропускал до тех пор: Господь спросил: «Что?», а они ответили на вопрос «Почему?». Господь спрашивал о фактах, а они дали объяснения. Более того, оба были полностью убеждены, что, если назвать причины, их действия будут каким-то образом выставлены в ином свете. Откуда они взяли эту мысль?

Для меня из этих деталей вытекают три глубоких вывода. Во-первых, еще на заре нашей эволюции мы, люди, осознали, что мир состоит не только из фактов (которые сегодня мы назвали бы данными); скорее, эти факты склеены вместе сложной сетью причинно-следственных отношений. Во-вторых, именно объяснения причин, а не сухие факты, составляют основу наших знаний и должны быть краеугольным камнем машинного интеллекта. Наконец, наш переход от обработчиков данных к создателям объяснений был не постепенным; потребовался скачок, который нуждался во внешнем толчке в виде необычного фрукта. Это в точности соответствовало тому, что я в теории наблюдал на Лестнице Причинности: ни одна машина не сможет извлечь объяснения из необработанных данных. Ей необходим толчок.

Если искать подтверждения для этих обобщений в науке об эволюции, то мы, конечно же, не найдем древа познания, но все же увидим важный необъяснимый переход. Сейчас мы понимаем, что люди произошли от обезьяноподобных предков за период от 5 до 6 миллионов лет и что такие постепенные эволюционные процессы вполне свойственны земной жизни. Но около 50 тысяч лет назад случилось нечто уникальное. Одни называют это Когнитивной Революцией, а другие (с некоторой иронией) — Великим Скачком. Люди приобрели способность менять окружающую среду и собственные возможности с принципиально иной скоростью.

Например, за миллионы лет эволюции у орлов и сов развилось потрясающее зрение, однако они так и не изобрели очки, микроскопы, телескопы или приборы ночного видения. Люди произвели эти чудеса в течение столетий. Я называю такой феномен суперэволюционным ускорением. Некоторые читатели могут возразить, утверждая, что я сравниваю абсолютно разные вещи — эволюцию и развитие техники, но в том-то и дело. Эволюция снабдила нас способностью внедрять технику в жизнь — дар, которым она не наделила орлов и сов, и здесь снова встает вопрос: почему? Как вычислительные навыки вдруг появились у людей, но не у орлов?

На этот счет было предложено много гипотез, но одна из них особенно тесно связана с идеей причинности. В книге «Sapiens: Краткая история человечества» Юваль Ной Харари постулирует, что способность наших предков воображать несуществующее стала ключевой, поскольку улучшила коммуникацию. До этого сдвига они могли доверять только людям из своей непосредственной семьи или племени. Потом их доверие распространилось на более крупные сообщества, объединенные общими фантазиями (например, верой в невидимых, но доступных воображению божеств, в загробную жизнь и в божественную сущность лидера) и ожиданиями. Согласитесь вы с гипотезой Харари или нет, но связь между воображением и причинными отношениями практически самоочевидна. Бесполезно говорить о причинах вещей, если вы не можете представить их последствий. Верно и обратное: нельзя утверждать, что Ева вынудила вас съесть плод с дерева, если вы не способны вообразить мир, в котором, вопреки фактам, она не дала вам яблока.

Но вернемся к нашим предкам Homo sapiens: новообретенная способность мыслить в категориях причинности позволила им делать много вещей эффективнее с помощью непростого процесса, который мы называем планированием. Представьте себе племя, которое готовится к охоте на мамонта. Что им потребуется для успеха? Признаться, я не лучший охотник на мамонтов, но, изучая думающие машины, я узнал одну вещь: думающая сущность (компьютер, пещерный человек или преподаватель вуза) способна выполнить задачу такого размаха, только если запланирует все заранее — решит, сколько охотников надо привлечь, оценит с учетом направления ветра, с какой стороны лучше приближаться к мамонту — в общем, вообразит и сравнит последствия нескольких стратегий охоты. Чтобы это сделать, думающая сущность должна обладать ментальной моделью реальности, сверяться с ней и манипулировать ей.


Рис. 2. Предполагаемые причины успеха в охоте на мамонта


Рисунок 2 показывает, как нарисовать такую модель в уме. Каждая точка на рисунке представляет собой причину успеха. Заметьте, что причин много и что ни одна из них не будет определяющей; т. е. мы не можем быть уверены, что большее число охотников обеспечит успех или что дождь гарантирует неудачу, однако эти факторы действительно влияют на вероятность успеха.

Ментальная модель — это арена, на которой работает воображение. Она позволяет экспериментировать с разными сценариями, внося изменения в конкретные места. Где-то в ментальной модели наших охотников был вспомогательный элемент, который позволял оценить эффект от числа участников. Когда они размышляли, стоит ли взять больше людей, им не приходилось оценивать все остальные факторы с нуля. Они могли внести локальное изменение в модель, поставив «Охотники = 9» вместо «Охотники = 8», и снова оценить вероятность успеха. Этот модульный состав — основное свойство причинных моделей.

Я, конечно же, не хочу сказать, что первые люди рисовали себе модель, похожую на эту. Но когда мы пытаемся имитировать человеческую мысль на компьютере или даже когда хотим решить новые научные задачи, рисование картинок с конкретными точками и стрелками всегда исключительно полезно. Эти диаграммы причинности — вычислительная суть механизма причинного вывода, который я описал во вступлении.

Три уровня причинности

Возможно, к этому моменту я создал впечатление, что способность организовывать знания, деля их на причины и следствия, едина и мы приобрели ее сразу. На самом деле, исследуя машинное обучение, я узнал, что для изучения причинно-следственных связей необходимо овладеть когнитивными навыками по крайней мере на трех конкретных уровнях — видения, делания и воображения.

Первый навык, видение или наблюдение, подразумевает умение определять закономерности в окружающей среде. Он присутствует у многих животных и был у первых людей до Когнитивной Революции. Второй навык, делание, связан с умением предсказывать, какой эффект вызовут намеренные изменения в окружающей среде, и выбирать, какие изменения надо внести, чтобы получить желаемый результат. Очень немногие виды продемонстрировали элементы этого навыка. Использование инструментов, если это сознательные действия, а не случайность и не копирование предков, может свидетельствовать о переходе на этот следующий уровень. Но даже у пользователей инструментов не всегда есть «теория», которая говорит, почему инструмент работает и что делать, если он не работает. Для этого необходимо достичь уровня понимания, который допускает воображение. Именно этот третий уровень в первую очередь подготовил нас к дальнейшим революциям в науке и сельском хозяйстве и резко преобразил воздействие нашего вида на планету.

Это я обосновать не могу, зато могу доказать математически, что три уровня фундаментально различны, и на каждом из них раскрываются способности, которых нет на предыдущих. Схема, которую я использую для демонстрации, восходит к Алану Тьюрингу, пионеру в исследовании искусственного интеллекта, предложившему классифицировать когнитивную систему, ориентируясь на вопросы, на которые она способна ответить. Такой подход оказался исключительно плодотворным, если говорить о причинности, потому что он позволяет избежать долгих и непродуктивных дискуссий о том, что именно представляет собой причинность, и сосредоточен на конкретном вопросе, на который реально ответить: что делает мыслитель, изучающий причинность? Или, если точнее, что может вычислить организм, имеющий модель причинности, тогда как организм, не имеющий модели причинности, это вычислить не в состоянии?

В то время как Тьюринг хотел создать бинарную классификацию, чтобы отличать человека от нечеловека, у нашей есть три уровня, соответствующих все более и более сложным причинным запросам. Используя эти критерии, можно собрать из запросов трех уровней одну Лестницу Причинности (рис. 3.) Мы будем еще не раз возвращаться к этой метафоре.

Давайте подробно рассмотрим каждую ее перекладину. На первом уровне — ассоциаций — мы ищем повторяющиеся детали в наблюдениях. Этим занимается сова, которая наблюдает, как двигается крыса, и анализирует, где грызун окажется через секунду. Этим же занимается компьютерная программа для игры в го — она изучает базу данных с миллионами игр и может вычислить, какие ходы связаны с более высоким процентом выигрыша. Мы говорим, что одно событие связано с другим, если наблюдение одного изменения повышает вероятность увидеть другое.


Рис. 3. Лестница Причинности с представляющими ее организмами на каждом уровне. Большинство животных, так же как и сегодняшние обучающиеся машины, находятся на первой перекладине — они учатся по ассоциации. Пользователи инструментов вроде первых людей находятся на второй перекладине — если действуют по плану, а не просто имитируют. Кроме того, на этом уровне можно ставить эксперименты, чтобы узнать, какой эффект дает интервенция. Предположительно именно так младенцы получают большинство знаний о причинности. Те же, кто учится с помощью контрфактивных рассуждений, находятся на верхней перекладине и могут вообразить несуществующие миры и назвать причины для наблюдаемых феноменов.


Первая перекладина лестницы подразумевает предсказания, основанные на пассивных наблюдениях. Ее характеризует вопрос: «Что, если я увижу…?» Например, представьте директора по маркетингу в универмаге, который спрашивает: «Какова вероятность, что потребитель, который купил зубную пасту, также приобретет зубную нить?» Такие вопросы — самая суть статистики, и на них отвечают прежде всего, собирая и анализируя данные. В нашем случае на этот вопрос получится ответить, взяв данные о покупательском поведении всех клиентов, выбрав тех, кто купил зубную пасту, и, сосредоточившись на последней группе, вычислить долю тех, кто приобрел еще и зубную нить. Эта пропорция, также известная как условная вероятность, измеряет (для больших объемов данных) степень связи между покупкой пасты и покупкой зубной нити. Мы можем записать это в символах как P (зубная нить | зубная паста). P обозначает вероятность, вертикальная линия — «при условии, что вы видите».

Статистики предложили много изощренных методов, которые позволяют сократить большой объем данных и выявить связи между переменными. Корреляция или регрессия — типичная мера взаимосвязи, которая часто упоминается в этой книге. Чтобы увидеть ее, необходимо провести линию, ориентируясь на распределение единиц наблюдения, и продолжить ее уклон. Некоторые связи имеют очевидную интерпретацию с точки зрения причинности; другие могут ее не иметь. Но одна только статистика не скажет нам, что причина, а что следствие — зубная паста или зубная нить. С точки зрения менеджера по продажам это может не иметь особого значения. Точные предсказания не нуждаются в хороших объяснениях. Сова отлично охотится, не понимая, почему крыса всегда движется из точки A в точку B.

Некоторые читатели могут быть удивлены тем, что я разместил обучающиеся машины наших дней прямо на первой перекладине Лестницы Причинности — рядом с мудрой совой. Такое ощущение, что почти каждый день мы слышим о стремительном прогрессе систем машинного обучения — о самоуправляемых автомобилях, системах распознавания речи и, особенно в последнее время, об алгоритмах глубинного обучения (или глубинных нейросетях). Как же они могут до сих пор оставаться на первом уровне?

Успехи глубинного обучения стали по-настоящему примечательными и оказались сюрпризом для многих из нас. В то же время глубинное обучение оказалось успешным в основном потому, что показало: определенные вопросы или задания, которые мы считали трудными, на самом деле не являются таковыми. Оно не коснулось по-настоящему сложных вопросов, которые до сих пор не дают нам создать искусственный интеллект, подобный человеческому. В результате общественность верит, что машины с «сильным ИИ», которые думают, как человек, вот-вот появятся или, возможно, уже появились. В реальности это максимально далеко от правды. Я полностью согласен с Гэри Маркусом, нейроученым из Нью-Йоркского университета, который недавно писал в «Нью-Йорк таймс» о том, что сфера искусственного интеллекта «полнится микрооткрытиями», которых хватает для хороших пресс-релизов, но машины все еще огорчительно далеки от познания, подобного человеческому. Мой коллега Эднан Дарвиш, специалист по компьютерным наукам из Калифорнийского университета в Лос-Анджелесе, назвал свою программную статью «Интеллект как у человека или способности как у животных?» и, я думаю, очень точно поставил в ней интересующий нас вопрос. Сильный искусственный интеллект нужен для того, чтобы производить машины с интеллектом, подобным человеческому, которые будут способны общаться с людьми и направлять их. В то же время глубинное обучение дает нам машины с действительно впечатляющими способностями, но без интеллекта. Разница здесь глубокая, и ее причина — отсутствие модели реальности.

Точно так же, как 30 лет назад, программы машинного обучения (включая программы с глубинными нейросетями) практически всегда действуют в режиме ассоциаций. Они используют поток наблюдений, к которым пытаются приспособить функцию, по существу как статистик, который старается увидеть линию в скоплении точек — единиц информации. Глубинные нейросети повышают сложность подобранной функции, добавляя много слоев, но процесс подбора до сих пор базируется на необработанных данных. Чем больше данных используется, тем выше становится точность, но «суперэволюционного ускорения» не происходит. Если, например, программисты беспилотной машины захотят, чтобы она по-разному реагировала на новые ситуации, им придется быстро добавить эти новые реакции. Машина сама не поймет, что пешеход с бутылкой виски в руке, вероятно, по-своему отреагирует на сигнал. Это отсутствие гибкости и приспособляемости неизбежно для любой системы, которая работает на первом уровне нашей Лестницы Причинности.

Мы переходим на следующую ступень запросов о причинности, когда начинаем менять мир. Обычный вопрос для этого уровня будет таким: «Как изменятся продажи зубной нити, если удвоить стоимость зубной пасты?». Это уже требует нового вида знаний, которого нет в наших данных, обнаруженных на втором уровне Лестницы Причинности — интервенции.

Интервенция стоит выше ассоциации, потому что подразумевает не только наблюдение, но и изменение. Когда мы видим дым и когда дымим сами, это подразумевает совершенно разное представление о вероятности пожара. На вопросы об интервенции нельзя ответить с помощью пассивно собранных данных, и неважно, насколько велик их объем или насколько глубока нейронная сеть. Для многих ученых стала настоящим ударом информация о том, что никакие методы, известные из статистики, не позволяют даже выразить простой вопрос, например «Что будет, если мы удвоим цену?», не говоря уже о его решении. Я знаю это, поскольку много раз помогал им подняться на следующую перекладину лестницы.

Почему нельзя ответить на вопрос о зубной нити просто при помощи наблюдения? Ведь можно заглянуть в нашу обширную базу данных о предыдущих покупках, посмотреть, что было раньше, когда зубная паста стоила в два раза больше? Причина в том, что в предыдущих случаях цена могла быть выше по другим причинам. Предположим, товара осталось немного и всем остальным магазинам тоже пришлось повысить цены. Но теперь вы размышляете о намеренном вмешательстве, после которого установится новая цена, независимо от условий на рынке. Результат может сильно отличаться от предыдущего, когда покупатель не мог купить товар по более выгодной цене в других местах. Если бы у вас были данные об условиях на рынке в других ситуациях, вероятно, вы смогли бы предсказать все это лучше, но какие данные нужны? И как это выяснить? Наука о причинном выводе позволяет нам отвечать именно на эти вопросы.

Непосредственный способ предсказать результат интервенции — провести с ней эксперимент в тщательно контролируемых условиях. Компании, работающие с большими данными, такие как «Фейсбук», знают об этом и постоянно ставят эксперименты, чтобы посмотреть, что случится, если по-другому разместить элементы на экране или показать клиенту новую подсказку (либо даже новую цену).

Еще интереснее тот факт, что успешные предсказания об эффекте интервенции иногда можно сделать даже без эксперимента, хотя это не так широко известно, и даже в Кремниевой долине. Предположим, менеджер по продажам создает модель потребительского поведения и учитывает в ней ситуацию на рынке. Если данных обо всех факторах не имеется, вероятно, получится подставить достаточно суррогатных ключей и сделать прогноз. Сильная и точная причинная модель позволит использовать данные с первого уровня (наблюдения), чтобы ответить на запросы со второго уровня (об интервенции). Без причинной модели нельзя перейти с первой перекладины Лестницы на вторую. Вот почему системы глубинного обучения (если в них используются только данные с первой перекладины и нет причинной модели) никогда не смогут отвечать на вопросы об интервенции, по определению нарушающие правила среды, в которой обучалась машина.

Как иллюстрируют все эти примеры, главный вопрос на второй перекладине Лестницы Причинности — «Что, если мы…?». Что произойдет, если мы изменим среду? Можно написать запрос P (нить | do (зубная паста)), чтобы узнать, какова вероятность продать зубную нить по определенной цене, если мы будем продавать зубную пасту по другой цене.

Еще один популярный вопрос на этом уровне причинности — «Как?» Это родственник вопроса «Что, если мы…?». Скажем, менеджер говорит нам, что на складе слишком много зубной пасты. Он спрашивает: «Как нам ее продать?», т. е. какую цену лучше на нее назначить. И снова вопрос относится к интервенции, которую нужно совершить в уме, прежде чем решить, стоит ли осуществлять ее в реальной жизни и как это осуществить. Здесь требуется модель причинности.

В повседневной жизни мы постоянно совершаем интервенции, хотя обычно не называем их таким замысловатым термином. Предположим, принимая аспирин, чтобы избавиться от головной боли, мы вмешиваемся в одну переменную (количество аспирина в нашем организме), чтобы повлиять на другую (состояние головной боли). Если наш причинный взгляд на аспирин верен, то переменная результата отреагирует, изменившись с «головной боли» на «отсутствие головной боли».

Хотя рассуждения об интервенциях — важный уровень на Лестнице Причинности, все же они не отвечают на все интересующие нас вопросы. Можно задуматься: головная боль прошла, но почему? Помог аспирин? Или что-то из еды? Хорошие новости, которые я услышал? Эти вопросы приводят нас на верхний уровень Лестницы Причинности — уровень контрфактивных суждений, потому что для ответа на них нужно вернуться в прошлое, изменить историю и спросить себя: что случилось бы, если бы я не принял аспирин? Никакой эксперимент в мире не может отменить лечение человеку, который уже исцелился, и не позволит сравнить два исхода, поэтому необходимо применить совершенно новый вид знания.

Контрфактивные суждения находятся в особенно проблематичных отношениях с данными, потому что последние по определению относятся к фактам. Они не могут сообщить нам, что случится в контрфактивном или воображаемом мире, где некоторые наблюдаемые факты резко отвергаются. Но все же человеческий разум производит логические рассуждения такого рода — постоянно и с высокой надежностью. Это сделала Ева, когда обозначила причину своих действий: «Змей обольстил меня». Такая способность больше всего отличает человеческий интеллект от интеллекта животного, равно как и от невосприимчивых к подобным моделям версий ИИ и обучающихся машин.

Вероятно, вам не верится, что наука способна сделать полезные заключения в духе «а что, если» о мирах, которые не существуют, и о вещах, которые не происходили. Однако этим она и занимается — и занималась всегда. Законы физики можно рассматривать как контрфактивные утверждения, например: «Если бы вес этой спирали удвоился, ее длина тоже удвоилась бы» (закон Гука). Это утверждение, конечно, поддерживается изобилием экспериментальных подтверждений (второго уровня), полученных с помощью сотен спиралей в десятках лабораторий в тысячах случаев. Однако, поскольку утверждение нарекли законом, физики интерпретируют его как функциональную зависимость, которая управляет конкретной спиралью в конкретный момент при гипотетических значениях веса. Все эти разные миры, где вес составляет x кг, а длина спирали — LX см, рассматриваются как объективно известные и одновременно действующие, хотя на самом деле существует только один из них.

Если вернуться к примеру с зубной пастой, то вопрос на верхнем уровне будет таким: какова вероятность, что покупатель зубной пасты все равно купил бы ее, если бы мы удвоили цену? Мы сравниваем реальный мир (в котором знаем, что покупатель приобрел зубную пасту по текущей цене) с воображаемым миром (где цена вдвое выше).

Если иметь причинную модель, которая способна ответить на контрфактивные вопросы, преимущества будут огромными. Если понять причины грубой ошибки, в будущем можно будет принять меры, которые позволят все скорректировать. Если понять, почему лекарство помогло одним, но не помогло другим, получится открыть новые способы лечить болезнь. Отвечая на вопрос, как сложились бы события, если бы что-то пошло по-другому, мы извлечем уроки из истории и опыта других людей, и, кажется, ни один другой вид на это не способен. Неудивительно, что греческий философ Демокрит (около 460 — около 370 года до н. э.) сказал: «Я предпочел бы найти одну-единственную причину, чем стать персидским царем».

Расположение контрфактивных суждений на верхнем уровне Лестницы Причинности объясняет, почему я придаю им такое значение как ключевому моменту в эволюции человеческого создания. Я полностью согласен с Ювалем Харари в том, что описание воображаемых существ было демонстрацией новой способности, которую он называет Когнитивной Революцией. Ее классический пример — статуэтка человекольва, найденная в пещере Штадель в юго-западной Германии, которая сейчас хранится в Ульмском музее. Человеколев, созданный около 40 тысяч лет назад, представляет собой химеру, наполовину льва и наполовину человека, вырезанную из бивня мамонта.

Мы не знаем, кто создал человекольва и с какой целью это было сделано, но мы все же знаем, что это были анатомически современные люди и что это знаменует разрыв со всеми искусствами и ремеслами, практиковавшимися прежде. Раньше люди изготовляли инструменты и предметы фигуративного искусства — от бусин до флейт, наконечников копий и элегантных статуэток лошадей и прочих животных. Человеколев имеет иную природу — это творение чистого воображения.

Демонстрируя нашу новообретенную способность воображать вещи, которые никогда не существовали, человеколев является предшественником всех философских теорий, научных открытий и технических инноваций — от микроскопов до самолетов и компьютеров. Все они сначала появились в чьем-то воображении, а уже потом воплотились в физическом мире.

Этот скачок когнитивных возможностей был таким же глубоким и важным для нашего вида, как и все анатомические изменения, которые сделали нас людьми. В течение 10 тысяч лет после создания человекольва все иные виды рода Homo (кроме очень изолированного географически человека флоресского) вымерли. А люди продолжили менять естественный мир с невероятной скоростью, используя воображение, чтобы выжить, приспособиться и в итоге доминировать. Преимущество, которое мы получили, воображая контрфактивные ситуации, было тем же, что и сегодня: оно давало гибкость, способность размышлять и совершенствоваться на основе действий в прошлом и, что, вероятно, еще важнее, готовность брать на себя ответственность за действия в прошлом и будущем.

Как показано на рис. 3, для третьего уровня Лестницы Причинности характерны запросы вроде «Что было бы, если бы я сделал…?» и «Почему?». Оба подразумевают сравнение наблюдаемого мира с контрфактивным миром. Эксперименты сами по себе не позволяют отвечать на такие вопросы. В то время как на первом уровне мы имеем дело с наблюдаемом миром, а на втором уровне — с дивным новым миром, который можно увидеть, на третьем уровне идет взаимодействие с миром, который увидеть нельзя (потому что он противоречит наблюдаемому). Чтобы преодолеть этот разрыв, необходима модель причинного процесса, который иногда называют теорией или (когда мы невероятно уверены в себе) законом природы. Короче говоря, нам необходимо понимание. Это, конечно же, святой Грааль любой науки — разработка теории, которая позволит нам предсказать, что случится в ситуациях, которые мы даже не предвидели. Но дело заходит еще дальше: присутствие таких законов позволяет нам выборочно нарушать их, чтобы создать мир, который противоречит нашему. В следующем разделе мы рассмотрим такие нарушения на практике.

Мини-тест Тьюринга

В 1950 году Алан Тьюринг задался вопросом, что это значит: компьютер, думающий как человек. Он предложил практический тест под названием «Игра в имитацию», но исследователи искусственного интеллекта с тех пор зовут его исключительно тестом Тьюринга. Во всех практических отношениях компьютер достоин считаться думающей машиной, если обычный человек, который общается с ним при помощи клавиатуры, не догадается, с кем он разговаривает — с другим человеком или с компьютером. Тьюринг был горячо уверен в том, что это абсолютно достижимо. Он писал: «Я верю, что примерно через 50 лет можно будет так хорошо программировать компьютеры для игры в имитацию, что после пяти минут вопросов и ответов у среднего собеседника будет не более 70 %-ного шанса сделать правильный выбор».

Предсказание Тьюринга оказалось немного неточным. Ежегодно самый похожий на человека чатбот в мире борется за премию Лёбнера: за программу, которая сумеет обмануть всех четырех судей, притворяясь человеком, полагается золотая медаль и 100 тысяч долларов. В 2015 году, спустя 25 лет с начала соревнований, ни одной программе не удалось обмануть не то что всех судей, но даже и половину.

Тьюринг не просто разработал игру в имитацию, он также предложил стратегию, чтобы пройти тест. «Что, если разработать программу, симулирующую не разум взрослого человека, а ум ребенка?» — спросил он. Если это сделать, можно было бы обучить ее так, как мы обучаем детей, — и вуаля! Через 20 лет (или меньше, учитывая более высокую скорость компьютера) мы получим искусственный интеллект. «Можно предположить, что ум ребенка подобен тетради, которую покупают в канцелярском магазине, — писал он. — Совсем небольшой механизм и много пустых страниц». Здесь он ошибался: мозг ребенка богат механизмами и заранее загруженными шаблонами.

И все же я думаю, что в чем-то Тьюринг прав. Скорее всего, у нас не получится произвести интеллект, подобный человеческому, пока мы не создадим интеллект, схожий с детским, и главным компонентом этого интеллекта будет владение причинно-следственными связями.

Как же машины могут получить знания о причинно-следственных связях? Это и по сей день остается важнейшим вызовом, который, несомненно, относится к замысловатым сочетаниям данных, поступающих из активных экспериментов, пассивного наблюдения и (не в последней степени) самого программиста, что во многом похоже на входящую информацию, которую получает ребенок, только эволюцию, родителей и товарищей заменяет программист.

Тем не менее ответим на несколько менее амбициозный вопрос: как машины (и люди) могли бы представить знания о причинно-следственных связях таким образом, чтобы быстро получать доступ к нужной информации, правильно отвечать на вопросы и делать это с такой же легкостью, с какой это получается у трехлетнего ребенка? На самом деле таков главный вопрос, который мы рассмотрим в этой книге.

Я называю это мини-тестом Тьюринга. Идея здесь в том, чтобы взять простую историю, каким-то образом закодировать ее на машине, а потом проверить, сможет ли она правильно ответить на вопросы о причинно-следственных связях, на которые способен ответить человек. Это мини-тест по двум причинам. Во-первых, потому что он сведен к рассуждениям о причинах и следствиях, что исключает остальные аспекты человеческого интеллекта, такие как общая картина мира и естественный язык. Во-вторых, мы позволяем конкурсанту закодировать историю в виде любого удобного представления и освобождаем машину от задачи извлечь историю из собственного опыта. Проходить этот мини-тест стало задачей всей моей жизни — я делаю это сознательно последние 25 лет и делал бессознательно раньше.

Очевидно, готовясь к мини-тесту Тьюринга, мы должны сначала ответить на вопрос о репрезентации, а уже потом — об усвоении информации. Без репрезентации мы не знали бы, как хранить данные для использования в будущем. Даже если бы мы могли дать роботу манипулировать окружающей средой по его желанию, любая информация, полученная таким образом, забылась бы, если бы роботу не дали шаблон, чтобы закодировать результаты этих манипуляций. Важнейшим вкладом ИИ в исследование познания стала парадигма «Сначала репрезентация — потом усвоение». Часто поиск хорошей репрезентации приводил к ценным находкам о том, как стоит получать знания — и из данных, и от программиста.

Когда я описываю мини-тест Тьюринга, в ответ мне обычно утверждают, что его легко пройти с помощью обмана. Например, можно взять список всех вероятных вопросов, сохранить правильные ответы, а потом привести их по памяти, когда вас спросят. И тогда не будет способа отличить машину, в которой всего лишь хранится список вопросов и ответов, от машины, которая отвечает так же, как мы с вами, т. е. понимает вопрос и производит ответ, используя ментальную модель причинности. И что же докажет мини-тест Тьюринга, если жульничать так просто?

Философ Джон Сёрл в 1980 году описал эту возможность обмана с помощью мысленного эксперимента под названием «Китайская комната». Он подверг сомнению утверждение Тьюринга о том, что способность сымитировать интеллект равна обладанию им. С аргументом Сёрла есть только одна проблема: обмануть тест нелегко, более того, это нереально. Даже при ограниченном наборе переменных количество вероятных вопросов растет астрономически. Скажем, у нас есть 10 каузальных переменных и каждая из них может иметь два значения (0 или 1). Мы способны задать около 30 миллионов предполагаемых запросов, например: «Какова вероятность, что результат будет равен 1, если мы увидим, что переменная X равна 1, и сделаем переменную Y равной 0, а переменную Z равной 1?». Если бы переменных было больше или если бы у каждой было свыше двух состояний, то число возможностей вышло бы за пределы нашего воображения. В список Сёрла пришлось бы внести пунктов больше, чем атомов во Вселенной. Очевидно, что простой список вопросов и ответов никогда не сымитирует интеллект ребенка, не говоря уже об интеллекте взрослого.

Человеческому мозгу необходимы компактное представление информации, а также эффективная процедура, которая позволит должным образом интерпретировать каждый вопрос и вычленить нужный ответ из этого сохраненного представления. Таким образом, чтобы пройти мини-тест Тьюринга, нужно снабдить машины такой же эффективной репрезентацией и алгоритмом для получения ответа.

Эта репрезентация не просто существует, она по-детски проста — я говорю о диаграмме причинности. Мы уже видели один пример — диаграмму об охоте на мамонта. С учетом невероятной легкости, с какой люди могут передавать свои знания в диаграммах из стрелок и точек, я верю, что у нас в мозге действительно существует такая репрезентация. Но, что важнее для наших целей, эти модели позволяют пройти мини-тест Тьюринга, тогда как ни одна другая модель на это не способна. Давайте рассмотрим некоторые примеры.


Рис. 4. Диаграмма причинности для примера с расстрелом. A и B представляют действия солдат A и B


Предположим, что расстрельная команда собирается казнить узника. Чтобы это произошло, должна случиться определенная последовательность событий. Сначала суд выносит приговор о расстреле. Его доводят до капитана, который дает сигнал солдатам из расстрельной команды (А и В) стрелять. Будем считать, что они послушные исполнители и опытные снайперы, поэтому действуют только по команде, и если один из них выстрелит, то узник умрет.

На рис. 4 показана диаграмма, представляющая сюжет, который я только что изложил. Каждое из неизвестных (ПС, К, A, B, С) является переменной со значением «верно/неверно». Например, «С = верно» свидетельствует, что узник мертв; «С = неверно» выражает, что узник жив. «ПС = неверно» означает, что приговор не был вынесен; «ПС = верно» — что он был вынесен и т. д.

Диаграмма позволяет нам отвечать на вопросы о причинах, соответствующие разным уровням Лестницы. Во-первых, можно ответить на вопросы о связях (т. е. о том, что один факт говорит нам о другом). Если узник мертв, значит ли это, что приговор был вынесен? Мы (или компьютер) способны изучить диаграмму, проследить правила, стоящие за каждой стрелкой и, используя стандартную логику, прийти к выводу, что два солдата не выстрелили бы без команды капитана. Подобным образом капитан не дал бы команды, если бы в его распоряжении не было приговора. Поэтому ответ на наш вопрос — да. Другой вариант: предположим, мы узнали, что выстрелил А. Что это говорит нам о действиях В? Следуя стрелкам, компьютер приходит к выводу, что В тоже должен был выстрелить (А не стал бы стрелять, если бы капитан не дал сигнала, значит, В точно стрелял). Это справедливо, даже когда А не вызывает B (между A и B нет стрелки).

Поднимаясь по Лестнице Причинности, можно поставить вопрос об интервенции. А если солдат А по собственной инициативе решит выстрелить, не дожидаясь команды капитана? Будет ли узник жив или мертв? Вообще, этот вопрос сам по себе содержит некоторое противоречие. Я сейчас сказал вам, что А выстрелит, только если получит команду, а теперь мы спрашиваем, что будет, если он выстрелит без команды. Если просто использовать правила логики, как обычно делают компьютеры, этот вопрос становится бессмысленным. Как говорил в таких случаях робот из телесериала 1960-х годов «Затерянные в космосе», «это не вычисляется».

Если мы хотим, чтобы наш компьютер понимал причинно-следственные связи, нужно научить его нарушать правила. Он должен усвоить, что просто наблюдать за событием и быть его причиной — разные вещи. Мы говорим компьютеру: «Во всех случаях, когда ты становишься причиной события, убери все стрелки, указывающие на это событие, и продолжай анализ с помощью обычной логики, как будто стрелок никогда не было». Таким образом, мы стираем все стрелки, ведущие к переменной, ставшей объектом интервенции (А). Также мы вручную настраиваем эту переменную, присваивая ей значение («верно»). Обоснование для этой странной «хирургической операции» простое: вызывая событие к жизни, мы освобождаем его от всех других влияющих обстоятельств и подвергаем только одному — тому, которое заставляет его случиться.

На рис. 5 показана диаграмма причинности на основе нашего примера. Эта интервенция неизбежно приводит к смерти узника. Такова причинная функция стрелки, ведущей от А к С.


Рис. 5. Рассуждение об интервенциях. Солдат А решает выстрелить; стрелка от К к А стерта, и А получает значение «верно».


Заметим, что этот вывод согласуется с нашим интуитивным суждением: выстрел А, сделанный без команды, приведет к смерти узника, потому что хирургическое вмешательство оставило стрелку от А к С неприкосновенной. Кроме того, мы придем к выводу, что В (по всей вероятности) не выстрелил; ничего, связанное с решением А, не должно влиять на переменные в модели, не являющиеся результатом выстрела А. Это утверждение стоит повторить. Если мы видим, что А стреляет, то делаем вывод, что В тоже выстрелил. Но если А решает выстрелить или если мы заставляем А выстрелить, то верно обратное. В этом разница между тем, чтобы видеть, и тем, чтобы делать. Только компьютер, способный уловить эту разницу, может пройти мини-тест Тьюринга.

Заметим, что, если бы мы просто собирали большие данные, это не помогло бы подняться по Лестнице и ответить на вопросы, заданные выше. Предположим, вы журналист, который ежедневно собирает информацию о расстрелах. В ваших данных будут только два типа событий: либо все пять переменных верны, либо все они неверны. Вот почему, располагая данными такого рода и не понимая, кто кого «слушает», вы (или любой алгоритм машинного обучения) ни за что не предскажете, что будет, если убедить снайпера А не стрелять.

Наконец, чтобы проиллюстрировать третий уровень Лестницы Причинности, давайте зададим контрфактивный вопрос. Предположим, мертвый узник лежит на земле. Из этого мы можем сделать вывод (используя первый уровень), что А выстрелил, В выстрелил, капитан подал сигнал, а суд вынес приговор. А если бы А решил не стрелять? Остался бы узник в живых? Этот вопрос требует от нас сравнения реального мира с вымышленным и противоречащим нашему, в котором А не выстрелил. В этом вымышленном мире стрелка, ведущая к А, стерта, чтобы А мог не слушать К. Переменной А присвоено значение «неверно», но ее предыдущая история остается той же, что и в реальном мире. Итак, вымышленный мир выглядит как на рис. 6.

Чтобы пройти этот мини-тест Тьюринга, наш компьютер должен прийти к выводу: узник будет мертв в вымышленном мире тоже, потому что там его убил бы выстрел В, т. е. доблестный отказ А не спас бы его жизни. Несомненно, по этой единственной причине и существуют расстрельные команды: они гарантируют, что приговор будет приведен в исполнение, и снимают некоторое бремя ответственности с каждого стрелка в отдельности: все они могут с чистой (относительно) совестью утверждать, что их действия не привели к смерти узника, потому что «он все равно бы умер».

Может показаться, что мы приложили массу усилий, стараясь ответить на ненастоящие вопросы, с которыми и так все было ясно. Я полностью согласен! Рассуждения о причинно-следственных связах даются вам без труда, потому что вы человек, и когда-то вам было три года, и у вас был замечательный трехлетний мозг, который понимал причинно-следственные связи лучше, чем любое животное или компьютер. Весь смысл мини-теста Тьюринга в том, чтобы рассуждения о причинности стали по силам и машинам. В ходе этого процесса мы могли узнать что-то новое о том, как это делают люди. Все три примера показывают, что компьютеры нужно научить выборочно нарушать правила логики. Компьютерам трудно это делать, а детям очень легко. (И пещерным людям тоже! Человекольва не создали бы, не нарушив правила о том, какая голова подходит для того или иного тела.)


Рис. 6. Контрфактивное рассуждение. Мы наблюдаем, что узник мертв и спрашиваем, что случилось бы, если бы солдат А решил не стрелять.


Но все же не будем почивать на лаврах, утверждаясь в человеческом превосходстве. В очень многих ситуациях людям, скорее всего, будет гораздо сложнее прийти к верным выводам о причинно-следственных связях. Так, может возникнуть гораздо больше переменных и они окажутся не просто бинарными (верно/неверно). Вместо того чтобы гадать, жив или мертв узник, нам, предположим, понадобится предсказать, насколько вырастит безработица, если поднять минимальную заработную плату. Такого рода количественное рассуждение о причинно-следственных связах обычно не под силу нашей интуиции. Кроме того, в примере с расстрельной командой мы исключили неопределенность: скажем, капитан дал команду через долю секунды после того, как солдат А решил выстрелить или у солдата В заклинило ружье и т. д. Чтобы справиться с неопределенностью, нам нужна информация о вероятности таких ненормальных ситуаций.

Позвольте привести пример, в котором от вероятностей зависит все. Он отражает споры, разгоревшиеся в Европе, когда впервые появилась вакцина от оспы. Тогда статистические данные неожиданно показали, что от прививки умирает больше людей, чем от самой болезни. Естественно, некоторые люди использовали эту информацию как аргумент в пользу запрета прививок, тогда как на деле она спасала жизни, избавляя от риска заболеть. Давайте рассмотрим вымышленные данные, чтобы проиллюстрировать этот эффект и разрешить спор.

Представим, что из миллиона детей 99 % получает прививку, а 1 % — нет. Если ребенок привит, то у него или у нее есть один шанс из 100 на побочную реакцию, и в одном случае из 100 реакция может стать смертельной. В то же время, если ребенок не прививается, у него или у нее очевидно нет риска получить побочную реакцию на прививку, однако есть один шанс из 50 заболеть оспой. Наконец, давайте считать, что оспа смертельна в одном случаев из пяти.

Я думаю, вы согласитесь, что вакцинация — хорошая мысль. Шансы получить побочную реакцию ниже, чем шансы заразиться оспой, и сама реакция гораздо менее опасна, чем болезнь. Но давайте посмотрим на данные. Из миллиона детей 990 тысяч получают прививку, у 9 900 возникает побочная реакция и 99 умирает. В то же время 10 тысяч не прививаются, 200 заражаются оспой и 40 умирает. В результате от вакцины умирает больше детей (99), чем от болезни (40).

Я понимаю родителей, которые готовы устроить демонстрацию перед министерством здравоохранения с лозунгами «Прививки убивают!». И вроде бы данные подтверждают их позицию — прививки действительно вызывают больше смертей, чем сама оспа. Но на их ли стороне логика? Надо ли запретить прививки или же стоит взять в расчет предотвращенные смерти? На рис. 7 вы найдете диаграмму причинности для этого примера.

Когда мы начали, вакцинировалось 99 % детей. Теперь мы задаем контрфактивный вопрос: «А что, если снизить число вакцинированных до нуля?». Используя вероятности, которые я привел выше, мы можем прийти к выводу, что из миллиона детей 20 тысяч заразились бы оспой и 4 тысячи умерли бы. Сравнивая контрфактивный мир с настоящим, мы видим, что отсутствие прививок стоило бы жизни 3 861 ребенку (разница между 4 тысячами и 139). Стоит поблагодарить язык контрфактивных суждений, который помогает нам избежать таких потерь.

Главный урок для изучающих причинность состоит в том, что модель причинности подразумевает гораздо больше, чем простое рисование стрелок. За стрелками стоят вероятности. Когда мы рисуем стрелку от X к Y, мы подразумеваем, что некоторое правило или функция, определяющие вероятность, указывают, как изменится Y, если изменится X. В некоторых случаях мы знаем правило, но вероятнее, что его придется вывести из данных. Одна из самых интригующих особенностей Революции Причинности, однако, состоит в том, что во многих случаях можно оставить математические данные абсолютно неопределенными. Очень часто структура самой диаграммы позволяет нам оценить самые разные причинные и контрфактивные отношения — простые или сложные, детерминистские или вероятностные, линейные или нелинейные.

С вычислительной точки зрения наша схема для мини-теста Тьюринга также примечательна тем, что мы использовали один порядок действий для всех трех примеров: перевели историю в диаграмму, выслушали запрос, сделали «хирургическое вмешательство», соответствующее конкретному запросу (интервенционное или контрфактивное; если запрос о связях, вмешательства не требуется), использовали измененную причинную модель, чтобы вычислить ответ. Нам не пришлось обучать машину множеству новых запросов каждый раз, когда история менялась. Этот подход достаточно гибкий, чтобы работать каждый раз, когда возможно нарисовать диаграмму причинности — применительно к мамонтам, расстрельным командам или прививкам. Именно это мы и хотим получить от механизма причинного вывода — именно такой гибкостью обладаем мы, люди.


Рис. 7. Диаграмма причинности для примера с прививками. Полезна ли вакцинация?


Конечно, в самой диаграмме нет ничего волшебного. Она позволяет достичь успеха, потому что содержит информацию о причинах; т. е., составив диаграмму, мы спросили: «Кто может вызвать смерть заключенного напрямую?» или «Каков непосредственный эффект от вакцинации?». Если бы мы составляли диаграмму, спрашивая исключительно об ассоциациях, она не дала бы нам таких возможностей. Например, если бы на рис. 7 мы направили стрелку от оспы к прививкам, то получили бы такие же связи между данными, но пришли бы к ошибочному мнению о том, что оспа влияет на вакцинацию.

Но давайте внимательнее рассмотрим этот критерий повышения вероятности и увидим, где он дает сбой. Вопрос общей причины или вмешивающегося фактора для X и Y доставлял философам максимум неприятностей. Если взять критерий повышения вероятности как таковой, то придется заключить, что продажи мороженого вызывают преступления, так как вероятность преступлений выше в месяцы, когда продается больше мороженого. В этом конкретном случае мы объясним феномен тем, что и продажи мороженого, и преступность выше летом, когда погода теплее. Тем не менее у нас все равно остается вопрос: какой общий философский критерий способен определить, что причина — погода, а не продажи мороженого?

Философы изо всех сил старались исправить это определение — они учли в нем так называемые фоновые факторы (еще одно название для осложняющих факторов) и привлекли критерий P (Y | X, K = k) > P (Y | K = k), где K обозначает некие фоновые переменные. Более того, этот критерий работает для нашего примера с мороженым, если считать температуру фоновой переменной. Скажем, если мы рассмотрим только дни, когда температура достигает 30 °C (K = 30), то не найдем остаточных связей между мороженым и преступлениями. Иллюзия, что вероятность повышается, возникнет, только если мы сравним дни, когда было +30 °C, с днями, когда был 0 °C.

И все же ни один философ не смог дать убедительный общий ответ на вопрос: какие переменные необходимо включить в набор общих переменных K и сделать условием задачи? Проблема очевидна: осложняющие переменные — это тоже понятие из сферы причинности, поэтому они не поддаются описанию с точки зрения вероятности. В 1983 году Нэнси Картрайт вышла из тупика и обогатила описание фонового контекста элементами причинности. Она предложила учитывать только факторы, «причинно релевантные» для следствия. Позаимствовав это понятие со второго уровня Лестницы Причинности, она, по сути дела, отказалась от идеи определять причины на основе исключительно вероятности. Это был прогресс, но критики получили возможность утверждать, что мы определяем причину через нее саму.

Философские споры по поводу подобающего содержания K продолжались более 20 лет и зашли в тупик. Замечу, что мы увидим верный критерий в главе 4 и я не буду портить здесь сюрприз. На данный момент достаточно сказать, что это критерий практически нереально сформулировать без диаграмм причинности.

Обобщая, следует сказать, что вероятностная причинность всегда сталкивалась с осложняющими переменными. Каждый раз, когда приверженцы вероятностной причинности пытаются починить корабль, снабдив его новым корпусом, он натыкается на тот же подводный камень и получает очередную протечку. Но, если выразить «рост вероятности» на языке условных вероятностей, как ни подлатывай корпус, на следующий уровень Лестницы не попадешь. Как бы странно это ни звучало, понятие повышения вероятности нельзя объяснить в терминах вероятностей.

Верный способ спасти идею повышения вероятности — использовать оператор do: можно сказать, что X вызывает Y, если P (Y | do (X)) > P (Y). Поскольку интервенция — понятие второго уровня, это определение способно отразить причинную интерпретацию повышения вероятности, а еще оно будет работать на диаграммах причинности. Другими словами, если у нас на руках диаграмма причинности и данные, и исследователь спрашивает, действительно ли P (Y | do (X)) > P (Y), мы в состоянии дать связный алгоритмический ответ и таким образом решить, является ли X причиной Y в плане повышения вероятности.

Обычно я обращаю много внимания на то, что философы хотят сказать о скользких понятиях, таких как причинность, индукция или логика научных рассуждений. У философов есть преимущество: они стоят в стороне от оживленных научных дебатов и от реалий взаимодействия с данными на практике. Они в меньшей степени, чем другие ученые, заражены антипричинными предубеждениями статистики.

Они могут привлечь традицию восприятия причинности, которая восходит к Аристотелю, и говорить о причинности, не краснея и не пряча ее за этикеткой «ассоциации».

Однако, стараясь перевести понятие причинности на язык математики, что само по себе идея, достойная похвалы, философы слишком быстро прибегли к единственному известному им языку, который может описать неопределенность, — к языку вероятности. За последний десяток лет они в основном преодолели это заблуждение, но, к несчастью, похожие идеи сейчас рассматриваются в эконометрике под названиями вроде «причинность по Грэнджеру» и «векторная автокорреляция».

И сейчас я сделаю признание: я совершил ту же ошибку. Я не всегда ставил причинность на первое место, а вероятность — на второе. Наоборот! Когда я стал работать над искусственным интеллектом в начале 1980-х годов, я думал, что неопределенность — самая важная вещь, которой не хватает ИИ. Более того, я настаивал на том, чтобы неопределенность была представлена с помощью вероятностей. Таким образом, как я объясняю в главе 3, я разработал подход к рассуждениям в условиях неопределенности под названием «байесовские сети», который имитирует, как идеализированный, децентрализованный мозг может включить вероятности в принятие решений. Если мы видим определенные факты, байесовские сети способны быстро вычислить вероятность верности или неверности определенных фактов. Неудивительно, что байе-совские сети сразу обрели популярность в сообществе ИИ и даже сегодня считаются ведущей парадигмой в искусственном интеллекте для рассуждений при неопределенности.

Хотя продолжающийся успех байесовских сетей чрезвычайно радует меня, они не смогли закрыть зазор между искусственным и человеческим интеллектом. Я уверен, что вам понятно, какой составляющей не хватает — причинности. Да, призраки причинности в изобилии витали рядом. Стрелки неизменно вели от причин к следствиям, и практики часто замечали, что диагностические системы становятся неуправляемыми, если направление стрелок меняется в обратную сторону. Но по большей части мы думали, что эта культурная привычка — артефакт былых сценариев мышления, а не центральный аспект разумного поведения.

В то время меня так опьянила сила вероятностей, что я счел причинность второстепенным понятием — просто удобством или ментальной скорописью для выражения вероятностных зависимостей и отделения релевантных переменных от нерелевантных.

В своей книге 1988 года «Вероятностные рассуждения в интеллектуальных системах» (Probabilistic Reasoning in Intelligent Systems) я писал: «Причинность — язык, на котором мы можем эффективно обсуждать определенные структуры в отношениях релевантности». Я смущаюсь, вспоминая эти слова сегодня, потому что релевантность — очевидно, понятие первого уровня. Еще ко времени, когда книга была напечатана, в глубине души я знал, что был неправ. Для моих коллег — специалистов по компьютерным наукам книга стала библией вероятностных рассуждений в условиях неопределенности, но я уже чувствовал себя еретиком.

Байесовские сети существуют в мире, где все вопросы сводятся к вероятностям или (в терминах этой главы) степеням связи между переменными; они не могли подняться на второй или третий уровни Лестницы Причинности. К счастью, потребовалось всего два небольших изменения, чтобы забраться наверх. Сначала, в 1991 году, благодаря идее сделать графику «хирургическую операцию», получилось применить его и к наблюдениям, и к интервенциям. Еще один поворот, в 1994 году, вывел их на третий уровень — они стали применимы к контрфактивным суждениям. Но все это заслуживает обсуждения ниже. Главное в следующем: в то время как вероятности кодируют наши представления о статичном мире, причинность говорит нам, как вероятности меняются (и меняются ли) в статичном мире, будь то посредством интервенции или воображения.

Глава 2. От государственных пиратов до морских свинок: становление причинного вывода

И всё-таки она вертится.

Приписывается Галилео Галилею, 1564–1642

Почти два столетия одним из самых постоянных ритуалов в британской науке были вечерние лекции по пятницам в Королевском институте Великобритании в Лондоне. Многие великие открытия XIX столетия впервые были представлены публике именно там: принципы фотографии Майкла Фарадея в 1839-м; электроны в докладе Джозефа Джона Томсонав 1897-м; сжижение водорода в лекции Джеймса Дьюара в 1898-м.

Зрелищности на этих мероприятиях всегда придавали большое значение: здесь наука буквально становилась театром, и зрители, сливки британского общества, были разодеты в пух и прах (мужчины непременно в смокингах с черными галстуками). С боем часов вечернего докладчика почтительно вводили в аудиторию. По традиции он начинал лекцию тотчас же, без представления или вступления. Эксперименты и наглядные демонстрации были частью зрелища.

Вечером 9 февраля 1877 года докладчиком был Фрэнсис Гальтон, член Королевского общества, двоюродный брат Чарл-за Дарвина, известный исследователь Африки, изобретатель дактилоскопии и классический пример ученого джентльмена викторианской эпохи. Название доклада Гальтона гласило: «Типичные законы наследственности». Экспериментальный прибор, сделанный им для доклада, представлял собой странное устройство, которое он назвал квинкунксом (сейчас его часто именуют доской Гальтона). Похожее приспособление используется в американской телевикторине «Цена верна». Доска Гальтона состояла из рядов воткнутых в дерево булавок, расположенных таким образом, что любые три соседние булавки образовывали равносторонний треугольник; через отверстие сверху можно было насыпать маленькие металлические шарики, которые, ударяясь о булавки, как в пинболе, скатывались вниз, в итоге попадая в один из пазов внизу доски (см. фронтиспис). Для каждого индивидуального шарика отскоки влево и вправо от булавок по мере скатывания вниз распределяются совершенно случайно. Однако если в устройство Гальтона всыпать много шариков, становится видна удивительная закономерность: накопившиеся на дне шарики всегда образуют грубое подобие колоколообразной кривой. Пазы ближе к центру будут содержать больше всего шариков, а по мере продвижения к обоим краям доски число шариков в каждом пазу будет постепенно уменьшаться.

У такого распределения есть математическое объяснение. Путь каждого отдельного шарика подобен последовательности независимых подбрасываний монеты. Всякий раз, когда шарик сталкивается с булавкой, он отскакивает или вправо, или влево, и со стороны его движение кажется совершенно случайным. Сумма результатов — число отскакиваний вправо относительно числа отскакиваний влево — определяет, в каком из пазов шарик закончит свой путь. Согласно центральной предельной теореме теории вероятностей, доказанной в 1810 году Пьером Симоном Лапласом, любой подобный случайный процесс, эквивалентный большому числу последовательных подбрасываний монеты, приводит к точно такому же вероятностному распределению, называемому нормальным распределением (или колоколообразной кривой). Доска Гальтона — просто наглядное, зримое выражение теоремы Лапласа.

Центральная предельная теорема — воистину чудо математики XIX века. Только задумайтесь: хотя путь каждого отдельного шарика непредсказуем, путь тысячи шариков может быть предсказан довольно точно — удобный факт для продюсеров викторины «Цена верна», которые могут подсчитать, сколько денег все участники выиграют за отчетный период. Этот же закон нужно благодарить за то, что страхование от несчастных случаев оказывается весьма надежным и прибыльным делом, хотя пути Господни для отдельной человеческой судьбы неисповедимы.

Хорошо одетая публика в Королевском институте, вероятно, недоумевала: какое всё это имеет отношение к законам наследуемости — заявленной теме доклада? Чтобы продемонстрировать связь, Гальтон представил слушателям данные, полученные во Франции, где измерялся рост солдат-призывников. У этого показателя распределение тоже оказалось нормальным: людей с ростом около среднего больше всего, а в обе стороны от среднего, по направлению к самым высоким и самым низким, их число плавно уменьшается. На самом деле неважно, о чем идет речь, о росте тысячи призывников или о тысяче шариков в пазах доски Гальтона, если число категорий в выборке (пазов или ростовых промежутков) будет одинаковым, то сравнительно одинаковым будет и распределение индивидуальных случаев по категориям от центра до краев.

Таким образом, по Гальтону, его прибор представляет собой модель наследования роста, как, впрочем, и многих других наследственно обусловленных признаков. Это каузальная модель. Иными словами, согласно Гальтону, каждый шарик «наследует» свое положение на доске примерно по такому же механизму, по которому люди наследуют рост.

Но если мы принимаем эту модель — временно, — то обнаруживается загадка, о которой Гальтон и собирался рассказать тем вечером. Ширина колоколообразной кривой зависит от числа рядов булавок, расположенных между верхней и нижней стороной доски. Допустим, мы удвоим число рядов. Это будет моделью наследования в двух поколениях, первая половина рядов будет соответствовать первому поколению, а вторая — второму. В этом случае мы неизбежно обнаружим большее разнообразие вариантов значений во втором поколении по сравнению с первым, и с каждым последующим поколением колоколообразная кривая будет становиться все шире и шире.

Однако с ростом человека ничего подобного не происходит. Ширина распределения роста людей остается более-менее постоянной с течением времени. Людей трехметрового роста не встречалось 100 лет назад, нет их и сейчас. Что обусловливает стабильность подобных признаков в популяции? Гальтон размышлял над этой загадкой примерно восемь лет, с момента выхода его сочинения «Наследственный гений» в 1869 году.

Как и предполагает заглавие книги, на самом деле Гальтона интересовали не детские настольные игры и не рост солдат, а наследование интеллектуальных способностей человека. Будучи представителем большого круга родства, из которого вышло много выдающихся ученых, Гальтон вполне ожидаемо хотел бы показать, что талант — свойство фамильное, и именно этому он и посвятил свою книгу. Он дотошно составил родословные 605 «выдающихся» англичан, живших в течение четырех предшествующих столетий. Однако обнаружилось, что сыновья этих замечательных граждан, равно как и отцы, были заметно менее исключительными, а их деды и правнуки — еще малопримечательнее.

Сейчас нам нетрудно найти недостатки в постановке задачи, предложенной Гальтоном. Во-первых, возможно ли дать точное определение, что такое «выдающесть»? И не окажется ли, что люди из выдающихся семейств успешны благодаря доступным им привилегиям, а не благодаря таланту? Хотя Гальтон и осознавал эти сложности, он продолжал свои бесплодные поиски генетического определения таланта со все возрастающим рвением.

Тем не менее ученый обнаружил кое-что весьма занимательное, что стало еще более очевидным, когда он переключился на такие признаки, как рост, который проще измерить и который связан с наследственностью более явно, чем талант. Сыновья высоких мужчин, как правило, выше среднего роста, хотя и не такие высокие, как их отцы. Гальтон назвал это явление сначала реверсией, а потом регрессией к среднему значению. Это же явление наблюдается во многих других ситуациях. Если школьники выполняют две разные, но стандартизованные контрольные работы по одному и тому же материалу, то те, кто имел самые высокие баллы за первую контрольную, получат оценки выше среднего и за вторую, хотя и не такие высокие, как в первый раз. Феномен возвращения к среднему встречается повсеместно во всех сферах жизни, образования и бизнеса. Так, в бейсболе новичок года, показавший неожиданно высокие результаты, на втором году обычно «провисает» и играет уже не так хорошо.

Гальтон не знал подобных примеров и предполагал, что наткнулся на закон наследования, а не на закон статистики. Он полагал, что возвращение к среднему обусловлено некой причиной, и на лекции в Королевском институте наглядно проиллюстрировал свои доводы, представив публике двухуровневый квинкункс.

Пройдя первый ряд булавок, шарики попадали в наклонные пазы, которые смещали их вновь к центру доски; затем они проходили второй ряд. Гальтон торжественно показал, что эти пазы полностью компенсируют тенденцию нормального распределения расползаться вширь. В этом случае колоколообразная кривая распределения вероятностей оставалась одной и той же ширины от поколения к поколению.

Таким образом, постулировал Гальтон, возвращение к среднему — это физический процесс, с помощью которого природа обеспечивает одинаковое распределение роста (или интеллекта) в каждом последующем поколении. «Процесс регрессии сотрудничает с общим законом отклонения», — сообщил он своей аудитории. Ученый сравнил его с законом Гука, описывающим тенденцию пружины возвращаться к равновесной длине.

Не забываем, какой был год на дворе. В 1877 году Гальтон искал причинное объяснение и полагал, что регрессия к среднему — это каузальный процесс, подобный закону физики. Он ошибался, но был в этом не одинок. Многие повторяют эту ошибку по сей день. Например, бейсбольные эксперты почти всегда пытаются объяснить «проседание» чемпиона на втором году рассуждениями о причинах. «Он зазнался и расслабился», — сетуют они, или: «Другие игроки сумели найти его слабости и воспользоваться ими». Это может быть правдой, но на деле такой феномен не нуждается в объяснении причин. Чтобы оно произошло, обычно достаточно просто закона случая.


Рис. 8. Устройство, с помощью которого Фрэнсис Гальтон продемонстрировал аналогию наследования роста: а — когда через устройство вроде пинбола пропускают большое количество шариков, то в результате случайных отскакиваний они накапливаются на дне устройства, образуя колоколообразную кривую; б — при двух проходах через устройство, соответствующих двум поколениям, кривая распределения становится шире; в-чтобы упредить эту тенденцию, Гальтон придумал желобки, возвращающие шарики к центру во «втором поколении». Этими желобками Гальтон каузально объясняет явление возвращения к среднему [источник: Гальтон Ф. Естественная наследственность (1889)]


Современная статистика объясняет это явление совсем просто. В книге «Думай медленно, решай быстро» Даниэль Канеман делает вывод: «Успех — это талант плюс удача. Большой успех — это чуть больше таланта и намного больше удачи». Новичок года талантливее в бейсболе, чем большинство, но ему, скорее всего, еще и очень повезло. В следующем году ему повезет меньше и его баллы окажутся не столь впечатляющими.

К 1899 году Гальтон это понял и в процессе постижения, разочарованный, но одновременно и восхищенный открываю-щимся, предпринял первый значительный шаг к отделению статистического от причинного. Его рассуждения несколько туманны, но их стоит попытаться понять — ведь это первый, пока робкий лепет только что родившейся статистики.

Гальтон стал собирать разнообразные, так называемые антропометрические данные: рост, длину предплечья, длину и ширину головы и т. п. Он заметил, что если два размерных признака, например рост и длину предплечья, расположить на оси координат, то их сочетание проявляет все ту же регрессию к среднему. У самых высоких людей более длинные руки, чем в среднем, но длина их рук не настолько больше среднего, насколько рост. При этом очевидно, что рост не является причиной длины руки или, наоборот, в лучшем случае и то и другое имеют общую наследственную компоненту. Гальтон стал использовать новый термин для таких пар признаков: рост и длина предплечья со-отнесены, находятся в ко-реляции, ко-релируют. Со временем он перешел к более привычному нам написанию: «корреляция», «коррелируют».

Чуть позже он обнаружил еще более неожиданный факт: при сравнении поколений неважно, движемся ли мы по ходу времени или назад в прошлое. Это значит, что отцы относительно сыновей тоже проявляют возвращение к среднему. Отец сына, который выше ростом, чем популяция в среднем, оказывается почти всегда тоже выше среднего роста, но ниже, чем его сын (рис. 9). Заметив это, Гальтон был вынужден отказаться от попыток найти каузальное объяснение явлению регрессии к среднему, потому что рост сына никоим образом не может определять рост отца.

На первый взгляд, это наблюдение парадоксально. «Постойте! — скажете вы. — Значит, у более длинных отцов более короткие сыновья, а у более длинных сыновей более короткие отцы? Как эти два утверждения могут быть верны одновременно? Не может же сын быть одновременно выше и ниже своего отца».


Рис. 9. Точечный график показывает набор данных о росте. Каждая точка представляет рост отца (по оси Х) и сына (по оси Y). Пунктирная линия совпадает с большой осью эллипса, а сплошная линия (ее называют линией регрессии) соединяет крайнюю левую и крайнюю правую точки эллипса. Разница между ними отражает возвращение к среднему. Например, черная звездочка показывает, что у отцов ростом 72 дюйма сыновья в среднем имеют рост 71 дюйм (т. е. средний рост у всех, чьи данные представлены точками в вертикальной полосе, — 71 дюйм). Горизонтальная полоса и белая звездочка показывают, что такое же падение роста возникает в непричинном направлении (назад во времени) (источник: график Маян Харел при участии Кристофера Баучера)


Ответ заключается в том, что мы говорим не об индивидуальных отцах и сыновьях, а о двух популяциях — отцовской и сыновней. Допустим, мы отобрали отцов, чей рост ровно 6 футов. Это больше среднего, поэтому средний рост их сыновей будет тоже выше среднего, но ближе к среднему, допустим, 5 футов и 11 дюймов. Однако множество пар, в которых рост отца равен 6 футам, не совпадает с множеством пар, в которых рост сына — 5 футов 11 дюймам. В первом множестве рост всех отцов равен 6 футам по условию задачи, а вот во втором окажется несколько отцов с ростом больше 6 футов и много отцов ниже 6 футов. Их средний рост будет ниже, чем 5 футов 11 дюймов, и таким образом регрессия к среднему снова обнаружит себя.

Другой способ наглядно изобразить регрессию — построить диаграмму, называемую точечным графиком (см. рис. 9). Каждая пара из отца и сына на нем представлена точкой, при этом ее положение по оси X определяется ростом отца, а по оси Y — ростом сына. Таким образом, отец и сын, оба ростом 5 футов 9 дюймов (или 69 дюймов), вместе окажутся на графике точкой с координатами (69; 69) прямо по центру точечного графика. Отец ростом 6 футов (или 72 дюйма) и сын ростом 5 футов 11 дюймов (71 дюйм) попадут в точку (72; 71) в северо-западной части нашей диаграммы. Обратите внимание, что облако полученных точек приближается по форме к эллипсу — факт, принципиальный для анализа Гальтона и характерный для нормального распределения для двух признаков.

Как показано на рис. 9, пары, в которых отцы ростом 72 дюйма, располагаются в вертикальном сегменте эллипса с центром в точке 72, а пары, в которых рост сыновей 71 дюйм, расположены в горизонтальном сегменте с центром в точке 71, что графически доказывает, что это две разные выборки. Сосредоточившись только на первой из них, парах с отцами ростом 72 дюйма, мы зададим вопрос, каков средний рост сыновей или, что то же самое, где находится центр этого вертикального сегмента (на глаз можно прикинуть, что центр приходится примерно на 71). Если мы рассмотрим только вторую выборку, в которой рост сыновей 71 дюйм, и спросим, каков средний рост их отцов, это будет равносильно нахождению центра горизонтального сегмента — легко увидеть, что он находится где-то на отметке 70,3.

Двигаясь дальше, выполняем такую же процедуру для всех вертикальных сегментов. Это равносильно вопросу «Каков наиболее вероятный рост сыновей (Y) для отцов ростом X?». И наоборот, рассматривая все горизонтальные сегменты, выясняем, где центр каждого из них: каким окажется (вернее, был, тут мы предсказываем прошлое) наиболее вероятный рост отцов для сыновей с ростом Y.

Размышляя над этими вопросами, Гальтон подошел к важному моменту: предсказания всегда располагаются на линии, названной им линией регрессии, которая расположена более полого, чем главная ось (или ось симметрии) данного эллипса. На самом деле таких линий две — в зависимости от того, данные каких из двух переменных известны и взяты в качестве основания для прогноза, а какие надо предсказать. Можно предугадать рост сыновей по росту отцов, а можно и наоборот. Ситуация совершенно симметрична. И это еще раз демонстрирует нам, что в случаях, где наблюдается регрессия к среднему, между причиной и следствием нет разницы.

Наклон линии регрессии позволяет нам предсказывать значение одной переменной, если нам известны значения второй. В терминах задачи Гальтона наклон в 0,5 означает, что каждому дюйму сверх среднего в росте отца соответствуют дополнительные полдюйма роста сына и наоборот. Наклон, равный единице, свидетельствовал бы о точной корреляции, т. е. каждый дополнительный дюйм роста у отца передавался бы по наследству сыну, который тоже был бы на этот дюйм выше. Наклон кривой не бывает больше единицы: в таком случае сыновья высоких отцов были бы в среднем выше, а сыновья отцов небольшого роста были бы ниже последних, а распределение роста в популяции становилось бы со временем все шире и шире. Через несколько поколений некоторые люди были бы трехметрового роста, а другие — ростом меньше метра, чего в природе не наблюдается. Таким образом, если распределение признака остается одинаковым от поколения к поколению, наклон линии регрессии не превышает единицы.

Закон регрессии применим даже тогда, когда мы рассматриваем корреляцию двух совсем разных признаков, например рост и ай-кью. Если расположить значения одного признака относительно значений другого на точечном графике и правильно подобрать масштаб обеих осей, наклон наиболее близко подходящей прямой всегда будет обладать теми же свойствами. Он равен единице только тогда, когда значения одного признака можно четко предсказать по значениям другого; он равен нулю, если связи между признаками нет и предсказание равносильно случайности. После масштабирования наклон прямой одинаков вне зависимости от того, рассматриваем ли мы признак Х относительно признака Y или наоборот. Другими словами, наклон прямой ничего не говорит нам о том, что в данном случае причина, а что следствие. Одна переменная обусловливает значения другой, или обе они обусловливаются третьей; для предсказания их значений это не важно.

Гальтонова идея корреляции впервые предоставила объективную меру связи двух переменных друг с другом, не зависящую от человеческих суждений и интерпретаций. Эти две переменные могут быть ростом, интеллектом или уровнем дохода; они могут находиться в каузальной, нейтральной или обратно-каузальной зависимости друг от друга — их корреляция всегда будет отражать степень взаимной предсказуемости значений двух признаков. Ученик Гальтона Карл Пирсон позже вывел формулу для наклона (правильно масштабированной) линии регрессии и назвал ее коэффициентом корреляции. До сих пор это первое число, которое вычисляют статистики по всему земному шару, когда хотят узнать, насколько взаимосвязаны любые два признака в массиве данных. Гальтон и Пирсон, должно быть, пришли в восторг, обнаружив такой универсальный способ описания взаимоотношений между случайными переменными. Старые, скользкие концепции причины и следствия по сравнению с математически прозрачной и четкой концепцией коэффициента корреляции казались устаревшими и ненаучными, в особенности Пирсону.

Гальтон и оставленные поиски

По иронии истории Гальтон начал с поисков причинности, а закончил открытием корреляции, отношения, лишенного причинности. Однако все равно признаки каузального мышления остаются в его публикациях. «Легко заметить, что корреляция [между размерами двух органов] должна быть следствием того, что изменчивость двух этих органов отчасти вызвана общими причинами», — пишет он в 1889 году. Первым жертвоприношением на алтарь корреляции стала сложная машина Гальтона для объяснения стабильности распределения генетических признаков в популяции. Доска Гальтона имитировала создание изменчивости по длине тела и ее передачу от поколения к поколению. Но ученому пришлось изобрести наклонные желоба в своей машине, ограничивающие постоянно возрастающее разнообразие в популяции. Не сумев обнаружить биологический механизм, удовлетворительно объясняющий эту силу, возвращающую к среднему, Гальтон просто прервал попытки после восьми лет бесплодных поисков и все внимание сосредоточил на корреляции, как моряк на песне сирены. Статистик Стивен Стиглер, много писавший о Гальтоне, заметил этот неожиданный сдвиг в целях и ожиданиях ученого: «Фигурой умолчания оказались Дарвин, желобки, все это „выживание наиболее приспособленных”. … По жестокой иронии, то, что начиналось как попытка подвести математическую основу под „Происхождение видов”, закончилось тем, что сама суть этой великой работы оказалась отброшена, как ненужная!»

Но для нас, живущих в современную эпоху причинного вывода, исходная проблема остается. Как мы объясним стабильность популяционного среднего, невзирая на дарвиновскую изменчивость, которой одно поколение наделяет последующее?

Возвращаясь к машине Гальтона в свете диаграмм причинности, первое, что я замечаю, — это то, что она была сконструирована неправильно. Постоянно растущей дисперсии, которая вынудила ученого создать ей противовес, вообще не должно было там быть. В самом деле, если мы проследим падение шарика в доске Гальтона с одного уровня на другой, мы увидим, что отклонение на следующем уровне наследует сумму всех отклонений, причиненных всеми булавками, с которыми он сталкивался на своем пути. Это откровенно противоречит уравнению Канемана:

Успех = Талант + Удача;

Большой успех = Чуть больше таланта + Намного больше удачи.

Согласно этим уравнениям, успех в поколении 2 не наследует удачу из поколения 1. Удача по определению преходяща и случайна; она не может влиять на будущие поколения. Но подобное поведение признака несовместимо с устройством машины Гальтона. Чтобы сравнить эти две концепции рядом, нарисуем их ассоциированные диаграммы причинности. На рис. 10а (концепция Гальтона) успех передается через поколения и удача накапливается неограниченно. Это легко себе представить, если под успехом понимать богатство или знатность. Однако для описания наследования физических характеристик, таких как рост, нам придется заменить модель Гальтона той, что на рис. 10б. В ней только генетическая компонента, показанная здесь как талант, передается от одного поколения к другому. Удача действует на каждое поколение независимо, таким образом, что случайные факторы в одном поколении не могут влиять на последующие поколения ни прямо, ни косвенно.


Рис. 10. Две модели наследуемости: а — модель, соответствующая машине Гальтона, в которой удача накапливается от поколения к поколению, приводя ко все возрастающей дисперсии успеха; б — генетическая модель, в которой удача не накапливается, приводит к постоянному разбросу успеха


Обе эти модели совместимы с колоколообразным распределением значений роста. Но первая модель не совместима со стабильностью разброса роста (или успеха). Вторая же модель показывает, что для объяснения стабильности разброса успеха от поколения к поколению нам достаточно объяснить только стабильность генетических факторов в популяции (таланта). Эта стабильность, теперь называемая равновесием Харди — Вайнберга, получила удовлетворительное математическое объяснение в работе Годфри Харолда Харди и Вильгельма Вайнберга 1908 года. И да, они основывались на еще одной каузальной модели — менделевской теории наследственности.

Ретроспективно рассуждая, Гальтон не мог предвидеть достижения Менделя, Харди и Вайнберга. В 1877 году, когда Гальтон прочитал свою лекцию, работа Грегора Менделя 1866 года была основательно забыта (ее вновь открыли только в 1900 году), а математические выкладки доказательства Харди и Вайнберга были бы для него, вероятно, слишком сложны. Однако интересно обратить внимание, как близок он был к верному подходу и как диаграммы причинности легко вскрывают ложность его допущения: передачу случайных факторов, удачи, от одного поколения к другому. К сожалению, его завела в тупик красивая, но неверная причинная модель, а позже, открыв красоту корреляции, он уже решил, что каузальность больше не нужна.

В качестве заключительного личного комментария к истории Гальтона я сознаюсь в смертном для историка грехе, одном из многих грехов, допущенных мной в этой книге. В 1960-х стало немодно писать историю науки с точки зрения современной науки, как я делал выше. Такой стиль исторических заметок, который фокусируется на удачных теориях и экспериментах и уделяет мало внимания неподтвержденным теориям и научным тупикам, теперь именуют издевательским термином «история в стиле вигов». Современный стиль истории науки более демократичен, в нем химики и алхимики пользуются равным уважением, а все теории рассматриваются в социальном контексте своего времени.

Однако, когда приходится объяснять, каким образом причинность была изгнана из статистики, я с гордостью надеваю парик историка-вига. Иначе как надев каузальные очки и пересказав историю Гальтона и Пирсона в свете современной науки о причинах и следствиях, просто невозможно понять, как же статистика стала нечувствительным к типу модели методом редукции данных. На самом деле, поступая так, я выпрямляю искажения, созданные современным большинством историков, которые, не владея каузальным словарем, восхищаются изобретением корреляции и не способны заметить огромную потерю — смерть причинности.

Гнев фанатика

Завершить позорное изгнание причинности из статистики предстояло ученику Гальтона Карлу Пирсону. Однако даже он не смог довести это изгнание до конца.

Прочтение «Естественной наследственности» Гальтона стало одним из определяющих моментов в жизни Пирсона: «Я почувствовал себя корсаром времен Дрейка — членом отряда „не вполне пиратов, но с отчетливо пиратскими тенденциями”, как уточняет словарь! — написал он в 1934 году. — Я понял… Гальтона так, что он предполагал существование категории более широкой, чем причинная связь, а именно корреляции, по отношению к которой причинность была только предельным состоянием, и эта новая концепция корреляции ввела психологию, антропологию, медицину и социологию в значительной степени в поле математического анализа. Именно Гальтон впервые освободил меня от предрассудка, будто достойная математика может быть применима только к природным явлениям под категорией причинной связи».

Согласно взглядам Пирсона, Гальтон расширил словарь науки. Причинно-следственные связи были разжалованы в не более чем частный случай корреляции (а именно когда коэффициент корреляции равен 1 или –1 и взаимоотношения между X и Y жестко детерминированы). Свое видение причинности он очень четко формулирует в «Грамматике науки» (1892): «То, что определенная последовательность явлений случалась и повторялась в прошлом, — это опыт, который мы выражаем в концепции причинно-следственных связей. … Наука никоим образом не может продемонстрировать никакой неотъемлемой необходимости в последовательности явлений, ни доказать с абсолютной уверенностью, что эта последовательность должна воспроизводиться». Таким образом, причинность для Пирсона сводится к повторяемости и в детерминистском смысле не может быть доказана. К причинности в недетерминистском мире Пирсон еще более пренебрежителен: «В конечном итоге научное утверждение, описывающее отношение двух явлений, всегда может быть сведено… к таблице сопряженности».

Другими словами, наука — это только данные. Больше ничего. В этом мировоззрении понятия действия и альтернативного сценария, обсужденные в главе 1, не существуют, и самый нижний уровень Лестницы Причинности — это все, что нужно, чтобы заниматься наукой.

Ментальное сальто от Гальтона к Пирсону захватывает дух и действительно достойно корсара. Гальтон доказал только, что одно явление — регрессия к среднему — не нуждается в каузальном объяснении. Пирсон же полностью удалил причинность из науки. Что привело его к этому логическому трюку?

Историк Тед Портер в написанной им биографии «Карл Пирсон» рассказывает, что скептицизм по отношению к причинности был у Пирсона и до прочтения книги Гальтона. Пирсон боролся с философскими основаниями физики и писал, например: «Полагать силы причиной движения так же обоснованно, как думать, что рост дерева вызывают дриады». С более общей точки зрения Пирсон принадлежал к течению, именуемому позитивизмом, согласно которому Вселенная — это производная человеческой мысли, а наука — только описание этой мысли. Таким образом, причинность, понимаемая как объективный процесс, происходящий в мире снаружи человеческого мозга, не могла иметь в этой концепции никакого научного значения. Значащие мысли способны только отражать наблюдения, а последние полностью описываются с помощью корреляций. Решив, что корреляция гораздо более универсально описывает человеческое мышление, чем причинность, Пирсон приготовился к тому, чтобы избавиться от причинности окончательно.

Портер рисует яркий, живой портрет Пирсона, всю жизнь называвшего себя немецким словом SchWarmer, которое обычно переводится как «энтузиаст», но может иметь и более резкое значение — «фанатик». Окончив Кембридж в 1879 году, Пирсон провел год в Германии и так полюбил немецкую культуру, что изменил первую букву своего имени Карл (Carl), с C на K, на немецкий манер. Задолго до того, как это стало модно, он придерживался социалистических взглядов, и в 1881 году написал Карлу Марксу, предлагая перевести «Капитал» на английский. Пирсон, по некоторым мнениям первый английский феминист, основал лондонский «Клуб мужчин и женщин» для обсуждения «женского вопроса». Его волновал низкий статус женщин в обществе, и он настаивал на том, чтобы им достойно платили за работу. К идеям он относился с большой страстью — и одновременно очень рассудочно к своим страстям. Ему понадобилось почти полгода, чтобы уговорить свою будущую жену Марию Шарп выйти за него, и из их переписки понятно, что она откровенно опасалась, что не сможет соответствовать его высоким интеллектуальным идеалам. Когда Пирсон открыл для себя Гальтона и его корреляции, его страстность наконец-то нашла точку приложения; эта идея, как он полагал, могла перевернуть мир науки и привнести математическую строгость в такие области, как биология и психология. К достижению этой цели он и ринулся с поистине пиратской целеустремленностью. Его первая статья о статистике вышла в 1893 году, через четыре года после открытия корреляции Гальтоном. В 1901 году он основал журнал «Биометрика» (Biometrika), до наших дней остающийся одним из самых влиятельных статистических журналов (в нем была еретически опубликована моя первая статья по диаграммам причинности в 1995 году).

К 1903 году Пирсон получил грант от Почетной компании драпировщиков на создание лаборатории биометрии в Университетском колледже Лондона. В 1911 году она стала официальным факультетом, когда Гальтон умер и оставил средства на создание профессорской кафедры (с условием, что первым профессором на ней станет Пирсон). По крайней мере два десятилетия пирсоновская лаборатория биометрии была ведущим мировым статистическим центром. Когда Пирсон получил руководящую должность, его фанатизм стал проявляться все более выраженно. Вот что пишет Портер: «Возглавляемое Пирсоном статистическое движение имело все признаки раскольнической секты. От своих соратников он требовал лояльности и самоотверженности, а оппонентов отлучал от церкви биометрии». Один из его первых ассистентов Джордж Юл оказался также одним из первых, на кого обрушился его гнев. Некролог Пирсону, написанный Юлом для Королевского общества в 1936 году, хорошо передает тогдашнюю злобу дня, хотя и написан сдержанно, огибая острые углы: «Заразительность его энтузиазма была действительно бесценна; но доминирование, даже в готовности помочь, было несомненным недостатком. … Это страстное желание доминировать, чтобы все было именно так, как ему хочется, проявлялось и во многом другом, например в редактировании „Биометрики” — ни один журнал в мире не редактировался с таким личным пристрастием. … Те, кто оставил его и начал мыслить самостоятельно, обнаруживали, один за другим, что после расхождения мнений поддерживать дружеские отношения с ним оказывалось крайне сложно, а после прямой критики — невозможно».

Тем не менее в возведенной Пирсоном оборонной башне науки без причинности находились трещины, причем чаще по вине его соратников-основателей, чем поздних учеников. Так, сам Пирсон неожиданно написал несколько статей о «ложных корреляциях», о понятии, которое невозможно ввести без отсылок к причинности. Пирсон заметил, что довольно легко найти корреляции, которые просто очевидно бессмысленны. В качестве забавного примера в постпирсоновские времена часто приводили тот факт, что существует высокая корреляция между потреблением шоколада на душу населения в странах мира и числом нобелевских лауреатов в этих же странах. Эта корреляция выглядит глупо, потому что нельзя вообразить, каким образом шоколад на десерт может сделать человека нобелевским лауреатом. Правдоподобное объяснение заключается в предположении, что в преуспевающих странах Запада люди могут позволить себе больше шоколада, а премию Нобеля получают также в основном выходцы из этих наиболее развитых стран. Но это типичное каузальное объяснение, которое, согласно Пирсону, не требуется для научного мышления. Для него причинность — только «фетиш в непостижимой магии современной науки». Корреляция должна быть целью научного понимания. Этот подход, однако, ставит его в неловкое положение, когда ему приходится объяснять, почему одни корреляции имеют смысл, а другие «ложны». Он поясняет, что истинная корреляция указывает на «органическую связь» между переменными, в то время как для ложной корреляции такой связи нет. Но что такое органическая связь? Разве это не та же причинность, только под другим именем?

Вместе Пирсон и Юл собрали несколько случаев ложных корреляций. Одна их категория теперь называется смешением, история с нобелевскими лауреатами и шоколадом — типичный ее образец (уровень благосостояния и местоположение — смешанные факторы, или общие причины для уровня потребления шоколада и числа лауреатов премии Нобеля). Другой пример бессмысленной корреляции часто обнаруживается при анализе серий данных, изменяющихся во времени. Так, Юл нашел невероятно высокую корреляцию (0,95) между уровнем смертности в Англии в данный год и процентом браков, заключенных в тот же год в англиканской церкви. Неужели Бог избирательно наказывает сочетающихся законным браком англикан? Конечно, нет! Две совершенно отдельных исторических тенденции просто совпали по времени: смертность в стране неуклонно сокращалась, а число членов англиканской церкви так же неуклонно уменьшалось. Поскольку оба процесса шли в одном направлении в одно и то же время, между ними была положительная корреляция при отсутствии причинной связи.

Самый интересный вариант бессмысленной корреляции Пирсон обнаружил еще в 1899 году. Он проявляется тогда, когда две гетерогенные выборки объединяют в одну. Пирсон, который, как и Гальтон, фанатично собирал данные, относящиеся к человеческому телу, получил обмеры 806 мужских и 340 женских черепов из парижских катакомб и подсчитал корреляции между длиной и шириной черепа. Когда подсчет производился только для мужских или только для женских черепов, корреляция была пренебрежимо мала — между длиной и шириной черепа практически не было связи. Но если обе группы объединяли, корреляция становилась равной 0,197, и обычно такое значение считалось значимым. Это объяснимо, потому что небольшая длина черепа сегодня считается индикатором того, что череп принадлежал женщине, и поэтому его ширина тоже окажется небольшой. Тем не менее Пирсон считал это статистическим артефактом.

Тот факт, что корреляция оказалась положительной, не имел биологического или «органического» значения; это был просто результат неправомерного объединения двух разных выборок.

Этот пример являет собой частный случай более общего явления, именуемого парадоксом Симпсона. В главе 6 мы обсудим, в каких случаях оправдано разделение массива данных на отдельные группы, и объясним, почему при их объединении могут возникать ложные корреляции.

Но давайте взглянем на то, что писал Пирсон: «Для тех, кто настаивает на взглядах на любые корреляции как на связь причины и следствия, тот факт, что значимую корреляцию между двумя совершенно не связанными признаками А и Б можно получить искусственным смешением двух близких выборок, должен восприниматься как шок». Стивен Стиглер комментирует это: «Я не могу удержаться от догадки, что сильнее всего был шокирован он сам». По сути, Пирсон бранил сам себя за склонность мыслить в терминах причинности.

Глядя на этот же самый пример через линзу причинности, нам остается только воскликнуть: надо же было упустить такую возможность! В идеальном мире подобные случаи могли бы подвигнуть талантливого ученого на размышления о причинах его шока и разработку научной дисциплины, предсказывающей появление ложных корреляций. По крайней мере, он попытался бы объяснить, когда данные целесообразно объединять, а когда нет. Но единственное наставление Пирсона последователям по этому поводу заключается в том, что «искусственное» (что бы это ни значило) объединение данных — это плохо. По иронии судьбы, используя наши каузальные очки, мы теперь знаем, что иногда именно анализ объединенных, а не разделенных данных дает верный ответ. Логика причинных умозаключений может подсказать нам, чему следует доверять. Я бы хотел, чтобы Пирсон был сейчас с нами и мог этому порадоваться!

Далеко не все ученики Пирсона ступали за ним след в след. Юл, который разошелся с Пирсоном по другим причинам, по этому поводу тоже был с ним не согласен. Вначале он был с ним в одном экстремистском лагере, утверждая, что корреляции расскажут нам все, что мы могли бы захотеть узнать посредством науки. Тем не менее он до некоторой степени изменил свое мнение, когда ему понадобилось объяснить наблюдения за условиями жизни беднейших жителей Лондона. В 1899 году он изучал вопрос, увеличивает ли «внешняя помощь» (материальная помощь, доставляемая на дом малоимущим, в отличие от жизни в богадельне) уровень бедности. Данные показывали, что кварталы, получающие больше «внешней помощи», отличались более высоким уровнем бедности, но Юл понял, что эта корреляция, скорее всего, была ложной; в этих кварталах жило больше пожилых людей, которые чаще всего бедны. Однако затем он сумел показать, что при сравнении кварталов с одинаковой пропорцией пожилых жителей корреляция сохраняется. Благодаря этому он осмелился заявить, что повышение уровня бедности действительно связано с «внешней помощью». Однако, выйдя из строя, чтобы сделать это утверждение, он поспешил вернуться в строй, написав в примечании: «Строго говоря, „по причине” следует читать как „связано с”». Целые поколения ученых после него следовали этому образцу. Они думали: «А происходит по причине Б», но говорили: «А связано с Б». Однако Пирсон с последователями, активно выступающие против причинности, и колеблющиеся недодиссиденты вроде Юла, опасающиеся разозлить лидера, подготовили сцену к выступлению нового игрока — ученого из-за океана, который бросил первый откровенный вызов научной культуре, избегающей понятия причинности.

Сьюалл Райт, морские свинки и путевые диаграммы

Когда Сьюалл Райт прибыл в Гарвардский университет в 1912 году, его образование на тот момент вряд ли предсказывало долговременный эффект, который он произведет в науке. Он учился в маленьком (и ныне закрытом) колледже Ломбард в Иллинойсе, и в его выпуске было всего семь студентов. Одним из преподавателей был его собственный отец Филип Райт — швец, жнец и на дуде игрец от науки, на нем держалась даже типография колледжа. Сьюалл и его брат Квинси помогали отцу в печатном деле, и помимо прочего в их типографии был издан первый сборник тогда еще неизвестного поэта и студента Ломбарда Карла Сэндберга.

Сьюалл Райт поддерживал тесную связь с отцом еще долгие годы после окончания колледжа. Когда Сьюалл переехал в Массачусетс, папа Филип последовал за ним. Позже, когда Сьюалл работал в Вашингтоне, там же трудился и Филип, сначала в Американской тарифной комиссии, а потом в Брукингском институте экономистом. Хотя их академические интересы сильно разошлись, они находили способы сотрудничать, и Филип стал первым экономистом, использовавшим путевые диаграммы, изобретенные его сыном.

Райт-младший приехал в Гарвард изучать генетику, в то время одно из самых активно развивавшихся направлений в науке, потому что теория Грегора Менделя о доминантных и рецессивных генах была только что открыта заново. Научный руководитель Райта Уильям Касл идентифицировал восемь различных наследственных факторов (или генов, как бы мы назвали их сегодня), влияющих на цвет меха у кроликов. Касл предложил Райту провести аналогичное исследование на морских свинках. Защитив диссертацию в 1915 году, Райт получил предложение работы, для которой никто не подходил лучше него: работать с морскими свинками в Департаменте сельского хозяйства США (United States Department of Agriculture; USDA).

Сейчас остается только гадать, понимали ли в департаменте, кого они берут на работу. Возможно, им просто нужен был ответственный зоотехник, который мог бы привести в порядок 20-летний архив, все это время представлявший собой полный хаос. Райт сделал не только это, но и намного, намного больше. Морские свинки для Райта стали движущей пружиной всей его карьеры и ключевым звеном в его теории эволюции, совсем как галапагосские вьюрки для Дарвина. Райт был одним из ранних приверженцев идеи, что эволюция не идет постепенно, как предполагал Дарвин, а происходит посредством относительно внезапных рывков.

В 1925 году Райт перешел на ставку на кафедре в Чикагском университете, которая, вероятно, лучше подходила человеку столь разносторонних научных интересов. Однако и там он по-прежнему оставался предан морским свинкам. Часто рассказывают анекдот, что однажды во время лекции он держал под мышкой особо буйную морскую свинку и по рассеянности вдруг начал стирать ей с доски вместо тряпки. Хотя все жизнеописатели Райта согласны, что эта история скорее всего апокриф, подобные детали обычно говорят о личности намного больше, чем сухие биографии.

Нас в этой главе больше всего интересует начало работы Райта в USDA. Наследование окраски меха у морских свинок упорно отказывалось подчиняться законам Менделя. Оказалось практически невозможным получить чисто белую или разноцветную свинку, и даже самые инбредные линии (после многих поколений скрещиваний только между братьями и сестрами) все еще обнаруживали значительную изменчивость окраски, от преимущественно белой до преимущественно разноцветной. Это противоречило предсказанию менделевской генетики, согласно которому после большого числа поколений близкородственных скрещиваний признак «закрепляется». Райт начал сомневаться, что процент белого в окраске определяется одной только генетикой, и постулировал, что часть изменчивости определяется «внутриутробными факторами» во время беременности. Задним числом мы знаем, что он был прав. Различные гены окраски экспрессируются по-разному в различных частях тела, и распределение окраски зависит не только от генов, которые унаследовало животное, но и от того, где именно и в каких комбинациях будет происходить их экспрессия или подавление.

Как это часто случается (по крайней мере, с гениями!) под давлением требующей решения проблемы на свет появился новый метод анализа, который теперь применяется гораздо шире, чем в родной генетике морских свинок. Однако для Сьюалла Райта оценка внутриутробных факторов развития, вероятно, казалась задачей студенческого уровня, с которой он мог бы справиться на уроках своего отца в колледже Ломбарда. Когда нужно найти величину некоторой переменной, требуется сначала дать ей обозначение, затем выразить все, что известно об этой переменной и ее связях с другими переменными в виде математических уравнений, и, наконец, если хватит терпения и уравнений, их удастся решить и получить значение нужной переменной.

В примере Райта нужная неизвестная величина (показанная на рис. 15) была обозначена d — воздействие внутриутробных факторов развития (development) на появление белой окраски. Другие каузальные переменные в уравнении Райта включали h — наследственные (hereditary) факторы, также неизвестные. Наконец (и в этом проявляется гениальность Райта), он показал, что, если бы нам были известны каузальные переменные на рис. 11, мы могли бы предсказать корреляции в данных (не показанных на диаграмме) на основе простого графического правила.


Сьюалл Райт был первым, кому удалось разработать математический метод для ответа на каузальные вопросы исходя из данных — путевых диаграмм. Сильнее его любви к математике была только его страсть к морским свинкам.


Это правило перебрасывает мост от глубокого, скрытого мира причин во внешний, очевидный мир корреляций. Это был попытка установить связь между причинностью и вероятностью, самое раннее преодоление пространства между первой и второй ступенью Лестницы Причинности. Построив этот мост, Райт мог двигаться по нему и обратно, от корреляций, вычисляемых на основе данных (ступень первая), к скрытым каузальным переменным d и h (ступень вторая). Он достиг этого, решая алгебраические уравнения. Такая идея, скорее всего, представлялась Райту очень простой, но она оказалась революционной, потому что это было первым доказательством, что мантра «Корреляция не подразумевает причинно-следственных связей» должна уступить место утверждению «Некоторые корреляции как раз подразумевают причинно-следственные связи». В заключение Райт продемонстрировал, что гипотетические факторы внутриутробного развития влияют на окраску сильнее, чем наследственность. В случайно скрещивающейся популяции морских свинок 42 % изменчивости окраски обусловлено генетикой, а 58 % — факторами внутриутробного развития. По контрасту в высоко инбредной линии только 3 % изменчивости в расположении белой окраски по частям тела определялась наследственностью, а 92 % — факторами развития. Иными словами, 20 поколений близкородственных скрещиваний почти элиминировали наследственную изменчивость, но факторы, действующие во время развития плода, сохранились.

Как ни интересен этот результат, ключевым моментом для нашей истории является то, каким образом Райт решил данную задачу. Путевая диаграмма на рис. 11 — это дорожная карта, которая объясняет нам, как перемещаться по мосту между первой и второй ступенью. Это целая научная революция в одной картинке — и с умилительными морскими свинками в придачу! Обратите внимание, что путевая диаграмма показывает все мыслимые факторы, способные влиять на окраску детеныша морской свинки. Буквы D, E и H относятся к факторам внутриутробного развития, средовым влияниям и наследственным факторам соответственно. Каждый родитель (отец и мать) и каждый потомок (О и О’), испытывает влияние своего набора факторов D, E и H. У двух потомков общие средовые факторы, но различные истории внутриутробного развития. Диаграмма включает новые в то время для науки идеи менделевской генетики: наследственность потомка определяется сперматозоидом и яйцеклеткой его родителей (G и G’’), а их наследственный материал, в свою очередь, определяется наследственностью самих родителей (H’’ и H’’’) посредством некоего процесса перемешивания, который на ту пору не был известен (ДНК тогда еще не открыли). Было понятно, впрочем, что перемешивание включает некоторый элемент случайности (обозначенный на диаграмме как «Случайность»).


Рис. 11. Первая путевая диаграмма Сьюалла Райта, показывающая все факторы, влияющие на окраску меха у морских свинок: D — факторы внутриутробного развития (от зачатия до рождения); E — средовые факторы (после рождения); G — генетические факторы от каждого из родителей; H — объединенные наследственные факторы от обоих родителей, O, O’ — потомство. Целью анализа была оценка силы воздействия факторов D, E, H (на диаграмме приведенных как d, e, h).


Один момент диаграмма не отражает прямо — разницу между обычной и инбредной семьями. В последней будет сильная корреляция между наследственностью отца и матери, что Райт отметил обоюдонаправленной стрелкой между H’’ и H’’’. Кроме этой, все остальные стрелки на диаграмме направлены в одну сторону и ведут от причины к следствию. Например, стрелка от G до H означает, что наследственный материал сперматозоида отца имеет прямое каузальное влияние на наследственность потомства. Отсутствие стрелки от G до H’ означает, что сперматозоид отца, давший жизнь потомку О, не влиял каузально на потомка О’.

Эти буквы, называемые путевыми коэффициентами, отражают силы каузальных воздействий, которые Райт хотел найти. Грубо говоря, путевой коэффициент отражает долю изменчивости в конечной переменной, которая определяется исходной переменной. Так, достаточно очевидно, что 50 % наследственности любого потомка передается от каждого из его двух родителей, поэтому а должно быть равно ½ (по техническим причинам Райт предпочитал брать квадратный корень, так чтобы а = 1/ √2 и а 2 = ½). Такая интерпретация путевых коэффициентов, в терминах доли изменчивости, объясняемой данной переменной, в те времена была разумной. Современная причинная интерпретация иная: путевые коэффициенты представляют собой результаты гипотетического воздействия исходной переменной. Однако появления концепции воздействия в 40-х годах ХХ века нужно было ждать еще долго, и Райт, который написал свою статью в 1920 году, не мог ей воспользоваться. К счастью, в простых моделях, проанализированных им тогда, обе интерпретации приводят к одинаковым результатам.

Я хочу подчеркнуть, что путевая диаграмма не просто красивая картинка, это мощный вычислительный аппарат, потому что правило для подсчета корреляций (мост со второй на первую ступень) включает прослеживание путей, соединяющих две переменные между собой, и перемножение коэффициентов, встреченных по пути. Обратите также внимание, что опущенные на рисунке стрелки на самом деле выражают более важные допущения, чем те, которые на нем присутствуют. Не изображенная стрелка означает, что каузальное воздействие равно нулю, в то время как присутствующая стрелка ничего не говорит нам о силе воздействия (если только мы априорно не придадим путевому коэффициенту определенное значение).

Работа Райта была настоящим прорывом и заслуживает упоминания в качестве эпохального результата в биологии. Несомненно, это важнейшая веха в истории науки о причинности. Рис. 11 — первая опубликованная каузальная диаграмма, первый шаг ХХ столетия на вторую ступень Лестницы Причинности, и шаг не робкий, а уверенный и обдуманный! На следующий год Райт опубликовал намного более общую работу под названием «Корреляция и причинность», объясняющую, как путевой анализ работает на другом материале, не только на морских свинках. Не могу представить, какую реакцию на свою публикацию ожидал Райт, но то, что воспоследовало, определенно ошеломило его. Это было опровержение, опубликованное в 1921 году неким Генри Найлзом, учеником американского статистика Раймонда Пирла, который, в свою очередь, был учеником Карла Пирсона, крестного отца статистики.

Академический мир полон цивилизованного людоедства, и мне за свою в основном тихую научную карьеру тоже приходилось испытывать его на собственной шкуре, но все же мне редко попадались настолько злобные критики, как Найлз. Он начинает с длинной серии цитат из своих героев, Карла Пирсона и Фрэнсиса Гальтона, доказывая избыточность или даже бессмысленность термина «причина». Он делает вывод: «Противопоставление „причинности” и „корреляции” необоснованно, потому что причинность — это просто совершенное проявление корреляции». В этом предложении он прямо повторяет то, что Пирсон писал в своей «Грамматике науки».

Далее Найлз старается принизить всю методологию Райта. Он пишет: «Главная ошибка этого метода — предположение, что возможно априори задать относительно простую графическую схему, которая будет верно отражать пути воздействия нескольких переменных друг на друга и на общий результат». Наконец, Найлз разбирает несколько примеров и, путаясь в расчетах, поскольку не дал себе труда разобраться в правилах, установленных Райтом, приходит к противоположным выводам. В итоге он заявляет: «Таким образом, мы заключаем, что с точки зрения философии основания метода путевых коэффициентов ложны, в то время как на практике результаты применения его там, где возможна проверка, доказывают его совершенную ненадежность».

С научной точки зрения тратить время на детальный разбор опровержения Найлза, вероятно, не стоит, но его статья очень важна для нас, историков науки о причинности. Во-первых, она бесхитростно отражает отношение большинства ученых того поколения к причинности и тотальную власть его наставника Карла Пирсона над научными умами того времени. Во-вторых, возражения Найлза мы продолжаем слышать и сегодня. Конечно, иногда ученые не представляют с точностью всю сложную сеть взаимоотношений между изучаемыми переменными. В этом случае, предполагал Райт, мы можем использовать диаграмму в исследовательском режиме; мы можем постулировать определенные причинно-следственные отношения и рассчитать предсказанные корреляции между переменными. Если они противоречат объективным данным, у нас появляется свидетельство, что отношения, допущенные нами, ложны. Этот способ применения путевых диаграмм, вновь открытый в 1953 году Гербертом Саймоном (ставшим в 1978 году лауреатом Нобелевской премии по экономике), вдохновил множество исследований в общественных науках.

Хотя нам и не нужно знать все причинно-следственные взаимоотношения между интересующими нас переменными и мы в силах делать некоторые выводы, обладая только частичной информацией, Райт подчеркивает один момент с абсолютной четкостью: каузальные выводы невозможно сделать, не имея каузальной гипотезы. Это перекликается с теми выводами, которые мы сделали в главе 1: невозможно ответить на вопрос второй ступени Лестницы Причинности исключительно на основе данных первой ступени. Иногда меня спрашивают: не делает ли это каузальные умозаключения тавтологичными, замкнутыми сами на себя? Разве тем самым вы не предполагаете именно то, что хотите доказать? Правильный ответ — нет. Объединяя очень приблизительные, качественные и очевидные предположения (например, что цвет меха у потомства не влияет на цвет меха родителей) с данными по морским свинкам за 20 лет наблюдений, Райт получил количественный и совершенно неочевидный результат: окраска меха на 42 % определяется наследственностью.

Получить неочевидный результат из очевидных данных — это не тавтология, это научный триумф, заслуживающий, чтобы ему воздали соответствующие почести. Вклад Райта уникален, потому что информация, приведшая к умозаключению (о наследственной компоненте в 42 %) была на двух разных и почти несовместимых математических языках: языке диаграмм, с одной стороны, и языке данных — с другой. Еретическая идея объединения качественной «путевой» информации и количественной информации данных (два чуждых друг другу языка!) была чудом, которое привлекло меня, специалиста по компьютерным наукам, к этой проблематике. Многие люди до сих пор повторяют ошибку Найлза, думая, что цель каузального анализа — доказать, что X — это причина Y, или просто найти причину Y с нуля. Это проблема каузальных открытий, которая была моей честолюбивой мечтой еще в те времена, когда я впервые погрузился с головой в графическое моделирование, и до сих пор остается областью активного научного поиска. Напротив, исследования Райта, как главы этой книги, сосредоточены на том, чтобы представить правдоподобные представления о причинно-следственных связях с помощью какого-либо математического языка, объединить их с эмпирическими данными и ответить на вопросы о причинности, имеющие практическое значение. Райт с самого начала понимал, что каузальные открытия, поиск причин — дело намного более сложное, если вообще реальное. В своем ответе Найлзу он пишет: «Автор [т. е. сам Райт] никогда не претендовал на то, что теория путевых коэффициентов может дать нам общую формулу для выяснения причинно-следственных взаимодействий. Он хотел бы подчеркнуть, что сочетание знаний о корреляциях со знанием причинно-следственных связей для получения конкретных результатов не имеет ничего общего с выведением причинно-следственных взаимоотношений из корреляций, о котором пишет Найлз».

E pur si muove (и все-таки она вертится)

Если бы я был профессиональным историком, я бы остановился на этом месте. Но, поскольку я обещался быть историком-вигом, мне не удастся сдержать восхищения точностью слов Райта в цитате, приведенной в конце предыдущего раздела, которые не устарели за 90 лет с тех пор, как он высказал их впервые, и которые в основном и определили парадигму современного кауза

Скачать книгу

Judea Pearl and Dana Mackenzie

The Book of Why: the New Science of Causes and Effect

The Book of Why

Copyright © 2018 by Judea Pearl and Dana Mackenzie. All rights reserved.

© ООО Издательство «АСТ»

© Мамедова Т., Антипов М., перевод

Предисловие

Почти два десятилетия назад, работая над предисловием к книге «Причинность» (2000), я сделал довольно смелое замечание, после которого друзья посоветовали мне умерить пыл. Я написал: «Причинность пережила важнейшую трансформацию – от понятия, овеянного тайной, до математического объекта с хорошо определенным смыслом и хорошо обоснованной логикой. Парадоксы и противоречия были разрешены, туманные понятия были истолкованы, а связанные с причинностью практические задачи, которые долго считались или метафизическими, или нерешаемыми, теперь могут быть разрешены при помощи элементарной математики. Проще говоря, причинность была математизирована».

Перечитывая этот отрывок сегодня, я чувствую, что был весьма близорук. Явление, описанное мной как «трансформация», оказалось «революцией», которая изменила мышление ученых в самых разных науках. Многие сегодня называют это Революцией Причинности, и волнение, которое она вызвала в кругах исследователей, сейчас распространяется на образование и практическую сферу.

У этой книги тройная задача: во-первых, описать для вас нематематическим языком интеллектуальную суть Революции Причинности и показать, как она влияет на нашу жизнь и на будущее; во-вторых, рассказать о героических путешествиях, как успешных, так и неудачных, в которые отправились некоторые ученые, столкнувшись с важнейшими вопросами, касающимися причинно-следственных связей.

Наконец, возвращая Революцию Причинности к ее истокам в сфере искусственного интеллекта (ИИ), я ставлю целью показать вам, как можно создать роботов, способных общаться на нашем родном языке – языке причины и следствия. Это новое поколение роботов должно объяснить нам, почему случились определенные события, почему они откликнулись определенным образом и почему природа действует так, а не иначе. Более амбициозная цель – узнать от них, как устроены мы сами: почему наш ум срабатывает именно так и что значит думать рационально о причине и следствии, вере и сожалении, намерении и ответственности.

Когда я записываю уравнения, у меня есть очень четкое представление о том, кто мои читатели. Но если я пишу для широкой публики, его нет, и это для меня совершенно новое приключение. Странно, но такой новый опыт стал одним из самых плодотворных образовательных усилий в моей жизни. Необходимость выражать идеи на вашем языке, думать о вашем опыте, ваших вопросах и ваших реакциях обострила мое понимание причинности больше, чем все уравнения, которые я написал до того, как создал эту книгу.

За это я буду вечно благодарен. И надеюсь, что вам так же, как и мне, не терпится увидеть результаты.

Джудиа Перл, Лос-Анджелес, октябрь 2017 года

Введение: Ум важнее данных

Любая развитая наука смогла развиться благодаря собственным символам.

Огастес де Морган, 1864

Эта книга рассказывает историю науки, которая повлияла на то, как мы отличаем факты от вымысла, и осталась при этом вне поля зрения широкой публики. Новая наука уже определяет важнейшие аспекты нашей жизни и потенциально может повлиять на многое другое: от разработки новых лекарств до управления экономическим курсом, от образования и робототехники до контроля над оборотом оружия и глобальным потеплением. Примечательно, что, несмотря на разнообразие и явную несоизмеримость этих областей, новая наука собирает их все в рамках единой структуры, которой практически не существовало два десятилетия назад.

У нее нет красивого названия – я называю ее просто причинным анализом, как и многие коллеги. Не особо высокотехнологичный термин. Идеальная технология, которую пытается моделировать причинный анализ, есть у нас в голове. Десятки тысяч лет назад люди начали понимать, что одни вещи приводят к другим вещам и что, регулируя первое, можно повлиять на второе. Ни один биологический вид, кроме нашего, не осознает этого – по крайней мере, до такой степени. Это открытие породило организованные общества, потом города и страны и наконец-то цивилизацию, основанную на науке и технике, которая есть у нас сегодня. И все потому, что мы задали простой вопрос: почему? Причинный анализ относится к этому вопросу очень серьезно. Он исходит из предпосылки о том, что человеческий мозг – самый продвинутый инструмент из когда-либо созданных для работы с причинами и следствиями. Мозг хранит невероятный объем знаний о причинности, и, поддержав его данными, можно использовать этот орган для ответа на самые насущные вопросы нашего времени. Более того, как только мы действительно поймем логику, стоящую за рассуждениями о причинах, мы будем способны имитировать ее в современных компьютерах и создать «искусственного ученого». Этот умный робот откроет еще неизвестные феномены, найдет объяснения для неразрешенных научных дилемм, разработает новые эксперименты и будет постоянно извлекать новые знания о причинах явлений из окружающей среды.

Но прежде, чем мы начнем размышлять о подобных футуристических достижениях, важно понять достижения, к которым уже привел нас причинный анализ. Мы исследуем, как он преобразил мышление ученых почти во всех дисциплинах, основанных на работе с данными и как это вскоре изменит нашу жизнь. Новая наука занимается довольно однозначными на первый взгляд вопросами вроде таких:

• Насколько эффективно данное лечение для предотвращения болезни?

• Что вызвало рост продаж – новый закон о налогообложении или наша рекламная кампания?

• Как ожирение влияет на траты на медицинское обслуживание?

• Могут ли данные о найме сотрудников служить доказательством последовательной дискриминации по половому признаку?

• Я собираюсь уволиться. Стоит ли это делать?

Во всех этих вопросах видна озабоченность причинно-следственными отношениями, которую можно узнать по таким словам, как «предотвращения», «вызвало», «влияет», «последовательной» и «стоит ли». Эти слова часто встречаются в повседневном языке, и наше общество постоянно требует ответы на эти вопросы. Но до недавнего времени наука не давала нам средств, чтобы даже выразить их, не говоря уже о том, чтобы на них ответить.

Наука о причинном анализе оставила это пренебрежение со стороны ученых в прошлом, и в этом состоит ее важнейшее достижение на благо человечество. Новая наука породила простой математический язык, чтобы выражать каузальные отношения – и те, о которых мы знаем, и те, о которых хотели бы узнать. Возможность выразить эту информацию в математической форме открыла изобилие мощных, основанных на твердых принципах методов, которые позволяют сочетать наше знание с данными и отвечать на каузальные вопросы вроде пяти, приведенных выше.

Мне повезло участвовать в развитии этой научной дисциплины в течение последней четверти века. Я наблюдал, как она оформляется в студенческих аудиториях и исследовательских лабораториях, и видел, как ее прорывы сотрясают угрюмые научные конференции вдали от софитов общественного внимания. Сейчас, когда мы вступаем в эру сильного искусственного интеллекта, многие славят бесконечные возможности, которые открывают большие массивы данных и технологии глубинного обучения. Я же нахожу своевременной и волнующей возможность представить читателю смелые пути, которыми идет новая наука, и рассказать, как она влияет на науку о данных и какими разнообразными способами изменит нашу жизнь в XXI веке.

Вероятно, когда вы слышите, что я называю эти достижения новой наукой, у вас появляется скепсис. Вы можете даже спросить: почему она не появилась давным-давно? Например, когда Вергилий провозгласил: «Счастлив тот, кто смог понять причины вещей» (29 год до н. э.). Или когда основатели современной статистики Фрэнсис Гальтон и Карл Пирсон впервые открыли, что данные о населении могут пролить свет на научные вопросы. Кстати, за их досадной неспособностью учесть причинность в этот ключевой момент стоит долгая история, которую мы рассмотрим в исторических разделах этой книги. Однако самым серьезным препятствием, с моей точки зрения, было фундаментальное расхождение между языком, на котором мы задаем вопросы о причинности, и традиционным языком, которым описываем научные теории.

Чтобы оценить глубину этого расхождения, представьте трудности, с которыми столкнется ученый, пытаясь объяснить некоторые очевидные причинные отношения, скажем, что барометр, показывающий B, считывает давление P. Это отношение легко записать уравнением B = kP, где k – некий коэффициент пропорциональности. Правила алгебры теперь позволяют нам переписать это уравнение в самых разных формах, скажем P = B/k, k = B/P или B – kP = 0. Все они означают одно и то же: если мы знаем любые две из трех величин, третья определена. Ни одна из букв k, B или P не имеет преимуществ перед остальными с математической точки зрения. Но как же выразить наше сильное убеждение в том, что давление заставляет показания барометра измениться, а не наоборот? А если мы не способны выразить даже это, как же сформулировать другие наши убеждения о причинно-следственных отношениях, у которых нет математических формул? Например, о том, что от кукареканья петуха солнце не встает?

Мои преподаватели в университете не могли этого сделать, но никогда не жаловались. Я готов поспорить, что ваши тоже. И сейчас мы понимаем почему: им никогда не показывали математический язык причинности и никогда не рассказывали о его пользе. Более того, это обвинительный приговор науке, которая в течение стольких поколений игнорировала необходимость подобного языка. Все знают, что если щелкнуть выключателем, то зажжется свет, и что в жаркий и душный день в местном кафе-мороженом поднимутся продажи. Почему же ученые до сих пор не выразили такие очевидные факты в формулах, как это было сделано с базовыми законами оптики, механики или геометрии? Почему они допустили, чтобы эти факты чахли, ограниченные голой интуицией и лишенные математических инструментов, которые позволили другим наукам зреть и процветать?

Отчасти ответ в том, что научные инструменты развиваются, дабы удовлетворять научные потребности. Именно потому, что мы так хорошо управляемся с вопросами о выключателях, мороженом и барометрах, наша потребность в особых математических инструментах, чтобы их решать, была неочевидной. Но по мере того, как научное любопытство увеличилось и мы начали задавать вопросы о причинности в сложных юридических, деловых, медицинских и политических ситуациях, оказалось, что у нас не хватает инструментов и принципов, которые должна предоставить зрелая наука.

Запоздалое пробуждение такого рода нередко встречается в науке. Например, вплоть до середины XVII века люди вполне удовлетворялись своей способностью справляться с неопределенностью в повседневной жизни – от перехода улицы до риска подраться. Только когда азартные игроки изобрели изощренные игры, порой тщательно нацеленные на то, чтобы вынудить других сделать неверный выбор, математики Блез Паскаль (1654), Пьер Ферма (1654) и Христиан Гюйгенс (1657) посчитали необходимым развить то, что сегодня мы называем теорией вероятностей. Подобным образом лишь тогда, когда страховым организациям потребовалось точно рассчитать пожизненную ренту, такие математики, как Эдмунд Галлей (1693) и Абрахам де Муавр (1725), использовали данные о смертности, чтобы вычислить ожидаемую продолжительность жизни. Аналогично потребности астрономов в точном предсказании движения небесных тел подтолкнули Якоба Бернулли, Пьера Симона Лапласа и Карла Фридриха Гаусса разработать теорию ошибок, которая помогает выделить сигналы из шума. Все эти методы – предшественники сегодняшней статистики.

Удивительно, но потребность в теории причинности начала оформляться в то же время, когда появилась статистика. Более того, современная статистика родилась из вопросов о причинах, которые Гальтон и Пирсон задавали применительно к наследственности, и из их изобретательных попыток на них ответить, используя данные о нескольких поколениях. К сожалению, попытка не удалась, и вместо того, чтобы остановиться и спросить почему, они объявили эти вопросы недоступными для изучения и занялись развитием процветающей, свободной от причинности области под названием «Статистика».

Это был важнейший момент в истории науки. Возможность решать вопросы причинности на ее собственном языке почти воплотилась, однако ее растратили напрасно. В последующие годы эти вопросы были объявлены ненаучными и отправлены в подполье. Несмотря на героические усилия генетика Сьюалла Райта (1889–1988), вокабуляр причинности был буквально запрещен больше чем на 50 лет. А запрещая речь, вы запрещаете мысль и душите принципы, методы и инструменты.

Читателям этой книги не надо быть учеными, чтобы увидеть данный запрет своими глазами. Осваивая курс «Введение в статистику», каждый студент учится повторять: «Корреляция не означает причинно-следственную связь». И этому есть хорошее объяснение! Кукареку петуха тесно коррелирует с рассветом, но не является его причиной.

К сожалению, в статистике это здравое наблюдение стало фетишем. Оно сообщает нам, что корреляция не означает причинно-следственную связь, но не говорит нам, что такое эта причинно-следственная связь. Попытки найти раздел «Причина» в учебниках по статистике обречены на неудачу. Студентом не разрешается говорить, что X причина Y, – только что X и Y «связаны» или «ассоциируются».

Из-за этого запрета математические инструменты для работы с вопросами причинности были признаны излишними, и статистика сосредоточилась исключительно на обобщении данных, а не на их интерпретации. Блестящим исключением стал путевой анализ, изобретенный генетиком Сьюаллом Райтом в 1920-е годы – прямой предок методов, которые мы рассмотрим в этой книге. Однако путевой анализ не получил должной оценки в статистике и сопряженных сообществах и десятилетиями пребывал в состоянии эмбриона. То, что должно было стать первым шагом по направлению к причинному анализу, оставалось единственным шагом до 1980-х годов. Остальная статистика, а также многие дисциплины, которые на нее ориентировались, так и жили в эпоху этого «сухого закона», ошибочно полагая, что ответы на все научные вопросы кроются в данных и должны быть открыты с помощью умных способов их интерпретировать.

Эта ориентация на данные до сих пор преследует нас. Мы живем в эпоху, когда большие данные считаются потенциальным решением для всех проблем. Курсы по теории и методам анализа данных в изобилии преподаются в наших университетах, а компании, участвующие в «экономике данных», готовы платить хорошие деньги специалистам в этих вопросах. Но я надеюсь убедить вас этой книгой, что данные – вещь крайне тупая. Они могут рассказать вам, что люди, которые приняли лекарство, восстановились быстрее, чем те, кто его не принимал, но не могут рассказать почему. Может, те, кто принял лекарство, сделали так, поскольку были в состоянии позволить это себе, но восстановились бы столь же быстро и без него.

Снова и снова в науке и бизнесе мы наблюдаем ситуации, в которых одних данных недостаточно. Большинство энтузиастов, работающих со значительными массивами данных, осознавая порой эти ограничения, продолжают ориентироваться на искусственный интеллект, обрабатывающий данные, как будто альтернатива все еще под запретом.

Как я говорил выше, за последние 30 лет ситуация радикально изменилась. Сегодня, благодаря тщательно созданным причинным моделям, современные ученые могут обратиться к проблемам, которые когда-то сочли бы нерешаемыми или даже не подходящими для научного изучения. Например, всего 100 лет назад вопрос о том, вредит ли здоровью курение сигарет, был бы признан ненаучным. Одно упоминание слов «причина» и «следствие» вызвало бы лавину возражений в любом авторитетном журнале о статистике.

Еще 20 лет назад задать статистику вопрос вроде «Это аспирин помог мне от головной боли?» было все равно, что спросить, верит ли он в магию вуду. Как выразился мой почтенный коллега, это была бы «скорее тема для светской беседы, а не научный запрос». Но сегодня эпидемиологи, обществоведы, специалисты по компьютерным наукам и, по крайней мере, некоторые просвещенные экономисты и статистики регулярно ставят такие вопросы и отвечают на них с математической точностью. Для меня эти перемены равнозначны революции. Я осмеливаюсь называть их Революцией Причинности, научной встряской, которая позволяет принимать, а не отрицать наш врожденный когнитивный дар понимать причины и следствия.

Революция Причинности произошла не в вакууме; за ней стоит математический секрет, который лучше всего можно описать как численные методы причинности; они отвечают на самые сложные вопросы, когда-либо заданные о причинно-следственных отношениях. Я открываю эти методы с большим волнением – не только потому, что бурная история их появления весьма интригует, но и в большей степени потому, что, по моим ожиданием, в будущем их потенциал раскроют, опередив самые смелые мечты, и… вероятно, это сделает один из читателей настоящей книги.

Вычислительные методы причинности включают два языка: диаграммы причинности, которые выражают то, что мы знаем, и символический язык, напоминающий алгебру, который выражает то, что мы хотим узнать. Диаграммы причинности – простые рисунки из точек со стрелками, которые обобщают существующее научное знание. Точки символизируют интересующие нас факторы под названием «переменные», а стрелки – известные или подразумеваемые причинные отношения между ними, означающие, к каким переменным «прислушивается» та или иная переменная. Такие диаграммы невероятно легко рисовать, понимать и использовать, и читатели обнаружат их в изобилии на страницах этой книги. Если вы сможете найти дорогу по карте улиц с односторонним движением, то поймете диаграммы причинности и ответите на вопросы, относящиеся к тому же типу, что и заданные в начале этого вступления.

Диаграммы причинности, которые я предпочитаю использовать в этой книге и выбираю в качестве основного инструмента в последние 35 лет, не единственная модель причинности. Некоторые ученые (например, специалисты по эконометрике) любят работать с математическими уравнениями, другие (скажем, закоренелые статистики) предпочитают список допущений, которые предположительно обобщают структуру диаграммы. Независимо от языка, модель должна описывать, пусть и качественно, процесс, который порождает данные, – другими словами, причинно-следственные силы действуют в среде и формируют порождаемые данные.

Бок о бок с этим диаграммным «языком знания» существует символический «язык запросов», на котором мы выражаем вопросы, нуждающиеся в ответах. Так, если нас интересует эффект лекарства (D – drug) на продолжительность жизни (L – lifespan), то наш запрос можно символически записать так: P (L | do (D)). Иначе говоря, какова вероятность (P – probability) того, что типичный пациент проживет L лет, если его заставят принимать это лекарство? Вопрос описывает то, что эпидемиологи назвали бы интервенцией или лечением, и соответствует тому, что мы измеряем во время клинического исследования. Во многих случаях мы также захотим сравнить P (L | do (D)) и P (L | do (не-D)); последнее в данном случае описывает пациентов, которые не получили лечения, так называемую контрольную группу. Оператор do означает, что мы имеем дело с интервенцией, а не с пассивным наблюдением. В классической статистике нет ничего даже напоминающего этот оператор.

Мы должны применить оператор интервенции do (D), чтобы убедиться: наблюдаемое изменение в продолжительности жизни L объясняется самим лекарством и не объединено с другими факторами, которые могут укорачивать или удлинять жизнь. Если мы не вмешиваемся и даем самим пациентам решить, принимать ли лекарство, эти иные факторы могут повлиять на их решение, и разница в продолжительности жизни у тех, кто принимает и не принимает лекарство, больше не будет объясняться только этим. Например, представьте, что лекарство принимают только смертельно больные люди. Они определенно будут отличаться о тех, кто его не принимал, и сравнение двух групп будет отражать разницу в серьезности их болезни, а не эффект от лекарства. Однако, если заставлять пациентов принимать лекарство или отказываться от него, независимо от их изначального состояния, эта разница перестанет иметь значение и можно будет сделать обоснованное сравнение.

На языке математики мы записываем наблюдаемую частоту продолжительности жизни L у пациентов, которые добровольно приняли лекарство, как P (L | D), и это стандартная условная вероятность, которая используется в учебниках по статистике. Это выражение подразумевает, что вероятность P продолжительности жизни L допускается только в случае, если мы увидим, что пациент принимает лекарство D. Учтите, что P (L | D) может резко отличаться от P (L | do (D)). Это разница между увиденным и сделанным фундаментальна, она объясняет, почему мы не считаем падение атмосферного давления причиной надвигающегося шторма. Если мы увидим, что падение атмосферного давление повышает вероятность шторма и заставим показания барометра измениться, мы, однако, никак не повлияем на эту вероятность.

Эта путаница между тем, что мы видим, и тем, что происходит, привела к изобилию парадоксов, и некоторые из них мы разберем в этой книге. Мир, лишенный P (L | do (D)) и управляемый исключительно P (L | D), был бы действительно странным местом. Например, пациенты не ходили бы к врачу, чтобы избежать вероятности серьезно заболеть; города отказались бы от пожарных, чтобы сократить вероятность пожаров; врачи рекомендовали бы лекарства пациентам мужского и женского пола, но не пациентам, гендер которых неизвестен, и т. д. Трудно поверить, что менее трех десятилетий назад наука действовала в таком мире: оператора do не существовало.

Одним из главных достижений Революции Причинности стала возможность объяснить, как предсказать эффекты интервенции без ее осуществления. Это не было бы доступным, если бы, во-первых, мы не определили оператор do, с помощью которого формулируется верный вопрос, и, во-вторых, не нашли бы способ моделировать его без реального вмешательства.

Когда интересующий нас научный вопрос подразумевает ретроспективное мышление, мы полагаемся на еще один тип причинного рассуждения – контрфактивное. Предположим, что Джо принял лекарство D и умер через месяц; нас интересует вопрос, могло ли лекарство вызвать его смерть. Чтобы разобраться в этом, нужно вообразить сценарий, при котором Джо уже собирался принять лекарство, но передумал. Выжил ли бы он?

И вновь скажем, что классическая статистика только обобщает данные, поэтому она не обеспечивает даже язык для ответа на такие вопросы. Наука о причинном анализе предоставляет систему обозначений, и, что важнее, предлагает решение. Как и в случае с эффектом интервенций (упомянутым выше), во многих ситуациях мы можем моделировать ретроспективное мышление человека с помощью алгоритма, который использует то, что мы знаем о наблюдаемом мире, и дает ответ о контрфактивном мире. Такая «алгоритмизация контрфактивного» – еще одна жемчужина Революции Причинности.

Контрфактивное рассуждение, основанное на «что, если», кажется ненаучным. Действительно, эмпирическое наблюдение не способно ни подтвердить, ни опровергнуть ответы на такие вопросы. Но наш ум постоянно делает весьма надежные и воспроизводимые суждения о том, что может быть или могло бы быть. Например, все мы понимаем, что, если бы петух не кричал этим утром, солнце все равно бы встало. Это согласие основано на том факте, что контрфактивные суждения – не игра воображения, а размышление о самой структуре нашей модели мира. Два человека, у которых одна и та же модель причинности, придут к одним и тем же контрфактивным суждениям.

Контрфактивные суждения – это строительные кирпичи этичного поведения и научной мысли. Способность размышлять о своих действиях в прошлом и предвидеть альтернативные сценария – это основа свободной воли и социальной ответственности. Алгоритмизация контрфактивных суждений открывает думающим машинам эту возможность, и теперь они могут разделить этот (доселе) исключительно человеческий способ осмыслять мир.

Я сознательно упомянул думающие машины в предыдущем абзаце. Я пришел к этой теме, когда занимался компьютерными науками, конкретно искусственным интеллектом, что обобщает две точки отправления для большинства из моих коллег, занятых причинным анализом. Во-первых, в мире искусственного интеллекта вы по-настоящему не понимаете тему до тех пор, пока не обучите ей робота. Вот почему вы увидите, что я неустанно, раз за разом подчеркиваю важность системы обозначений, языка, словаря и грамматики. Например, меня завораживает вопрос, в состоянии ли мы выразить определенное утверждение на том или ином языке и следует ли это утверждение из других. Поразительно, сколько можно узнать, просто следуя грамматике научных высказываний! Мой акцент на язык также объясняется глубоким убеждением в том, что последний оформляет наши мысли. Нельзя ответить на вопрос, который вы не способны задать, и невозможно задать вопрос, для которого у вас нет слов. Изучая философию и компьютерные науки, я заинтересовался причинным анализом во многом потому, что мог с волнением наблюдать, как зреет и крепнет забытый когда-то язык науки.

Мой опыт в области машинного обучения тоже мотивировал меня изучать причинность. В конце 1980-х годов я осознал, что неспособность машин понять причинные отношения, вероятно, самое большое препятствие к тому, чтобы наделить их интеллектом человеческого уровня. В последней главе этой книге я вернусь к своим корням, и вместе мы исследуем, что значит Революция Причинности для искусственного интеллекта. Я полагаю, что сильный искусственный интеллект – достижимая цель, которой, к тому же не стоит бояться именно потому, что причинность – часть решения. Модуль причинного осмысления даст машинам способность размышлять над своими ошибками, выделять слабые места в своем программном обеспечении, функционировать как моральные сущности и естественно общаться с людьми о собственном выборе и намерениях.

Схема реальности

В нашу эпоху всем читателям, конечно, уже знакомы такие термины, как «знания», «информация», «интеллект» и «данные», хотя разница между ними или принцип их взаимодействия могут оставаться неясными. А теперь я предлагаю добавить в этот набор еще один термин – «причинная модель», после чего у читателей, вероятно, возникнет закономерный вопрос: не усложнит ли это ситуацию?

Не усложнит! Более того, этот термин свяжет ускользающие понятия «наука», «знания» и «данные» в конкретном и осмысленном контексте и позволит нам увидеть, как они работают вместе, чтобы дать ответы на сложные научные вопросы. На рис. 1. показана схема механизма причинного анализа, которая, возможно, адаптирует причинные умозаключения для будущего искусственного интеллекта. Важно понимать, что это не только проект для будущего, но и схема того, как причинные модели работают в науке уже сегодня и как они взаимодействуют с данными.

Механизм причинного анализа – это машина, в которую поступают три вида входных переменных – допущения, запросы и данные – и которая производит три типа выходных данных. Первая из входных переменных – решение «да/нет» о том, можно ли теоретически ответить на запрос в существующей причинной модели, если данные будут безошибочными и неограниченными. Если ответ «да», то механизм причинного анализа произведет оцениваемую величину. Это математическая формула, которая считается рецептом для получения ответа из любых гипотетических данных, если они доступны. Наконец, после того как в механизм причинного анализа попадут данные, он использует этот рецепт, чтобы произвести действительную оценку. Подобная неопределенность отражает ограниченный объем данных, вероятные ошибки в измерениях или отсутствие информации.

Рис. 1. Как механизм причинного анализа связывает данные со знанием причин, чтобы дать ответы на интересующие нас запросы. Блок, обозначенный пунктиром, не входит в механизм, но необходим для его построения. Также можно нарисовать стрелки от блоков 4 и 9 к блоку 1, но я решил сделать схему проще.

Чтобы объяснить схему подробнее, я пометил блоки цифрами от 1 до 9, и теперь прокомментирую их на примере запроса «Какой эффект лекарство D оказывает на продолжительность жизни L

1. «Знание» обозначает следы опыта, которые делающий умозаключения получил в прошлом. Это могут быть наблюдения из прошлого, действия в прошлом, а также образование и культурные традиции, признанные существенными для интересующего нас запроса. Пунктир вокруг «Знания» обозначает, что оно имеется в виду делающим умозаключения и не находит выражения в самой модели.

2. Научное исследование всегда требует упрощать допущения, т. е. утверждения, которые исследователь признает достойными, чтобы сформулировать их на основе доступного знания. Большая его часть остается подразумеваемой исследователем, и в модели запечатлены только допущения, которые получили формулировку и таким образом обнаружили себя. В принципе, их реально вычленить из самой модели, поэтому некоторые логики решили, что такая модель представляет собой всего лишь список допущений. Специалисты по компьютерным наукам делают здесь исключение, отмечая, что способ, избранный для представления допущений, в состоянии сильно повлиять на возможность правильно их сформулировать, сделать из них выводы и даже продолжить или изменить их в свете новой убедительной информации.

3. Причинные модели записываются в разной форме. Это могут быть диаграммы причинности, структурные уравнения, логические утверждения и т. д. Я убежденный приверженец диаграмм причинности почти во всех случаях – прежде всего из-за их прозрачности, но также из-за конкретных ответов, которые они дают на многие вопросы, которые нам хотелось бы задать. Для этой диаграммы определение причинности будет простым, хотя и несколько метафорическим: переменная X – причина Y, если Y «слушает» X и приобретает значение, реагируя на то, что слышит. Например, если мы подозреваем, что продолжительность жизни пациента L «прислушивается» к тому, какое лекарство D было принято, то мы называем D причиной L и рисуем стрелку от D к L в диаграмме причинности. Естественно, ответ на наш вопрос о D и L, вероятно, зависит и от других переменных, которые тоже должны быть представлены на диаграмме вместе с их причинами и следствиями (здесь мы обозначим их совокупно как Z).

4. Эта практика слушания, предписанная путями в причинной модели, обычно приводит к наблюдаемым закономерностям или зависимостям в данных. Подобные закономерности называются проверяемыми выводами, потому что они могут быть использованы для проверки модели. Это утверждение вроде «Нет путей, соединяющих D и L», которое переводится в статистическое утверждение «D и L независимы», т. е. обнаружение D не влияет на вероятность L. Если данные противоречат этому выводу, то модель нужно пересмотреть. Чтобы это сделать, требуется еще один механизм, которые получает входные переменные из блоков 4 и 7 и вычисляет «степень пригодности», или степень, до которой данные совместимы с допущениями модели. Чтобы упростить диаграмму, я не стал показывать второй механизм на рис. 1.

5. Запросы, поступающие в механизм причинного анализа, – это научные вопросы, на которые мы хотим ответить. Их необходимо сформулировать, используя термины причинности. Скажем, что такое P (L | do (D))? Одно из главных достижений Революции Причинности состоит в том, что она сделала этот язык научно прозрачным и математически точным.

6. Оцениваемая величина – это статистическая величина, которая оценивается на основе данных. После оценки данных она в состоянии обоснованно представить ответ на наш запрос. Если записать ее как формулу вероятности, например P (L | D, Z) × P (Z), то фактически получишь рецепт, как ответить на причинный запрос с помощью имеющихся у нас данных, когда механизм причинного анализа подтвердит эту возможность.

Очень важно осознавать, что, в отличие от традиционной оценки в статистике, нынешняя модель причинности порой не позволяет ответить на некоторые запросы, даже если какие-то данные уже собраны. Предположим, если наша модель покажет, что и D, и L зависят от третьей переменной Z (скажем, стадии болезни), и если у нас не будет способа измерить Z, то на запрос P (L | do (D)) нельзя будет получить ответ. В этом случае сбор данных окажется пустой тратой времени. Вместо этого придется вернуться назад и уточнить модель, либо добавив новые научные знания, которые позволят оценить Z, либо сделав допущения, которые все упростят (рискуя оказаться неправыми), например о том, что эффектом Z на D можно пренебречь.

7. Данные – это ингредиенты, которые используются в рецепте оцениваемой величины. Крайне важно осознавать, что данные абсолютно ничего не сообщают нам об отношениях причинности. Они обеспечивают нам значения, такие как P (L | D) или P (L | D, Z). Задача оцениваемой величины – показать, как «испечь» из этих статистических значений одну формулировку, которая с учетом модели будет логически эквивалентна запросу о причинности, скажем P (L | do (D)).

Обратите внимание, что само понятие оцениваемой величины и, более того, вся верхняя часть рис. 1 не существует в традиционных методах статистического анализа. Там оцениваемая величина и запрос совпадают. Так, если нам интересна доля тех, кто принимал лекарство D, среди людей с продолжительностью жизни L, мы просто записываем этот запрос как P (D | L). То же значение и будет нашей оцениваемой величиной. Оно уже определяет, какое соотношение данных надо оценить, и не требует никаких знаний о причинности. Именно поэтому некоторым статистикам по сей день чрезвычайно трудно понять, почему некоторые знания лежат за пределами статистики и почему одни только данные не могут заменить недостаток научного знания.

8. Оценка – то, что «выходит из печи». Однако она будет лишь приблизительной из-за еще одного свойства данных в реальном мире: они всегда относятся к ограниченной выборке из теоретически бесконечной популяции. В нашем текущем примере выборка состоит из пациентов, которых мы решили изучить. Даже если мы возьмем их произвольно, всегда останется некий шанс на то, что пропорции, которые мы определили, сделав измерения в выборке, не будут отражать пропорции в населении в целом. К счастью, статистика, как научная дисциплина, вооруженная продвинутыми приемами машинного обучения, дает нам великое множество способов справиться с этой неопределенностью: методы оценки максимальной вероятности, коэффициенты предрасположенности, интервалы доверия, критерии значимости и т. д. и т. п.

9. В итоге, если наша модель верна и если у нас достаточно данных, мы получаем ответ на запрос о причине, скажем такой: «Лекарство D повышает продолжительность жизни L у пациентов-диабетиков Z на 30 ± 20 %». Ура! Этот ответ добавит нам научных знаний (блок 1) и, если все пошло не так, как мы ожидали, обеспечит некоторые улучшения для нашей модели причинности (блок 3).

На первый взгляд, эта диаграмма может показаться сложной, и вы, вероятно, задумаетесь, необходима ли она. Действительно, в повседневной жизни мы каким-то образом способны выносить суждения о причине, не проходя через такой сложный процесс и точно не обращаясь к математике вероятностей и пропорций. Одной нашей интуиции о причинности обычно достаточно, чтобы справиться с неопределенностью, с которой мы сталкиваемся каждый день дома или даже на работе. Но, если мы захотим научить тупого робота думать о причинах или раздвинуть границы научного знания, заходя в области, где уже не действует интуиция, тщательно структурированная процедура такого рода будет обязательной.

Я хочу особенно подчеркнуть роль данных в вышеописанном процессе. Для начала примите во внимание, что мы собираем данные, предварительно построив модель причинности, сформулировав научный запрос, на который хотим получить ответ и определив оцениваемую величину. Это противоречит вышеупомянутому традиционному для науки подходу, в котором даже не существует причинной модели.

Однако современная наука ставит новые вызовы перед теми, кто практикует рациональные умозаключения о причинах и следствиях. Хотя потребность в причинной модели в разных дисциплинах становится очевиднее с каждым днем, многие исследователи, работающие над искусственным интеллектом, хотели бы избежать трудностей, связанных с созданием или приобретением причинной модели, и полагаться исключительно на данные во всех когнитивных задачах. Остается одна, в настоящий момент безмолвная надежда, что сами данные приведут нас к верным ответам, когда возникнут вопросы о причинности.

Я отношусь к этой тенденции с откровенным скепсисом, потому что знаю, насколько нечувствительны данные к причинам и следствиям. Например, информацию об эффекте действия или интервенции просто нельзя получить из необработанных данных, если они не собраны путем контролируемой экспериментальной манипуляции. В то же время, если у нас есть причинная модель, мы часто можем предсказать результат интервенции с помощью данных, к которым никто не прикасался.

Аргументы в пользу причинных моделей становятся еще более убедительными, когда мы пытаемся ответить на контрфактивные запросы, предположим: «Что бы произошло, если бы мы действовали по-другому?». Мы подробно обсудим контрфактивные запросы, потому что они представляют наибольшую сложность для любого искусственного интеллекта. Кроме того, развитие когнитивных навыков, сделавшее нас людьми, и сила воображения, сделавшие возможной науку, основаны именно на них. Также мы объясним, почему любой запрос о механизме, с помощью которого причины вызывают следствия, – самый прототипический вопрос «Почему?» – на самом деле контрфактивный вопрос под прикрытием. Таким образом, если мы хотим, чтобы роботы начали отвечать на вопросы «Почему?» или хотя бы поняли, что они значат, их необходимо вооружить моделью причинности и научить отвечать на контрфактивные запросы, как показано на рис. 1.

Еще одно преимущество, которое есть у причинных моделей и отсутствует в интеллектуальном анализе данных и глубинном обучении, – это способность к адаптации. Отметим, что на рис. 1 оцениваемая величина определяется на базе одной только причинной модели – еще до изучения специфики данных. Благодаря этому механизм причинного анализа становится невероятно адаптивным, ведь оцениваемая величина в нем подойдет для любых данных и будет совместима с количественной моделью, какими бы ни были числовые зависимости между переменными.

Чтобы понять, почему эта способность к адаптации играет важную роль, сравните этот механизм с системой, которая пытается учиться, используя только данные. В этом примере речь пойдет о человеке, но в других случаях ей может быть алгоритм глубинного обучения или человек, использующий такой алгоритм. Так, наблюдая результат L у многих пациентов, которым давали лекарство D, исследовательница в состоянии предсказать, что пациент со свойством Z проживет L лет. Но теперь ее перевели в новую больницу в другой части города, где свойства популяции (диета, гигиена, стиль работы) оказались другими. Даже если эти новые свойства влияют только на числовые зависимости между зафиксированными переменными, ей все равно придется переучиваться и осваивать новую функцию предсказания. Это все, на что способна программа глубинного обучения – приспосабливать функцию к данным. Однако, если бы у исследовательницы была модель для действия лекарства и если бы ее причинная структура оставалась нетронутой в новом контексте, то оцениваемая величина, которую она получила во время обучения, не утратила бы актуальности. Ее можно было бы применить к новым данным и создать новую функцию предсказания.

Многие научные вопросы выглядят по-другому «сквозь линзу причинности», и мне очень понравилось возиться с этой линзой. В последние 25 лет ее эффект постоянно усиливается благодаря новым находкам и инструментам. Я надеюсь и верю, что читатели этой книги разделят мой восторг. Поэтому я хотел бы завершить это введение, анонсировав некоторые интересные моменты книги.

В главе 1 три ступени – наблюдение, интервенция и контрфактивные суждения – собраны в Лестницу Причинности, центральную метафору этой книги. Кроме того, здесь вы научитесь основам рассуждений с помощью диаграмм причинности, нашего главного инструмента моделирования, и встанете на путь профессионального овладения этим инструментом. Более того, вы окажетесь далеко впереди многих поколений исследователей, которые пытались интерпретировать данные через линзу, непрозрачную для этой модели, и не знали о важнейших особенностях, которые открывает Лестница Причинности.

В главе 2 читатели найдут странную историю о том, как научная дисциплина статистика развила в себе слепоту к причинности и как это привело к далеко идущим последствиям для всех наук, зависящих от данных. Кроме того, в ней излагается история одного из величайших героев этой книги, генетика Сьюалла Райта, который в 1920-е годы нарисовал первые диаграммы причинности и долгие годы оставался одним из немногих ученых, осмелившихся воспринимать ее серьезно.

В главе 3 рассказывается равно любопытная история о том, как я обратился к причинности, работая над искусственным интеллектом – особенно над байесовскими сетями. Это был первый инструмент, который позволил компьютерам понимать «оттенки серого», и какое-то время я полагал, что они содержат главный ключ к искусственному интеллекту. К концу 1980-х годов я пришел к убеждению, что ошибался, и эта глава описывает мой путь от пророка до отступника. Тем не менее байесовские сети остаются очень важным инструментом для искусственного интеллекта и по-прежнему во многом определяют математическое основания для диаграмм причинности. Помимо постепенного знакомства с правилом Байеса и байесовскими методами рассуждения в контексте причинности, глава 3 представит увлекательные примеры того, как байесовские сети можно применить в реальной жизни.

Глава 4 рассказывает о главном вкладе статистики в причинный анализ – рандомизированном контролируемом исследовании (РКИ). С точки зрения причинности РКИ – это созданный человеком инструмент, позволяющий вскрыть запрос P (L | do (D)), возникший в природе. Главная его цель – отделить интересующие нас переменные (скажем, D и L) от других переменных (Z), которые в противном случае повлияли бы на обе предыдущие. Избавление от осложнений, вызванных такими неочевидными переменными, было проблемой в течение 100 лет. Эта глава показывает читателям удивительно простое ее решение, которое вы поймете за 10 минут, играючи проходя по путям в диаграмме.

Глава 5 повествует о поворотном моменте в истории причинности (и даже в истории всей науки), когда статистики столкнулись со сложностями, пытаясь выяснить, приводит ли курение к раку легких. Поскольку они не могли использовать свой любимый инструмент, РКИ, им было трудно прийти не только к единому выводу, но и к общему пониманию вопроса. Миллионы жизней оборвались или сократились из-за того, что ученым недоставало подходящего языка и методологии для ответов на вопросы о причинности.

Глава 6, надеюсь, даст читателям приятный повод отвлечься от серьезных вопросов из главы 5. Это глава о парадоксах – Монти Холла, Симпсона, Берксона и др. Классические парадоксы такого рода можно рассматривать как занимательные головоломки, однако у них есть и серьезная сторона, которая видна особенно хорошо, если взглянуть на них с точки зрения причинности. Более того, почти все они отражают столкновения с причинной интуицией и таким образом обнажают анатомию этой интуиции. Словно канарейки в шахте, они сигнализировали ученым, что человеческая интуиция укоренена в причинной, а не статистической логике. Я полагаю, читателям понравится новый взгляд на любимые парадоксы.

Главы 7–9 наконец-то позволят читателю совершить увлекательный подъем по Лестнице Причинности. Мы начнем в главе 7 с интервенции, рассказывая, как я со студентами 20 лет пытался автоматизировать запросы типа do. В итоге нам удалось добиться успеха, и в этой главе объясняется, как устроен механизм причинного анализа», который дает ответ «да/нет», и что такое оцениваемая величина на рис. 1. Изучив этот механизм, читатель получит инструменты, которые позволят увидеть в диаграмме причинности некие структуры, обеспечивающие немедленный ответ на причинный запрос. Это «поправки черного входа», «поправки парадного входа» и инструментальные переменные – «рабочие лошадки» причинного анализа.

Глава 8 поднимет вас на вершину лестницы, поскольку в ней рассматриваются контрфактивные суждения. Они считаются одной из необходимых составляющих причинности по меньшей мере с 1748 года, когда шотландский философ Дэвид Юм предложил для нее несколько искаженную дефиницию: «Мы можем определить причину как объект, за которым следует другой объект, если за всеми объектами, схожими с первым, следуют объекты, схожие со вторым. Или, другими словами, если бы не было первого объекта, второй бы не существовал». Дэвид Льюис, философ из Принстонского университета, умерший в 2001 году, указал, что на деле Юм дал не одно, а два определения: во-первых, регулярности (т. е. за причиной регулярно идет следствие) и, во-вторых, контрфактивности («если бы не было первого объекта…»). Хотя философы и ученые в основном обращали внимание на определение регулярности, Льюис предположил, что определение контрфактивности лучше сопрягается с человеческой интуицией: «Мы считаем причиной нечто, вызывающее перемену, и это перемена относительно того, что случилось бы без нее».

Читателей ждет приятный сюрприз: теперь мы можем отойти от научных дебатов и вычислить настоящее значение (или вероятность) для любого контрфактивного запроса – и неважно, насколько он изощрен. Особый интерес вызывают вопросы, связанные с необходимыми и достаточными причинами наблюдаемых событий. Например, насколько вероятно, что действие ответчика было неизбежной причиной травмы истца? Насколько вероятно, что изменения климата, вызванные человеком, являются достаточной причиной аномальной жары?

Наконец, в главе 9 обсуждается тема медиации. Возможно, когда мы говорили о рисовании стрелок в диаграмме причинности, вы уже задавались вопросом, стоит ли провести стрелку от лекарства D к продолжительности жизни L, если лекарство влияет на продолжительность жизни только благодаря воздействию на артериальное давление Z (т. е. на посредника). Другими словами, будет ли эффект D, оказываемый на L, прямым или непрямым? И если наблюдаются оба эффекта, как оценить их относительную важность? Подобные вопросы не только представляют большой научный интерес, но и могут иметь практические последствия: если мы поймем механизм действия лекарства, то, скорее всего, сумеем разработать другие препараты с тем же эффектом, которые окажутся дешевле или будут иметь меньше побочных эффектов. Читателя порадует тот факт, что вечный поиск механизма медиации теперь сведен до упражнения в алгебре, и сегодня ученые используют новые инструменты из набора для работы с причинностью в решении подобных задач.

Глава 10 подводит книгу к завершению, возвращаясь к проблеме, которая изначально привела меня к причинности: как автоматизировать интеллект человеческого уровня (его порой называют сильным искусственным интеллектом). Я полагаю, что способность рассуждать о причинах абсолютно необходима машинам, чтобы общаться с нами на нашем языке о политических мерах, экспериментах, объяснениях, теориях, сожалениях, ответственности, свободной воле и обязанностях – и в конечном счете принимать собственные этические решения.

Если бы я мог суммировать смысл этой книги в одной лаконичной и многозначительной фразе, она была бы такой: «Вы умнее ваших данных». Данные не понимают причин и следствий, а люди их понимают. Я надеюсь, что новая наука о причинном анализе позволит нам глубже осознать, как мы это делаем, ведь нет более эффективного способа понять себя, чем смоделировать себя. В эпоху компьютеров это новое знание также добавляет перспективу усилить наши врожденные способности, чтобы лучше постигать данные – как в больших, так и в малых объемах.

Глава 1. Лестница причинности

В начале…

Мне было, наверное, шесть или семь лет, когда я впервые прочел историю об Адаме и Еве в Эдемском саду. Мы с одноклассниками абсолютно не удивились капризным требованиям Бога, который запретил им есть плоды с древа познания. У божеств на все есть свои причины, думали мы. Но нас заинтриговал тот факт, что, когда Адам и Ева вкусили запретный плод, они, как и мы, стали осознавать свою наготу.

Когда мы стали подростками, наш интерес медленно сместился в сторону философских аспектов этой истории (израильские школьники читают Бытие несколько раз в год). Прежде всего нас взволновало, что возникновение человеческого знания было процессом не радостным, а болезненным – его сопровождали непослушание, вина и наказания. Некоторые спрашивали: имело ли смысл ради него отказываться от беззаботной жизни в Эдеме? И можно ли утверждать, что сельскохозяйственные и научные революции, которые случились после, стоили всех трудностей, войн и социальной несправедливости, неотъемлемых от современной жизни?

Не поймите меня неправильно: мы вовсе не были креационистами, и даже наши учителя были дарвинистами в душе. Однако мы знали, что автор, разыгравший эту историю по ролям, пытался ответить на самые насущные философские вопросы своего времени. Подобным образом мы ожидали, что она несет культурные отпечатки действительного процесса, в ходе которого Homo sapiens стал доминировать на нашей планете. Какой же в таком случае была последовательность шагов в этом скоростном процессе суперэволюции?

Интерес к таким вопросам угас, когда я на заре карьеры начал преподавать технические науки, но вдруг возродился в 1990-е годы, когда, работая над книгой «Причинность» (Causality), я познакомился с Лестницей Причинности.

Перечитывая Бытие в сотый раз, я заметил деталь, которая каким-то образом ускользала от моего внимания все эти годы. Когда Бог находит Адама, прячущегося в саду, он спрашивает: «… не ел ли ты от дерева, с которого Я запретил тебе есть?» И Адам отвечает: «… жена, которую Ты мне дал, она дала мне от дерева, и я ел». Бог спрашивает Еву: «… что ты это сделала?» Она отвечает: «… змей обольстил меня, и я ела».

Как мы знаем, Всемогущего не слишком впечатлили эти взаимные обвинения и он изгнал обоих из райского сада. И вот что я всегда пропускал до тех пор: Господь спросил: «Что?», а они ответили на вопрос «Почему?». Господь спрашивал о фактах, а они дали объяснения. Более того, оба были полностью убеждены, что, если назвать причины, их действия будут каким-то образом выставлены в ином свете. Откуда они взяли эту мысль?

Для меня из этих деталей вытекают три глубоких вывода. Во-первых, еще на заре нашей эволюции мы, люди, осознали, что мир состоит не только из фактов (которые сегодня мы назвали бы данными); скорее, эти факты склеены вместе сложной сетью причинно-следственных отношений. Во-вторых, именно объяснения причин, а не сухие факты, составляют основу наших знаний и должны быть краеугольным камнем машинного интеллекта. Наконец, наш переход от обработчиков данных к создателям объяснений был не постепенным; потребовался скачок, который нуждался во внешнем толчке в виде необычного фрукта. Это в точности соответствовало тому, что я в теории наблюдал на Лестнице Причинности: ни одна машина не сможет извлечь объяснения из необработанных данных. Ей необходим толчок.

Если искать подтверждения для этих обобщений в науке об эволюции, то мы, конечно же, не найдем древа познания, но все же увидим важный необъяснимый переход. Сейчас мы понимаем, что люди произошли от обезьяноподобных предков за период от 5 до 6 миллионов лет и что такие постепенные эволюционные процессы вполне свойственны земной жизни. Но около 50 тысяч лет назад случилось нечто уникальное. Одни называют это Когнитивной Революцией, а другие (с некоторой иронией) – Великим Скачком. Люди приобрели способность менять окружающую среду и собственные возможности с принципиально иной скоростью.

Например, за миллионы лет эволюции у орлов и сов развилось потрясающее зрение, однако они так и не изобрели очки, микроскопы, телескопы или приборы ночного видения. Люди произвели эти чудеса в течение столетий. Я называю такой феномен суперэволюционным ускорением. Некоторые читатели могут возразить, утверждая, что я сравниваю абсолютно разные вещи – эволюцию и развитие техники, но в том-то и дело. Эволюция снабдила нас способностью внедрять технику в жизнь – дар, которым она не наделила орлов и сов, и здесь снова встает вопрос: почему? Как вычислительные навыки вдруг появились у людей, но не у орлов?

На этот счет было предложено много гипотез, но одна из них особенно тесно связана с идеей причинности. В книге «Sapiens: Краткая история человечества» Юваль Ной Харари постулирует, что способность наших предков воображать несуществующее стала ключевой, поскольку улучшила коммуникацию. До этого сдвига они могли доверять только людям из своей непосредственной семьи или племени. Потом их доверие распространилось на более крупные сообщества, объединенные общими фантазиями (например, верой в невидимых, но доступных воображению божеств, в загробную жизнь и в божественную сущность лидера) и ожиданиями. Согласитесь вы с гипотезой Харари или нет, но связь между воображением и причинными отношениями практически самоочевидна. Бесполезно говорить о причинах вещей, если вы не можете представить их последствий. Верно и обратное: нельзя утверждать, что Ева вынудила вас съесть плод с дерева, если вы не способны вообразить мир, в котором, вопреки фактам, она не дала вам яблока.

Но вернемся к нашим предкам Homo sapiens: новообретенная способность мыслить в категориях причинности позволила им делать много вещей эффективнее с помощью непростого процесса, который мы называем планированием. Представьте себе племя, которое готовится к охоте на мамонта. Что им потребуется для успеха? Признаться, я не лучший охотник на мамонтов, но, изучая думающие машины, я узнал одну вещь: думающая сущность (компьютер, пещерный человек или преподаватель вуза) способна выполнить задачу такого размаха, только если запланирует все заранее – решит, сколько охотников надо привлечь, оценит с учетом направления ветра, с какой стороны лучше приближаться к мамонту – в общем, вообразит и сравнит последствия нескольких стратегий охоты. Чтобы это сделать, думающая сущность должна обладать ментальной моделью реальности, сверяться с ней и манипулировать ей.

Рис. 2. Предполагаемые причины успеха в охоте на мамонта

Рисунок 2 показывает, как нарисовать такую модель в уме. Каждая точка на рисунке представляет собой причину успеха. Заметьте, что причин много и что ни одна из них не будет определяющей; т. е. мы не можем быть уверены, что большее число охотников обеспечит успех или что дождь гарантирует неудачу, однако эти факторы действительно влияют на вероятность успеха.

Ментальная модель – это арена, на которой работает воображение. Она позволяет экспериментировать с разными сценариями, внося изменения в конкретные места. Где-то в ментальной модели наших охотников был вспомогательный элемент, который позволял оценить эффект от числа участников. Когда они размышляли, стоит ли взять больше людей, им не приходилось оценивать все остальные факторы с нуля. Они могли внести локальное изменение в модель, поставив «Охотники = 9» вместо «Охотники = 8», и снова оценить вероятность успеха. Этот модульный состав – основное свойство причинных моделей.

Я, конечно же, не хочу сказать, что первые люди рисовали себе модель, похожую на эту. Но когда мы пытаемся имитировать человеческую мысль на компьютере или даже когда хотим решить новые научные задачи, рисование картинок с конкретными точками и стрелками всегда исключительно полезно. Эти диаграммы причинности – вычислительная суть механизма причинного вывода, который я описал во вступлении.

Три уровня причинности

Возможно, к этому моменту я создал впечатление, что способность организовывать знания, деля их на причины и следствия, едина и мы приобрели ее сразу. На самом деле, исследуя машинное обучение, я узнал, что для изучения причинно-следственных связей необходимо овладеть когнитивными навыками по крайней мере на трех конкретных уровнях – видения, делания и воображения.

Первый навык, видение или наблюдение, подразумевает умение определять закономерности в окружающей среде. Он присутствует у многих животных и был у первых людей до Когнитивной Революции. Второй навык, делание, связан с умением предсказывать, какой эффект вызовут намеренные изменения в окружающей среде, и выбирать, какие изменения надо внести, чтобы получить желаемый результат. Очень немногие виды продемонстрировали элементы этого навыка. Использование инструментов, если это сознательные действия, а не случайность и не копирование предков, может свидетельствовать о переходе на этот следующий уровень. Но даже у пользователей инструментов не всегда есть «теория», которая говорит, почему инструмент работает и что делать, если он не работает. Для этого необходимо достичь уровня понимания, который допускает воображение. Именно этот третий уровень в первую очередь подготовил нас к дальнейшим революциям в науке и сельском хозяйстве и резко преобразил воздействие нашего вида на планету.

Это я обосновать не могу, зато могу доказать математически, что три уровня фундаментально различны, и на каждом из них раскрываются способности, которых нет на предыдущих. Схема, которую я использую для демонстрации, восходит к Алану Тьюрингу, пионеру в исследовании искусственного интеллекта, предложившему классифицировать когнитивную систему, ориентируясь на вопросы, на которые она способна ответить. Такой подход оказался исключительно плодотворным, если говорить о причинности, потому что он позволяет избежать долгих и непродуктивных дискуссий о том, что именно представляет собой причинность, и сосредоточен на конкретном вопросе, на который реально ответить: что делает мыслитель, изучающий причинность? Или, если точнее, что может вычислить организм, имеющий модель причинности, тогда как организм, не имеющий модели причинности, это вычислить не в состоянии?

В то время как Тьюринг хотел создать бинарную классификацию, чтобы отличать человека от нечеловека, у нашей есть три уровня, соответствующих все более и более сложным причинным запросам. Используя эти критерии, можно собрать из запросов трех уровней одну Лестницу Причинности (рис. 3.) Мы будем еще не раз возвращаться к этой метафоре.

Давайте подробно рассмотрим каждую ее перекладину. На первом уровне – ассоциаций – мы ищем повторяющиеся детали в наблюдениях. Этим занимается сова, которая наблюдает, как двигается крыса, и анализирует, где грызун окажется через секунду. Этим же занимается компьютерная программа для игры в го – она изучает базу данных с миллионами игр и может вычислить, какие ходы связаны с более высоким процентом выигрыша. Мы говорим, что одно событие связано с другим, если наблюдение одного изменения повышает вероятность увидеть другое.

Рис. 3. Лестница Причинности с представляющими ее организмами на каждом уровне. Большинство животных, так же как и сегодняшние обучающиеся машины, находятся на первой перекладине – они учатся по ассоциации. Пользователи инструментов вроде первых людей находятся на второй перекладине – если действуют по плану, а не просто имитируют. Кроме того, на этом уровне можно ставить эксперименты, чтобы узнать, какой эффект дает интервенция. Предположительно именно так младенцы получают большинство знаний о причинности. Те же, кто учится с помощью контрфактивных рассуждений, находятся на верхней перекладине и могут вообразить несуществующие миры и назвать причины для наблюдаемых феноменов.

Первая перекладина лестницы подразумевает предсказания, основанные на пассивных наблюдениях. Ее характеризует вопрос: «Что, если я увижу…?» Например, представьте директора по маркетингу в универмаге, который спрашивает: «Какова вероятность, что потребитель, который купил зубную пасту, также приобретет зубную нить?» Такие вопросы – самая суть статистики, и на них отвечают прежде всего, собирая и анализируя данные. В нашем случае на этот вопрос получится ответить, взяв данные о покупательском поведении всех клиентов, выбрав тех, кто купил зубную пасту, и, сосредоточившись на последней группе, вычислить долю тех, кто приобрел еще и зубную нить. Эта пропорция, также известная как условная вероятность, измеряет (для больших объемов данных) степень связи между покупкой пасты и покупкой зубной нити. Мы можем записать это в символах как P (зубная нить | зубная паста). P обозначает вероятность, вертикальная линия – «при условии, что вы видите».

Статистики предложили много изощренных методов, которые позволяют сократить большой объем данных и выявить связи между переменными. Корреляция или регрессия – типичная мера взаимосвязи, которая часто упоминается в этой книге. Чтобы увидеть ее, необходимо провести линию, ориентируясь на распределение единиц наблюдения, и продолжить ее уклон. Некоторые связи имеют очевидную интерпретацию с точки зрения причинности; другие могут ее не иметь. Но одна только статистика не скажет нам, что причина, а что следствие – зубная паста или зубная нить. С точки зрения менеджера по продажам это может не иметь особого значения. Точные предсказания не нуждаются в хороших объяснениях. Сова отлично охотится, не понимая, почему крыса всегда движется из точки A в точку B.

Некоторые читатели могут быть удивлены тем, что я разместил обучающиеся машины наших дней прямо на первой перекладине Лестницы Причинности – рядом с мудрой совой. Такое ощущение, что почти каждый день мы слышим о стремительном прогрессе систем машинного обучения – о самоуправляемых автомобилях, системах распознавания речи и, особенно в последнее время, об алгоритмах глубинного обучения (или глубинных нейросетях). Как же они могут до сих пор оставаться на первом уровне?

Успехи глубинного обучения стали по-настоящему примечательными и оказались сюрпризом для многих из нас. В то же время глубинное обучение оказалось успешным в основном потому, что показало: определенные вопросы или задания, которые мы считали трудными, на самом деле не являются таковыми. Оно не коснулось по-настоящему сложных вопросов, которые до сих пор не дают нам создать искусственный интеллект, подобный человеческому. В результате общественность верит, что машины с «сильным ИИ», которые думают, как человек, вот-вот появятся или, возможно, уже появились. В реальности это максимально далеко от правды. Я полностью согласен с Гэри Маркусом, нейроученым из Нью-Йоркского университета, который недавно писал в «Нью-Йорк таймс» о том, что сфера искусственного интеллекта «полнится микрооткрытиями», которых хватает для хороших пресс-релизов, но машины все еще огорчительно далеки от познания, подобного человеческому. Мой коллега Эднан Дарвиш, специалист по компьютерным наукам из Калифорнийского университета в Лос-Анджелесе, назвал свою программную статью «Интеллект как у человека или способности как у животных?» и, я думаю, очень точно поставил в ней интересующий нас вопрос. Сильный искусственный интеллект нужен для того, чтобы производить машины с интеллектом, подобным человеческому, которые будут способны общаться с людьми и направлять их. В то же время глубинное обучение дает нам машины с действительно впечатляющими способностями, но без интеллекта. Разница здесь глубокая, и ее причина – отсутствие модели реальности.

Точно так же, как 30 лет назад, программы машинного обучения (включая программы с глубинными нейросетями) практически всегда действуют в режиме ассоциаций. Они используют поток наблюдений, к которым пытаются приспособить функцию, по существу как статистик, который старается увидеть линию в скоплении точек – единиц информации. Глубинные нейросети повышают сложность подобранной функции, добавляя много слоев, но процесс подбора до сих пор базируется на необработанных данных. Чем больше данных используется, тем выше становится точность, но «суперэволюционного ускорения» не происходит. Если, например, программисты беспилотной машины захотят, чтобы она по-разному реагировала на новые ситуации, им придется быстро добавить эти новые реакции. Машина сама не поймет, что пешеход с бутылкой виски в руке, вероятно, по-своему отреагирует на сигнал. Это отсутствие гибкости и приспособляемости неизбежно для любой системы, которая работает на первом уровне нашей Лестницы Причинности.

Мы переходим на следующую ступень запросов о причинности, когда начинаем менять мир. Обычный вопрос для этого уровня будет таким: «Как изменятся продажи зубной нити, если удвоить стоимость зубной пасты?». Это уже требует нового вида знаний, которого нет в наших данных, обнаруженных на втором уровне Лестницы Причинности – интервенции.

Интервенция стоит выше ассоциации, потому что подразумевает не только наблюдение, но и изменение. Когда мы видим дым и когда дымим сами, это подразумевает совершенно разное представление о вероятности пожара. На вопросы об интервенции нельзя ответить с помощью пассивно собранных данных, и неважно, насколько велик их объем или насколько глубока нейронная сеть. Для многих ученых стала настоящим ударом информация о том, что никакие методы, известные из статистики, не позволяют даже выразить простой вопрос, например «Что будет, если мы удвоим цену?», не говоря уже о его решении. Я знаю это, поскольку много раз помогал им подняться на следующую перекладину лестницы.

Почему нельзя ответить на вопрос о зубной нити просто при помощи наблюдения? Ведь можно заглянуть в нашу обширную базу данных о предыдущих покупках, посмотреть, что было раньше, когда зубная паста стоила в два раза больше? Причина в том, что в предыдущих случаях цена могла быть выше по другим причинам. Предположим, товара осталось немного и всем остальным магазинам тоже пришлось повысить цены. Но теперь вы размышляете о намеренном вмешательстве, после которого установится новая цена, независимо от условий на рынке. Результат может сильно отличаться от предыдущего, когда покупатель не мог купить товар по более выгодной цене в других местах. Если бы у вас были данные об условиях на рынке в других ситуациях, вероятно, вы смогли бы предсказать все это лучше, но какие данные нужны? И как это выяснить? Наука о причинном выводе позволяет нам отвечать именно на эти вопросы.

Непосредственный способ предсказать результат интервенции – провести с ней эксперимент в тщательно контролируемых условиях. Компании, работающие с большими данными, такие как «Фейсбук», знают об этом и постоянно ставят эксперименты, чтобы посмотреть, что случится, если по-другому разместить элементы на экране или показать клиенту новую подсказку (либо даже новую цену).

Еще интереснее тот факт, что успешные предсказания об эффекте интервенции иногда можно сделать даже без эксперимента, хотя это не так широко известно, и даже в Кремниевой долине. Предположим, менеджер по продажам создает модель потребительского поведения и учитывает в ней ситуацию на рынке. Если данных обо всех факторах не имеется, вероятно, получится подставить достаточно суррогатных ключей и сделать прогноз. Сильная и точная причинная модель позволит использовать данные с первого уровня (наблюдения), чтобы ответить на запросы со второго уровня (об интервенции). Без причинной модели нельзя перейти с первой перекладины Лестницы на вторую. Вот почему системы глубинного обучения (если в них используются только данные с первой перекладины и нет причинной модели) никогда не смогут отвечать на вопросы об интервенции, по определению нарушающие правила среды, в которой обучалась машина.

Как иллюстрируют все эти примеры, главный вопрос на второй перекладине Лестницы Причинности – «Что, если мы…?». Что произойдет, если мы изменим среду? Можно написать запрос P (нить | do (зубная паста)), чтобы узнать, какова вероятность продать зубную нить по определенной цене, если мы будем продавать зубную пасту по другой цене.

Еще один популярный вопрос на этом уровне причинности – «Как?» Это родственник вопроса «Что, если мы…?». Скажем, менеджер говорит нам, что на складе слишком много зубной пасты. Он спрашивает: «Как нам ее продать?», т. е. какую цену лучше на нее назначить. И снова вопрос относится к интервенции, которую нужно совершить в уме, прежде чем решить, стоит ли осуществлять ее в реальной жизни и как это осуществить. Здесь требуется модель причинности.

В повседневной жизни мы постоянно совершаем интервенции, хотя обычно не называем их таким замысловатым термином. Предположим, принимая аспирин, чтобы избавиться от головной боли, мы вмешиваемся в одну переменную (количество аспирина в нашем организме), чтобы повлиять на другую (состояние головной боли). Если наш причинный взгляд на аспирин верен, то переменная результата отреагирует, изменившись с «головной боли» на «отсутствие головной боли».

Хотя рассуждения об интервенциях – важный уровень на Лестнице Причинности, все же они не отвечают на все интересующие нас вопросы. Можно задуматься: головная боль прошла, но почему? Помог аспирин? Или что-то из еды? Хорошие новости, которые я услышал? Эти вопросы приводят нас на верхний уровень Лестницы Причинности – уровень контрфактивных суждений, потому что для ответа на них нужно вернуться в прошлое, изменить историю и спросить себя: что случилось бы, если бы я не принял аспирин? Никакой эксперимент в мире не может отменить лечение человеку, который уже исцелился, и не позволит сравнить два исхода, поэтому необходимо применить совершенно новый вид знания.

Контрфактивные суждения находятся в особенно проблематичных отношениях с данными, потому что последние по определению относятся к фактам. Они не могут сообщить нам, что случится в контрфактивном или воображаемом мире, где некоторые наблюдаемые факты резко отвергаются. Но все же человеческий разум производит логические рассуждения такого рода – постоянно и с высокой надежностью. Это сделала Ева, когда обозначила причину своих действий: «Змей обольстил меня». Такая способность больше всего отличает человеческий интеллект от интеллекта животного, равно как и от невосприимчивых к подобным моделям версий ИИ и обучающихся машин.

Вероятно, вам не верится, что наука способна сделать полезные заключения в духе «а что, если» о мирах, которые не существуют, и о вещах, которые не происходили. Однако этим она и занимается – и занималась всегда. Законы физики можно рассматривать как контрфактивные утверждения, например: «Если бы вес этой спирали удвоился, ее длина тоже удвоилась бы» (закон Гука). Это утверждение, конечно, поддерживается изобилием экспериментальных подтверждений (второго уровня), полученных с помощью сотен спиралей в десятках лабораторий в тысячах случаев. Однако, поскольку утверждение нарекли законом, физики интерпретируют его как функциональную зависимость, которая управляет конкретной спиралью в конкретный момент при гипотетических значениях веса. Все эти разные миры, где вес составляет x кг, а длина спирали – LX см, рассматриваются как объективно известные и одновременно действующие, хотя на самом деле существует только один из них.

Если вернуться к примеру с зубной пастой, то вопрос на верхнем уровне будет таким: какова вероятность, что покупатель зубной пасты все равно купил бы ее, если бы мы удвоили цену? Мы сравниваем реальный мир (в котором знаем, что покупатель приобрел зубную пасту по текущей цене) с воображаемым миром (где цена вдвое выше).

Если иметь причинную модель, которая способна ответить на контрфактивные вопросы, преимущества будут огромными. Если понять причины грубой ошибки, в будущем можно будет принять меры, которые позволят все скорректировать. Если понять, почему лекарство помогло одним, но не помогло другим, получится открыть новые способы лечить болезнь. Отвечая на вопрос, как сложились бы события, если бы что-то пошло по-другому, мы извлечем уроки из истории и опыта других людей, и, кажется, ни один другой вид на это не способен. Неудивительно, что греческий философ Демокрит (около 460 – около 370 года до н. э.) сказал: «Я предпочел бы найти одну-единственную причину, чем стать персидским царем».

Расположение контрфактивных суждений на верхнем уровне Лестницы Причинности объясняет, почему я придаю им такое значение как ключевому моменту в эволюции человеческого создания. Я полностью согласен с Ювалем Харари в том, что описание воображаемых существ было демонстрацией новой способности, которую он называет Когнитивной Революцией. Ее классический пример – статуэтка человекольва, найденная в пещере Штадель в юго-западной Германии, которая сейчас хранится в Ульмском музее. Человеколев, созданный около 40 тысяч лет назад, представляет собой химеру, наполовину льва и наполовину человека, вырезанную из бивня мамонта.

Мы не знаем, кто создал человекольва и с какой целью это было сделано, но мы все же знаем, что это были анатомически современные люди и что это знаменует разрыв со всеми искусствами и ремеслами, практиковавшимися прежде. Раньше люди изготовляли инструменты и предметы фигуративного искусства – от бусин до флейт, наконечников копий и элегантных статуэток лошадей и прочих животных. Человеколев имеет иную природу – это творение чистого воображения.

Демонстрируя нашу новообретенную способность воображать вещи, которые никогда не существовали, человеколев является предшественником всех философских теорий, научных открытий и технических инноваций – от микроскопов до самолетов и компьютеров. Все они сначала появились в чьем-то воображении, а уже потом воплотились в физическом мире.

Этот скачок когнитивных возможностей был таким же глубоким и важным для нашего вида, как и все анатомические изменения, которые сделали нас людьми. В течение 10 тысяч лет после создания человекольва все иные виды рода Homo (кроме очень изолированного географически человека флоресского) вымерли. А люди продолжили менять естественный мир с невероятной скоростью, используя воображение, чтобы выжить, приспособиться и в итоге доминировать. Преимущество, которое мы получили, воображая контрфактивные ситуации, было тем же, что и сегодня: оно давало гибкость, способность размышлять и совершенствоваться на основе действий в прошлом и, что, вероятно, еще важнее, готовность брать на себя ответственность за действия в прошлом и будущем.

Как показано на рис. 3, для третьего уровня Лестницы Причинности характерны запросы вроде «Что было бы, если бы я сделал…?» и «Почему?». Оба подразумевают сравнение наблюдаемого мира с контрфактивным миром. Эксперименты сами по себе не позволяют отвечать на такие вопросы. В то время как на первом уровне мы имеем дело с наблюдаемом миром, а на втором уровне – с дивным новым миром, который можно увидеть, на третьем уровне идет взаимодействие с миром, который увидеть нельзя (потому что он противоречит наблюдаемому). Чтобы преодолеть этот разрыв, необходима модель причинного процесса, который иногда называют теорией или (когда мы невероятно уверены в себе) законом природы. Короче говоря, нам необходимо понимание. Это, конечно же, святой Грааль любой науки – разработка теории, которая позволит нам предсказать, что случится в ситуациях, которые мы даже не предвидели. Но дело заходит еще дальше: присутствие таких законов позволяет нам выборочно нарушать их, чтобы создать мир, который противоречит нашему. В следующем разделе мы рассмотрим такие нарушения на практике.

Мини-тест Тьюринга

В 1950 году Алан Тьюринг задался вопросом, что это значит: компьютер, думающий как человек. Он предложил практический тест под названием «Игра в имитацию», но исследователи искусственного интеллекта с тех пор зовут его исключительно тестом Тьюринга. Во всех практических отношениях компьютер достоин считаться думающей машиной, если обычный человек, который общается с ним при помощи клавиатуры, не догадается, с кем он разговаривает – с другим человеком или с компьютером. Тьюринг был горячо уверен в том, что это абсолютно достижимо. Он писал: «Я верю, что примерно через 50 лет можно будет так хорошо программировать компьютеры для игры в имитацию, что после пяти минут вопросов и ответов у среднего собеседника будет не более 70 %-ного шанса сделать правильный выбор».

Предсказание Тьюринга оказалось немного неточным. Ежегодно самый похожий на человека чатбот в мире борется за премию Лёбнера: за программу, которая сумеет обмануть всех четырех судей, притворяясь человеком, полагается золотая медаль и 100 тысяч долларов. В 2015 году, спустя 25 лет с начала соревнований, ни одной программе не удалось обмануть не то что всех судей, но даже и половину.

Тьюринг не просто разработал игру в имитацию, он также предложил стратегию, чтобы пройти тест. «Что, если разработать программу, симулирующую не разум взрослого человека, а ум ребенка?» – спросил он. Если это сделать, можно было бы обучить ее так, как мы обучаем детей, – и вуаля! Через 20 лет (или меньше, учитывая более высокую скорость компьютера) мы получим искусственный интеллект. «Можно предположить, что ум ребенка подобен тетради, которую покупают в канцелярском магазине, – писал он. – Совсем небольшой механизм и много пустых страниц». Здесь он ошибался: мозг ребенка богат механизмами и заранее загруженными шаблонами.

И все же я думаю, что в чем-то Тьюринг прав. Скорее всего, у нас не получится произвести интеллект, подобный человеческому, пока мы не создадим интеллект, схожий с детским, и главным компонентом этого интеллекта будет владение причинно-следственными связями.

Как же машины могут получить знания о причинно-следственных связях? Это и по сей день остается важнейшим вызовом, который, несомненно, относится к замысловатым сочетаниям данных, поступающих из активных экспериментов, пассивного наблюдения и (не в последней степени) самого программиста, что во многом похоже на входящую информацию, которую получает ребенок, только эволюцию, родителей и товарищей заменяет программист.

Тем не менее ответим на несколько менее амбициозный вопрос: как машины (и люди) могли бы представить знания о причинно-следственных связях таким образом, чтобы быстро получать доступ к нужной информации, правильно отвечать на вопросы и делать это с такой же легкостью, с какой это получается у трехлетнего ребенка? На самом деле таков главный вопрос, который мы рассмотрим в этой книге.

Я называю это мини-тестом Тьюринга. Идея здесь в том, чтобы взять простую историю, каким-то образом закодировать ее на машине, а потом проверить, сможет ли она правильно ответить на вопросы о причинно-следственных связях, на которые способен ответить человек. Это мини-тест по двум причинам. Во-первых, потому что он сведен к рассуждениям о причинах и следствиях, что исключает остальные аспекты человеческого интеллекта, такие как общая картина мира и естественный язык. Во-вторых, мы позволяем конкурсанту закодировать историю в виде любого удобного представления и освобождаем машину от задачи извлечь историю из собственного опыта. Проходить этот мини-тест стало задачей всей моей жизни – я делаю это сознательно последние 25 лет и делал бессознательно раньше.

Очевидно, готовясь к мини-тесту Тьюринга, мы должны сначала ответить на вопрос о репрезентации, а уже потом – об усвоении информации. Без репрезентации мы не знали бы, как хранить данные для использования в будущем. Даже если бы мы могли дать роботу манипулировать окружающей средой по его желанию, любая информация, полученная таким образом, забылась бы, если бы роботу не дали шаблон, чтобы закодировать результаты этих манипуляций. Важнейшим вкладом ИИ в исследование познания стала парадигма «Сначала репрезентация – потом усвоение». Часто поиск хорошей репрезентации приводил к ценным находкам о том, как стоит получать знания – и из данных, и от программиста.

Когда я описываю мини-тест Тьюринга, в ответ мне обычно утверждают, что его легко пройти с помощью обмана. Например, можно взять список всех вероятных вопросов, сохранить правильные ответы, а потом привести их по памяти, когда вас спросят. И тогда не будет способа отличить машину, в которой всего лишь хранится список вопросов и ответов, от машины, которая отвечает так же, как мы с вами, т. е. понимает вопрос и производит ответ, используя ментальную модель причинности. И что же докажет мини-тест Тьюринга, если жульничать так просто?

Философ Джон Сёрл в 1980 году описал эту возможность обмана с помощью мысленного эксперимента под названием «Китайская комната». Он подверг сомнению утверждение Тьюринга о том, что способность сымитировать интеллект равна обладанию им. С аргументом Сёрла есть только одна проблема: обмануть тест нелегко, более того, это нереально. Даже при ограниченном наборе переменных количество вероятных вопросов растет астрономически. Скажем, у нас есть 10 каузальных переменных и каждая из них может иметь два значения (0 или 1). Мы способны задать около 30 миллионов предполагаемых запросов, например: «Какова вероятность, что результат будет равен 1, если мы увидим

Скачать книгу