Как мы учимся. Почему мозг учится лучше, чем любая машина… пока бесплатное чтение

Станислас Деан
Как мы учимся : почему мозг учится лучше, чем любая машина… пока

Посвящается Авроре, которая родилась в этом году,

а также всем взрослым, которые когда-то были детьми.

Прежде всего хорошо изучите ваших воспитанников, ибо вы решительно их не знаете.

Жан-Жак Руссо,
«Эмиль, или О воспитании» (1762)

Странный и удивительный факт: мы изучили каждый сантиметр человеческого тела, составили каталог всех животных, населяющих нашу планету, дали описание и придумали название каждой травинке, но веками довольствовались эмпирическим подходом к психологии, как будто она менее важна, чем искусство лекаря, животновода или фермера.

Жан Пиаже,
«Современная педагогика» (1949)

Если мы не знаем, как мы учимся, откуда нам знать, как преподавать?

Л. Рафаэль Райф,
ректор Массачусетского технологического института (23 марта 2017)

Stanislas Dehaene

HOW WE LEARN


Copyright © 2020 by Stanislas Dehaene. All rights reserved


Научный редактор

И. Захаров,

старший научный сотрудник лаборатории возрастной психогенетики Психологического института РАО


© Чечина А.А., перевод на русский язык, 2020

© Оформление. ООО «Издательство «Эксмо», 2021


«Каждая книга известного французского психофизиолога Станисласа Деана – это событие. Не стала исключением и эта. В ней рассматриваются важнейшие вопросы когнитивной нейронауки: как происходит научение, как мы приобретаем новые знания, чем работа мозга во время обучения отличается от работы компьютера? Несмотря на столь сложную тему, книга написана чрезвычайно ярким и доступным языком, при этом в ней полностью сохранена научная точность и аккуратность при изложении фактов и теорий. Важно отметить, что Станислас Деан не просто перечисляет те или иные факты по теме, но и предлагает собственную оригинальную гипотезу «нейронного рециклинга», позволяющую совершенно по-новому взглянуть на многие, казалось бы давно известные наблюдения. Думаю, что я непременно буду рекомендовать эту книгу своим студентам».

Станислав Козловский,

доцент кафедры психофизиологии факультета

психологии МГУ имени М.В. Ломоносова

Введение

В сентябре 2009 года я познакомился с одним удивительным ребенком. Именно он заставил меня в корне пересмотреть мои представления о научении. Я был в огромном белом здании, вдохновленном архитектурой Оскара Нимейера[1], – Неврологическом реабилитационном центре имени Сары Кубичек в Бразилии, с которым моя лаборатория сотрудничала уже около десяти лет. Директор, Лючиа Брага, отвела меня к одному из пациентов – семилетнему мальчику Фелипе, который пролежал на больничной койке больше половины своей жизни. В возрасте четырех лет его ранили на улице – к сожалению, это не такое уж редкое событие в Бразилии. Шальная пуля повредила спинной мозг и уничтожила зрительные центры в головном мозге. В результате малыш полностью утратил подвижность и ослеп. Чтобы ему было легче дышать, врачи проделали в его трахее – у самого основания шеи – небольшое отверстие. Вот уже три года Фелипе жил в больничной палате, запертый в тюрьме собственного неподвижного тела.

Помню, как, идя по коридору, я мысленно приготовился увидеть несчастного, искалеченного ребенка. А потом я увидел… Фелипе, такого же очаровательного маленького мальчика, как и все семилетние дети: разговорчивого, жизнерадостного и любознательного. Он свободно говорил на английском языке и задал мне несколько каверзных вопросов о французских словах. Оказывается, ему всегда нравились языки, и он никогда не упускал возможности пополнить свой словарный запас (малыш владел тремя языками: португальским, английским и испанским). Хотя Фелипе был слеп и прикован к постели, он нашел спасение в воображении и сочинял чудесные истории. Персонал больницы активно поддерживал его увлечение и всячески старался ему помочь. Через несколько месяцев Фелипе научился диктовать свои рассказы помощнику, а позже стал записывать их самостоятельно – с помощью специальной клавиатуры, подключенной к компьютеру и звуковой карте. Педиатры и логопеды по очереди дежурили у детской кроватки, превращая его сочинения в настоящие тактильные книги с рельефными иллюстрациями. Я видел, как он гордо перелистывает их пальчиками, используя те крохи осязания, которые у него остались. Его истории повествуют о героях и героинях, горах и озерах, которые он никогда не увидит, но о которых мечтает, как любой маленький мальчик.

Встреча с Фелипе глубоко тронула меня, а также убедила внимательнее присмотреться к тому, что, вероятно, следует считать величайшим талантом нашего мозга: способности учиться. Фелипе – ребенок, само существование которого бросает вызов нейронауке. Как когнитивные способности нашего мозга умудряются противостоять столь радикальному изменению среды? Почему мы с Фелипе можем мыслить схожим образом, хотя наш сенсорный опыт в корне различен? Как разные люди приходят к одним и тем же понятиям, почти независимо от того, как и когда происходит их усвоение?

Многие нейробиологи – убежденные эмпирики: вслед за английским философом эпохи Просвещения Джоном Локком (1632–1704) они настаивают, что мозг черпает все свои знания из внешнего мира. С этой точки зрения главным свойством корковых нейронных сетей[2] должна быть пластичность, возможность адаптироваться к входным сигналам. И действительно, нервные клетки обладают поразительной способностью регулировать свои синапсы в ответ на поступающие импульсы. Однако будь это главным драйвером работы мозга, мой маленький Фелипе, лишенный постоянного притока зрительных и моторных сигналов, неизбежно стал бы весьма ограниченной личностью. Каким же чудом ему удалось развить совершенно нормальные когнитивные способности?

Случай Фелипе отнюдь не уникален. Всем известна история Хелен Келлер (1880–1968) и Мари Эртен (1885–1921): первая потеряла зрение и слух в младенчестве, вторая родилась глухой и слепой. Тем не менее спустя годы мучительной социальной изоляции обе освоили язык жестов и в конце концов стали блестящими мыслителями и писательницами1. На страницах этой книги мы познакомимся со многими людьми, которые, я надеюсь, радикально изменят и ваши взгляды на научение. Один из них – выдающийся математик Эммануэль Жиру, потерявший зрение в одиннадцать лет. Перефразируя слова Лиса из «Маленького принца» Антуана де Сент-Экзюпери (1943), Жиру уверенно заявляет: «В геометрии самого главного глазами не увидишь. Зорок один лишь разум». Но как этот слепой человек вообще ориентируется в абстрактных пространствах алгебраической геометрии и так легко манипулирует плоскостями, сферами и объемами, хотя даже не видит их? В ходе исследований мы выясним, что Эммануэль использует те же самые нейронные сети, что и другие математики, но его зрительная кора, вместо того чтобы оставаться неактивной, переквалифицировалась на решение задач.

Я также познакомлю вас с Нико – молодым художником, который, посетив музей Мармоттан в Париже, создал отличную копию знаменитой картины Моне «Впечатление. Восходящее солнце» (см. цветную иллюстрацию 1). Что же в этом такого исключительного, спросите вы. Ничего, лишь тот факт, что у Нико всего одно полушарие, левое, – правое было почти целиком удалено в возрасте трех лет! В итоге мозг Нико втиснул все свои таланты в оставшуюся половину: не только речь, письмо и чтение, как у обычных людей, но и рисование, которое обычно считается функцией правого полушария, а также компьютерные науки и даже фехтование на инвалидных колясках – вид спорта, в котором Нико получил звание чемпиона Испании. Забудьте все, что вам говорили о разделении обязанностей между полушариями: жизнь Нико доказывает, что любой человек без правого полушария может стать креативным и талантливым художником! Нейропластичность воистину творит чудеса.

Мы посетим печально известные детские дома Бухареста, где дети с рождения не получали практически никакого внимания – однако же годы спустя школьный опыт некоторых из них (преимущественно усыновленных до года или двух) оказался близок к нормальному.

Все эти примеры иллюстрируют необычайную гибкость человеческого мозга: даже такие тяжелые травмы, как слепота, потеря полушария и социальная изоляция, не могут лишить нас возможности учиться. Речь, чтение, математика, художественное творчество – все эти уникальные таланты человека, которыми не обладает ни один другой примат, успешно противостоят обширным повреждениям, включая удаление целого полушария, потерю зрения или утрату двигательных навыков. Поскольку научение – жизненно важный процесс, человеческий мозг наделен невероятной пластичностью – способностью к самоизменению, приспособлению. Тем не менее в некоторых случаях процесс научения буквально останавливается и не приводит к позитивным изменениям. Возьмем чистую алексию, неспособность прочесть ни единого слова. Я лично обследовал нескольких таких взрослых: все они прекрасно умели читать, но после инсульта, затронувшего крошечную область их мозга, утратили способность расшифровывать даже такие простые слова, как «дом» или «кот». Помню, среди них была умнейшая женщина – преданная поклонница французской газеты Le Monde. Она говорила на трех языках и была глубоко опечалена тем фактом, что отныне для нее любая газетная страница выглядит как китайская грамота. Несмотря на последствия перенесенного инсульта, женщина решила во что бы то ни стало научиться читать заново. И все же спустя два года усиленных тренировок ее навыки чтения по-прежнему остались на уровне детского сада: ей требовалось несколько секунд, чтобы прочесть одно слово, буква за буквой, и она спотыкалась на каждом слове. Почему она не могла научиться? И почему некоторые дети, страдающие дислексией, дискалькулией или диспраксией, не в состоянии овладеть навыками чтения, счета или письма, хотя другим они даются так легко?

Пластичность мозга капризна. Иногда она действительно позволяет преодолеть огромные трудности. А иногда дети и взрослые – умные и в высшей степени мотивированные – сохраняют мучительные нарушения на всю жизнь. Зависит ли это от конкретных нейронных сетей? Снижается ли пластичность с возрастом? Можно ли ее восстановить? Какие законы ею управляют? Чем обусловлена поразительная эффективность мозга с рождения и на протяжении всего детства? Какие алгоритмы позволяют нашим нейронным сетям формировать представления о мире? Поможет ли понимание принципов их действия учиться быстрее и лучше? Могут ли они вдохновить нас на создание более «умных» машин, искусственного интеллекта, который будет имитировать работу человеческого мозга или даже превзойдет его? На эти и другие вопросы я попытаюсь дать ответ в данной книге. В ее основу положен междисциплинарный подход: во всех наших рассуждениях мы прежде всего будем опираться на последние научные открытия в самых разных областях знаний: в когнитивистике, нейробиологии, в сфере искусственного интеллекта и педагогики.

Зачем учиться?

Почему мы вообще должны учиться? Сам факт того, что мы наделены способностью получать знания, вызывает вопросы. Разве не было бы лучше, если бы дети могли говорить и думать с самого первого дня, подобно Афине, которая, согласно легенде, появилась на свет из головы Зевса уже взрослой, в полном вооружении и, едва «роды» закончились, испустила боевой клич? Почему мы не рождаемся уже подготовленными, с предварительно загруженными поведенческими программами и знаниями, необходимыми для выживания? Разве в дарвиновской борьбе за жизнь у животного, которое рождается зрелым и обладает более обширными знаниями, чем другие, не больше шансов победить и распространить свои гены? Зачем эволюции понадобилось изобретать научение?

Я отвечу так: предварительное программирование мозга и невозможно, и нежелательно. Невозможно? Но почему? Хотя бы потому, что для подробного кодирования всех наших знаний человеческой ДНК просто не хватило бы емкости. Наши двадцать три пары хромосом содержат три миллиарда пар «букв» A, C, G, T – молекул аденина, цитозина, гуанина и тимина. Сколько информации они несут? Информация измеряется в битах, которые могут иметь два значения: 1 или 0. Поскольку каждая из четырех букв генома кодирует два бита (мы можем записать их как 00, 01, 10 и 11), наша ДНК содержит в общей сложности шесть миллиардов битов. Однако, как вы помните, в современных компьютерах мы считаем информацию байтами – последовательностями из восьми битов. Следовательно, человеческий геном можно свести примерно к 750 мегабайтам. Это емкость старомодного компакт-диска или небольшого USB-накопителя! И это при том, что в своих расчетах мы не учитывали многочисленные повторения, которыми изобилует наша ДНК.

Из столь скромного объема информации, унаследованного нами спустя миллионы лет эволюции, наш геном, изначально ограниченный одной-единственной оплодотворенной яйцеклеткой, выстраивает весь план организма – каждую молекулу каждой клетки в печени, почках, мышцах и, конечно же, в мозге: восемьдесят шесть миллиардов нейронов, тысячу триллионов связей… Как же ему это удается? Если предположить, что каждое из наших нервных соединений кодирует только один бит (хотя это явное преуменьшение), емкость нашего мозга должна составлять около ста терабайт (или 1015 битов). Иными словами, его емкость в сто тысяч раз больше емкости нашего генома. Возникает парадокс: фантастический дворец, который представляет собой наш мозг, содержит в сто тысяч раз больше деталей, чем чертежи архитектора, которые используются для его постройки! Я вижу только одно объяснение: структурный каркас дворца возводится в соответствии с указаниями архитектора (генома), а детали находятся в ведении руководителя проекта, который корректирует план в зависимости от местности (окружающей среды). Поскольку с этой точки зрения предварительно описать человеческий мозг во всей его полноте невозможно, на помощь генам приходит научение.

Данная метафора, однако, не объясняет, почему научение столь распространено в животном мире. Даже простые организмы, вообще не имеющие коры головного мозга (например, дождевые черви, дрозофилы и морские огурцы), усваивают многие из присущих им форм поведения в результате научения. Рассмотрим маленького червячка под названием нематода, или C. elegans. За последние двадцать лет это миллиметровое животное стало настоящей лабораторной звездой: дело в том, что его строение в основном определяется генетически и может быть проанализировано вплоть до мельчайших подробностей. Большинство особей имеют ровно 959 клеток, включая 302 нейрона, все связи которых хорошо изучены. И все же нематоды учатся2. Первоначально исследователи рассматривали это существо как своего рода робота, который только и умеет, что плавать взад-вперед, однако позже было установлено, что ему доступны по крайней мере два вида научения: привыкание (габитуация) и ассоциация. Габитуация относится к способности организма адаптироваться к повторяющемуся стимулу (например, к молекуле в воде, в которой живет животное) и постепенно переставать реагировать на него. Ассоциация, напротив, состоит в обнаружении и запоминании аспектов окружающей среды, служащих надежными предикторами источника пищи или опасности. Нематода – чемпион ассоциации: она, например, может вспомнить, какие вкусы, запахи или температуры ранее были связаны с пищей (бактерии) или с молекулами репеллента (запах чеснока), и использовать эту информацию для выбора оптимального маршрута движения.

При таком небольшом количестве нейронов поведение червя вполне можно было бы запрограммировать заранее. Но это не так. Причина в том, что способность приспосабливаться к специфической среде, в которой животное родилось, крайне полезна и даже необходима для его выживания. Даже два генетически идентичных организма необязательно окажутся в одной и той же экосистеме. В случае нематоды способность оперативно корректировать свое поведение в зависимости от плотности, химического состава и температуры места, в котором она очутилась, позволяет ей выбирать оптимальный курс действий. В более общем смысле всякое животное должно быстро адаптироваться к непредсказуемым условиям текущего окружения. Естественный отбор – чрезвычайно эффективный алгоритм, открытый Дарвином, – безусловно, содействует адаптации каждого организма к своей экологической нише, но делает это с ужасающе низкой скоростью. Целые поколения будут обречены на смерть, прежде чем некая полезная мутация увеличит шансы вида на выживание. Способность учиться, напротив, работает гораздо быстрее: она может изменить поведение в течение нескольких минут, что является самой квинтэссенцией научения – привить навык максимально быстро адаптироваться к непредсказуемым условиям.

Вот почему учиться так важно. В ходе эволюции животные, которые обладали даже зачаточной способностью к научению, имели больше шансов выжить, чем те, чье поведение было фиксировано, а потому чаще могли передать свой геном (уже включающий генетически управляемые алгоритмы научения) следующему поколению. Таким образом, естественный отбор благоприятствовал развитию способности к научению. Эволюционный алгоритм помог сделать важное открытие: возможность быстро менять определенные параметры тела, чтобы приспособиться к изменчивым условиям окружающей среды, будет только на пользу.

Естественно, некоторые аспекты физического мира неизменны: сила тяжести действует повсюду, а скорость распространения света и звука не меняется в одночасье. Именно поэтому нам не нужно учиться отращивать уши, глаза или внутренние лабиринты, которые в рамках вестибулярной системы отслеживают ускорение нашего тела: все эти свойства заложены в нас генетически. Другие параметры – расстояние между глазами, вес и длина конечностей, высота голоса и прочее – варьируются, а потому мозг вынужден приспосабливаться к ним. Как мы увидим далее, человеческий мозг есть результат компромисса. Наша долгая эволюционная история наделила нас, с одной стороны, множеством врожденных нейронных связей (кодирующих все общие интуитивные категории, на которые мы делим мир: образы, звуки, движения, объекты, животные, люди), а с другой стороны – неким сложным алгоритмом научения, позволяющим нам совершенствовать эти навыки на основе жизненного опыта.

Homo docens

Если бы меня попросили описать исключительные таланты нашего вида одним словом, я бы ответил: «Научение». Мы не просто Homo sapiens, мы Homo docens[3] – вид, который учит себя сам. Большая часть наших знаний о мире не задана генами; мы извлекаем их из внешнего мира или получаем от тех, кто нас окружает. Ни одно другое животное не смогло столь радикально поменять свою экологическую нишу. Мы перебрались из африканской саванны в пустыни, горы, на острова и полярные ледники; мы жили в пещерах, строили города и даже побывали в космосе – и все это за несколько тысяч лет. Благодаря чему? Благодаря способности учиться. От освоения огня и изготовления каменных орудий до сельского хозяйства, научных изысканий и расщепления атома: история человечества – это история постоянного самообновления. В основе всех этих достижений лежит один секрет – экстраординарная способность нашего мозга формулировать гипотезы и выбирать те из них, которые лучше всего согласуются с внешним окружением.

Умение учиться – триумф нашего вида. Миллиарды параметров нашего мозга способны адаптироваться к нашей среде, нашему языку, нашей культуре, нашим обычаям и нашей пище. Эти параметры выбраны не случайно: в ходе эволюции дарвиновский алгоритм установил, какие пути необходимо задать предварительно, а какие должны окончательно сформироваться под влиянием внешнего мира. У нашего вида вклад научения особенно велик – хотя бы потому, что детство у человека длится гораздо дольше, чем у других млекопитающих. Поскольку мы обладаем уникальной способностью к речи и математике, наше учебное устройство легко ориентируется в обширных пространствах гипотез и их потенциально бесконечном множестве комбинаций, пусть даже все они уходят своими корнями в фиксированный и неизменный фундамент, унаследованный нами от предков.

Не так давно человечество обнаружило, что оно может еще больше развить эту замечательную способность с помощью одного института – школы. Педагогика – исключительная привилегия нашего вида: ни одно другое животное не занимается активным обучением своих детенышей, выделяя определенное время для наблюдения за их успехами, трудностями и ошибками[4]. Изобретение школы – института, систематизирующего неформальное образование, существующее во всех человеческих обществах, – значительно увеличило потенциал нашего мозга. Мы убедились, что можем воспользоваться высочайшей пластичностью детского мозга и внедрить в него максимум информации и умений. На протяжении веков наша школьная система совершенствовалась, и сегодня она охватывает период от пятнадцати лет и более. Доступнее стало и высшее образование. Университеты – это подлинные нейроперерабатывающие заводы, в которых наш мозг обретает и оттачивает свои главные таланты.

Образование – основной акселератор мозга. Неудивительно, что оно занимает первые строчки в перечне государственных расходов: без него сети корковых нейронов остались бы алмазами неограненными. Самой сложностью нашего общества мы обязаны тому положительному влиянию, которое образование оказывает на кору головного мозга: это чтение, письмо, арифметика, алгебра, музыка, чувство времени и пространства, улучшение памяти… Например, вы знали, что кратковременная память у грамотного человека, количество слогов, которое он может повторить, почти вдвое больше, чем у взрослого, который никогда не ходил в школу и остался неграмотным? А что IQ повышается на несколько единиц с каждым дополнительным годом обучения?

Научение научению

Образование приумножает и без того немалые возможности нашего мозга – но может ли он функционировать еще лучше? В школе и на работе мы постоянно задействуем алгоритмы научения, но делаем это интуитивно, не обращая внимания на то, как именно протекает данный процесс. Никто никогда не объяснял нам правила, согласно которым мозг запоминает и понимает или, наоборот, забывает и ошибается. Это печально, ибо сегодня человечество обладает весьма обширными научными знаниями по этому вопросу. На веб-сайте, созданном британским фондом British Education Endowment Foundation (EEF)3, перечислены наиболее эффективные педагогические вмешательства; одну из первых строк в этом рейтинге занимает обучение метакогнитивным процессам (метапознание – знание возможностей и ограничений собственного мозга). Умение учиться – пожалуй, самый важный фактор академической успеваемости.

К счастью, теперь мы многое знаем о том, как работает научение. Тридцать лет исследований на стыке компьютерных наук, нейробиологии и когнитивной психологии позволили нам более или менее прояснить алгоритмы, которые использует наш мозг, выявить задействованные сети нейронов, установить факторы, которые модулируют их производительность, а также разобраться, почему у людей они особенно эффективны. Все эти вопросы мы обсудим по очереди. Надеюсь, когда вы закроете эту книгу, вы будете гораздо лучше понимать, что именно происходит в вашей голове во время научения. На мой взгляд, крайне важно, чтобы каждый ребенок и каждый взрослый осознавал весь потенциал собственного мозга и, конечно же, его ограничения. Систематически препарируя наши ментальные алгоритмы и мозговые механизмы, современная когнитивистика придает новый смысл знаменитому сократовскому изречению «Познай самого себя». Сегодня речь идет уже не о простой интроспекции, но о понимании тонкой нейрональной механики, генерирующей наши мысли, и ее использовании в соответствии с нашими потребностями, целями и жела– ниями.

Новая наука о научении, безусловно, особенно актуальна для всех работников системы образования: прежде всего учителей и методистов. Я убежден: правильно преподавать, не обладая – будь то имплицитно или эксплицитно – ментальной моделью того, что происходит в умах учеников, невозможно. Какими интуитивными представлениями они наделены изначально? Какие шаги необходимо предпринять, чтобы двигаться вперед? Какие факторы могут помочь им развить свои навыки?

Хотя когнитивная нейробиология не располагает точными ответами на все вопросы, сегодня мы знаем, что все дети появляются на свет с одинаковой архитектурой мозга – мозга Homo sapiens, кардинально отличающегося от мозга других человекообразных обезьян. Разумеется, я не утверждаю, что мозг одного человека есть точная копия мозга другого: в силу причуд нашего генома и особенностей раннего развития нам присущи разные «таланты» и разная скорость научения. Но несмотря на эти – весьма незначительные – отличия, базовая схема одинакова у всех, равно как и организация алгоритмов научения. По этой причине существуют фундаментальные принципы, которым обязан следовать всякий хороший педагог. Так, все маленькие дети обладают общим набором абстрактных представлений в сферах языка, арифметики, логики и теории вероятностей, обеспечивающим фундамент для дальнейшего обучения. Кроме того, все учащиеся извлекают пользу из сосредоточенного внимания, активного вовлечения, обратной связи и ночной консолидации памяти. Эти факторы я называю «четырьмя столпами» научения: как мы убедимся, именно они лежат в основе универсального алгоритма научения, которым пользуются и взрослые, и дети.

Вместе с тем человеческому мозгу свойственны индивидуальные вариации. В крайних случаях они могут носить патологический характер. В настоящее время реальность таких нарушений развития, как дислексия, дискалькулия, диспраксия и расстройства внимания, уже не вызывает сомнений. К счастью, благодаря лучшему пониманию архитектуры, порождающей данные отклонения, мы обнаружили, что существуют простые стратегии их диагностики и компенсации. Посему одной из целей данной книги я вижу распространение этих научных знаний с тем, чтобы каждый учитель и каждый родитель мог выбрать оптимальную тактику обучения. Хотя дети сильно отличаются друг от друга по содержанию своих знаний, все они пользуются одними и теми же алгоритмами научения. Следовательно, педагогические приемы, успешно внедряемые в работе со всеми детьми, будут эффективны и для детей с нарушениями обучаемости – только применять их следует с большим вниманием, терпением, систематичностью и толерантностью к ошибкам.

Последнее особенно важно: хотя обратная связь по ошибкам необходима, многие дети со временем не только теряют уверенность в себе, но и утрачивают всякое любопытство. Проблема в том, что их зачастую наказывают за ошибки, а не помогают исправиться. В школах по всему миру обратная связь синонимична наказанию и стигматизации (в одной из глав мы подробно поговорим о том, какую роль играют в этой путанице школьные отметки). Отрицательные эмоции снижают учебный потенциал мозга, в то время как безопасная среда, не вызывающая чувства страха, наоборот, содействует восстановлению нейропластичности. Любой прогресс в образовании возможен только в том случае, если мы одновременно учитываем и эмоциональные, и познавательные аспекты нашего мозга – в современной когнитивной нейронауке оба считаются ключевыми элементами успешного научения.

Человек и машина

Сегодня перед человеческим интеллектом встает новая проблема: с недавних пор мы больше не являемся единственными чемпионами по способности учиться. Во всех областях знаний алгоритмы машинного обучения бросают вызов уникальному статусу нашего вида. Благодаря им современные смартфоны умеют распознавать лица и голоса, транскрибировать речь, переводить с одного языка на другой, управлять различными устройствами и даже играть в шахматы или го намного лучше, чем мы. Машинное обучение превратилось в многомиллиардную индустрию, черпающую вдохновение из организации и функционирования нашей собственной нервной системы. Но как работают эти искусственные алгоритмы? Помогут ли их принципы понять, что такое научение? Способны ли они уже сейчас имитировать работу живого мозга или им еще предстоит пройти долгий путь?

Хотя последние достижения в области информационных технологий завораживают, их ограничения очевидны. Классические алгоритмы глубокого обучения копируют лишь малую часть функционирования нашего мозга. По моему убеждению, эта часть соответствует первым стадиям сенсорной обработки, первым двумстам или тремстам миллисекундам, в течение которых наш мозг работает бессознательно. Данный тип обработки никоим образом не следует считать поверхностным: за долю секунды человеческий мозг может распознать лицо или слово, поместить его в контекст, понять и даже интегрировать в небольшое предложение… Проблема в том, что это сугубо восходящий процесс, не предполагающий каких-либо серьезных размышлений. Только на последующих стадиях обработки информации – более медленных и сознательных – наш мозг задействует все свои способности к рассуждению, умозаключению и анализу. Как с точки зрения логики, так и с точки зрения гибкости живой мозг значительно превосходит все современные машины. Даже самые продвинутые компьютерные архитектуры и те уступают человеческому младенцу в способности создавать абстрактные модели мира.

Даже в пределах своей основной специализации – например, в области быстрого распознавания форм – существующие алгоритмы гораздо менее эффективны, чем наш мозг. Современные компьютеры требуют миллионов, если не миллиардов, обучающих попыток. В самом деле, машинное обучение стало чуть ли не синонимом больших данных: в отсутствие гигантских объемов информации алгоритмы практически не способны извлечь абстрактные знания, которые можно перенести на новые ситуации. Другими словами, они не используют данные оптимальным образом.

В этом состязании младенческий мозг одерживает победу без труда: чтобы выучить новое слово, малышам достаточно одного или двух повторений. Их мозг выжимает максимум из минимума данных – умение, которое по-прежнему ускользает от компьютеров. Нейрональные алгоритмы научения умудряются извлечь суть из малейшего наблюдения. Если ученые желают добиться такой же производительности в машинах, им следует черпать вдохновение из механизмов, которые интегрировала в наш мозг сама эволюция. Это может быть внимание, которое позволяет нам отбирать информацию и усиливать релевантные сигналы, или, например, сон – алгоритм, посредством которого наш мозг синтезирует усвоенное в течение дня. Новые машины с такими свойствами уже появились, и их производительность неуклонно растет – в ближайшем будущем они, безусловно, составят серьезную конкуренцию нашему мозгу.

Согласно одной из новых теорий, причина, по которой человеческий мозг до сих пор превосходит машины, заключается в том, что он действует, как ученый-статистик. Постоянно вычисляя вероятности, он оптимизирует свою способность к научению. Судя по всему, в процессе эволюции наш мозг приобрел сложные алгоритмы, которые беспрерывно оценивают его знания и сопряженную с ними неуверенность (неопределенность). Такое систематическое внимание к вероятностям является в математическом смысле наилучшим способом в полной мере использовать каждую единицу инфор– мации4.

Недавние эксперименты подтверждают эту гипотезу. Даже младенцы понимают вероятности: по всей видимости, они с рождения встроены в их нейронные сети. Дети ведут себя как маленькие ученые: их мозг изобилует гипотезами, которые напоминают научные теории и проверяются на опыте. Способность оперировать вероятностями, по большей части бессознательно, вписана в саму логику нашего научения. Она позволяет любому из нас постепенно отвергать ложные гипотезы и сохранять только те теории, которые согласуются с данными. В отличие от других видов животных люди используют это чувство вероятностей для построения научных теорий о внешнем мире. Только мы – представители Homo sapiens – систематически генерируем абстрактные символические мысли и регулярно оцениваем их правдоподобие на основе новых наблюдений.

Инновационные компьютерные алгоритмы, учитывающие этот новый подход к научению, называются «байесовскими» – в честь преподобного Томаса Байеса (1702–1761), который сформулировал отдельные элементы этой теории еще в XVIII веке. Я предполагаю, что байесовские алгоритмы произведут настоящую революцию в машинном обучении: уже сегодня они способны извлекать абстрактную информацию не хуже любого ученого.

Наше путешествие в современную науку о научении состоит из трех частей.

Первая часть под названием «Что такое научение?» начинается с определения того, что значит для человека или животного – и для любого алгоритма или машины – учиться новому. Идея проста: учиться – значит последовательно формировать как в искусственных, так и в естественных нейронных сетях внутреннюю модель внешнего мира. Гуляя по незнакомому городу, я составляю его мысленную карту – миниатюрную модель улиц и переулков. Точно так же ребенок, который учится кататься на велосипеде, формирует подсознательную симуляцию того, как движения ног, нажимающих на педали, и рук, поворачивающих руль, влияют на устойчивость велосипеда. Аналогичным образом компьютерный алгоритм, который учится распознавать лица, собирает шаблонные модели возможных форм глаз, носов, ртов и их комбинаций.

Но как мы создаем правильную ментальную модель? Как мы увидим далее, ум учащегося можно уподобить гигантской машине с миллионами регулируемых параметров; настройки этих параметров в совокупности и определяют то, чему мы научились (например, где скорее всего будут находиться улицы на нашей ментальной карте окрестностей).

В головном мозге параметры – это синапсы, связи между нейронами, сила которых варьируется; в большинстве современных компьютеров параметры – это регулируемые веса или вероятности, определяющие силу каждой приемлемой гипотезы. Таким образом, научение – как в мозге, так и в машинах – требует поиска оптимального сочетания параметров, которые вместе определяют ментальную модель во всех ее подробностях. В этом смысле научение – проблема поиска; чтобы лучше понять, как научение работает в человеческом мозге, необходимо изучить, как алгоритмы обучения работают в современных компьютерах.

Сравнивая компьютерные алгоритмы с алгоритмами мозга in silico[5] и in vivo[6], мы постепенно получим более четкое представление о том, что означает научение на уровне мозга. Конечно, математикам и специалистам в области вычислительных систем не удалось разработать алгоритмы обучения, столь же мощные, как человеческий мозг, – пока. Тем не менее они все больше склоняются к теории оптимального алгоритма обучения, который должна использовать любая система, если она стремится к максимальной эффективности. Согласно этой теории, лучший ученик действует, как ученый, рационально использующий вероятности и статистику. Возникает новая модель: модель мозга как статистика, при которой корковые области мозга обрабатывают данные о вероятностях событий. Данная теория подчеркивает четкое разделение труда между наследственностью и средой: гены создают обширные пространства априорных гипотез, из которых впоследствии среда выбирает те, которые наилучшим образом описывают внешний мир. Иными словами, набор гипотез задан генетически, но их отбор зависит от опыта.

Согласуется ли эта теория с тем, как на самом деле работает мозг? И как научение реализуется в биологических нейронных сетях? Какие изменения происходят в нашем мозге, когда мы приобретаем новую компетенцию? Во второй части книги, «Как учится наш мозг», мы обратимся к психологии и нейробиологии. Особое внимание будет уделено младенцам – подлинным и непревзойденным самообучающимся машинам. Согласно новейшим исследованиям, они действительно ведут себя как юные специалисты по статистике. Их поразительная интуиция в сферах языка, геометрии, чисел и статистики подтверждает: младенцы могут быть чем угодно, но только не «чистым листом», tabula rasa[7]. При рождении детский мозг уже организован, он проецирует гипотезы на внешний мир с самого первого дня. Кроме того, дети обладают значительным запасом пластичности, которая отражается в беспрерывных изменениях синапсов. В пределах этой статистической машины наследственность и среда не противостоят друг другу – напротив, они действуют сообща. Результатом является структурированная, но пластичная система с уникальной способностью к самовосстановлению после травм и переориентации уже существующих нейронных сетей на овладение навыками, не предусмотренными эволюцией, – например, чтением или математикой.

В третьей части книги, «Четыре столпа научения», я подробно расскажу о некоторых хитростях, которые делают наш мозг самым эффективным самообучающимся устройством, известным на сегодняшний день. В значительной степени нашу способность к научению модулируют четыре основных механизма. Первый – это внимание, система нейронных сетей, которые отбирают, усиливают и передают сигналы, считающиеся нами релевантными, тем самым усиливая их воздействие в нашей памяти в сто раз. Второй столп – активное вовлечение: пассивный организм почти ничему не научится, ибо научение требует активного генерирования гипотез, мотивации и любопытства. Третий столп – обратная связь: всякий раз, когда реальность не совпадает с нашими ожиданиями, в нашем мозге распространяются сигналы ошибки. Они корректируют имеющиеся ментальные модели, исключают непригодные гипотезы и стабилизируют наиболее точные. Наконец, четвертый столп – это консолидация: периодически наш мозг компилирует (собирает воедино) то, что он усвоил, и переносит это в долговременную память, тем самым высвобождая нейронные ресурсы для дальнейшего научения. Важную роль в этом процессе консолидации играет повторение. Мозг активен даже во сне; во время сна он в ускоренном темпе воспроизводит свои прошлые состояния и перекодирует знания, приобретенные в течение дня.

Эти четыре столпа универсальны: младенцы, дети и взрослые всех возрастов используют их каждый раз, когда задействуют свою способность к научению. Вот почему все мы должны научиться владеть ими – именно так мы сможем научиться учиться. В заключении мы обсудим практические последствия этих научных открытий. Изменить наши подходы к научению и обучению в школе, дома или на работе вовсе не так сложно, как кажется. Простые рекомендации касательно игр, любознательности, социализации, концентрации и сна помогут еще больше развить то, что и так является величайшим талантом нашего мозга, – способность учиться.

Часть I
Что такое научение?

По сути, интеллект можно рассматривать как процесс преобразования неструктурированной информации в полезные и актуальные знания.

Демис Хассабис, исследователь искусственного интеллекта, основатель компании DeepMind (2017)

Что такое научение? Во многих языках это слово имеет тот же корень, что и латинский глагол apprehendere («схватывать»): apprehending в английском, apprendre во французском, aprender в испанском и португальском. И действительно, научиться – значит уловить некий фрагмент реальности и перенести его в мозг. В когнитивных науках принято считать, что научение состоит в формировании внутренней модели мира. В процессе научения первичные данные, которые улавливают наши органы чувств, превращаются в более или менее абстрактные идеи, пригодные для повторного использования в новом контексте, – малые модели реальности.

Ниже мы узнаем, что обо всем этом говорит когнитивистика и наука об искусственном интеллекте. Как возникают такие внутренние модели в мозге и машинах? Как меняется репрезентация (представление) информации, когда мы учимся? Что происходит на уровне, общем для любого организма – будь то человек, животное или компьютер? Обсудив различные инженерные хитрости, позволяющие машинам учиться, мы получим более четкое представление о той невероятной работе, которую проделывает мозг всякого ребенка, когда он учится видеть, говорить и писать. Как ни странно, детский мозг сохраняет преимущество: несмотря на все технические и научные достижения, современные алгоритмы машинного обучения копируют лишь малую часть способностей человеческого мозга. Разобравшись, где заканчивается машинное обучение и в чем мозг ребенка превосходит даже самый мощный компьютер, мы точно определим, что значит «научение».

Глава 1
Семь определений научения

Что значит «научение»? Мое первое и самое общее определение таково: научиться – значит сформировать внутреннюю модель внешнего мира.

Вы можете этого не осознавать, но ваш мозг хранит тысячи таких моделей. Образно говоря, они похожи на миниатюрные муляжи, более или менее точно повторяющие реальность. Например, у всех нас есть ментальная карта района и дома, в котором мы живем, – достаточно закрыть глаза и мысленно представить их в мельчайших подробностях. Разумеется, никто из нас не родился с этой картой – мы приобрели ее посредством научения.

Богатство и разнообразие наших ментальных моделей, по большей части бессознательных, поражает воображение. Так, у любого англоговорящего читателя имеется обширная ментальная модель английского языка; благодаря ей он понимает слова, которые сейчас читает, и может догадаться, что слово plastovski – не английское, слова swoon и wistful – точно английские, а слово dragostan – возможно[8]. Помимо языковой модели, мозг содержит и несколько моделей тела, которые он постоянно использует для коррекции положения конечностей при движении и для поддержания равновесия. Другие ментальные модели кодируют наши знания о физических объектах и взаимодействии с ними: вы знаете, как держать ручку, писать или ездить на велосипеде. Третьи описывают близких нам людей: у каждого человека имеется огромный ментальный каталог его родственников и знакомых, в котором задокументированы их внешность, голоса, вкусы и причуды.

Эти ментальные модели способны генерировать гиперреалистичные симуляции окружающей нас вселенной. Вы замечали, что иногда ваш мозг устраивает самые настоящие виртуальные реалити-шоу, в которых вы ходите, танцуете, посещаете новые места, ведете интересные беседы или испытываете сильные эмоции? Конечно, я говорю о снах! Кажется невероятным, но все мысли, которые приходят к нам в сновидениях, есть не что иное, как продукт неконтролируемой работы внутренних моделей мира.

Впрочем, мы «изобретаем» реальность не только во сне: бодрствуя, наш мозг постоянно проецирует гипотезы и интерпретативные системы на внешний мир. Это происходит потому, что каждое изображение, попадающее на сетчатку глаза, неоднозначно. Например, всякий раз, когда мы видим тарелку, ее изображение подобно бесконечному количеству эллипсов. Почему же мы видим тарелку круглой, хотя органы чувств говорят нам, что она овальная? Все дело в дополнительных данных, которые поставляет наш мозг: он знает, что круглая форма – наиболее вероятная интерпретация. За кулисами сенсорные области непрерывно вычисляют вероятности, и в сознание попадает только наиболее вероятная модель. Именно проекции мозга в конечном счете придают смысл потоку данных, поступающему от органов чувств. В отсутствие внутренних моделей необработанные сенсорные данные остались бы бессмысленными.

В процессе научения наш мозг захватывает фрагмент реальности, который он ранее упустил, и использует его для построения новой модели мира. Такие модели могут отражать как внешнюю реальность, так и внутреннюю: первые формируются, когда мы изучаем историю, ботанику или карту города; вторые – когда мы учимся координировать движения во время игры на скрипке. В обоих случаях мозг интернализирует (т.е. встраивает внутрь) некий новый аспект реальности: фактически, чтобы усвоить неизвестный материал, он соответствующим образом перенастраивает свои нейронные сети.

Такие изменения, безусловно, не совершаются наугад. Научение – это прежде всего способность приспосабливаться к внешнему миру и способность исправлять ошибки. Но откуда мозг «знает», как обновить внутреннюю модель, если, скажем, он заблудился и не может найти свой дом, упал с велосипеда, проиграл партию в шахматы или неправильно написал слово «экстаз»? Рассмотрим семь ключевых идей, которые лежат в основе современных алгоритмов машинного обучения и которые применимы и к человеческому мозгу, – семь различных определений того, что значит «научение».

Научение – это регулировка параметров ментальной модели

Иногда корректировка ментальной модели не представляет сложностей. Вообразите, что вы видите некий предмет и протягиваете к нему руку. Что происходит? Еще в XVII веке Рене Декарт (1596–1650) предположил, что наша нервная система должна содержать особые нейронные сети, преобразующие зрительные сигналы в мышечные команды (см. рисунок ниже). Вы можете убедиться в этом сами: попробуйте схватить предмет, надев очки другого человека, желательно близорукого. Еще лучше, если вам удастся раздобыть призматические очки, смещающие видимое изображение на дюжину градусов влево5. Естественно, первая попытка закончится провалом: из-за призм вы протянете руку не в сторону самого предмета, а гораздо правее. Путем последовательных проб и ошибок вы скорректируете свои движения и впредь будете брать левее. С каждым разом ваши движения будут все более и более точными – это ваш мозг учится компенсировать смещение. Но если снять очки и попробовать снова, вы с удивлением обнаружите, что ваша рука тянется не туда. Вы взяли слишком далеко в левую сторону!



Что такое научение? Учиться – значит корректировать параметры внутренней модели. Например, чтобы научиться указывать на предмет пальцем, необходимо устранить смещение видимого изображения: каждая ошибка несет в себе полезную информацию, позволяющую сократить разрыв. В искусственных нейронных сетях применяется та же логика, хотя число возможных регулировок значительно больше. Распознавание рукописного знака требует тонкой настройки миллионов связей. Опять же, каждая ошибка – в данном случае это неверный выходной сигнал «8» – может быть использована для корректировки параметров соединений, что позволяет улучшить производительность в следующем испытании.


Что же произошло? Всего за несколько минут ваш мозг скорректировал внутреннюю модель зрения. Параметр этой модели, отвечающий за несоответствие между видимым изображением и положением вашего тела, был установлен на новое значение. Во время процесса корректировки методом проб и ошибок ваш мозг делает то, что делает всякий охотник, регулирующий оптический прицел своего ружья: он совершает пробный выстрел и на основании результатов сдвигает видоискатель в нужном направлении. Данный тип научения протекает быстро: достаточно нескольких попыток, чтобы компенсировать смещение видимых объектов. Однако новые параметры несовместимы со старыми – отсюда систематическая ошибка, которая возникает всякий раз, когда мы снимаем призмы и возвращаемся к нормальному зрению.

Бесспорно, данный вид научения является весьма специфичным, поскольку требует корректировки только одного параметра (угла обзора). Обычно научение носит гораздо более сложный характер и предполагает регулировку десятков, сотен и даже тысяч миллионов параметров (каждого синапса в соответствующей сети нейронов). Тем не менее сам принцип остается неизменным: все сводится к поиску тех настроек внутренней модели, которые наилучшим образом отвечают состоянию внешнего мира.

Представим младенца, который недавно родился в Токио. В течение следующих двух-трех лет его внутренняя речевая модель должна будет адаптироваться к особенностям именно японского языка. Мозг этого малыша подобен машине с миллионами настроек на каждом уровне. Некоторые из этих настроек – например, на слуховом уровне – определяют, какой набор согласных и гласных используется в японском языке и какие правила позволяют их комбинировать. Ребенку, родившемуся в японской семье, предстоит узнать, какие фонемы составляют японские слова и где следует проводить границы между звуками. Один из параметров, в частности, касается различий между звуками [р] и [л]. Во многих языках между ними существует разительный контраст, но только не в японском: японцы не видят разницы между «ложей» и «рожей». Следовательно, каждый ребенок обязан отрегулировать целый набор параметров, которые в совокупности определяют, какие категории речевых звуков релевантны для его родного языка.

Похожая процедура научения повторяется на каждом уровне – от звуковых паттернов до лексики, грамматики и смыслового содержания. Мозг организован в виде иерархии моделей реальности, вложенных одна в другую наподобие матрешки. Учиться – значит использовать поступающие данные для корректировки параметров на каждом уровне этой иерархии. Рассмотрим пример высокого уровня: усвоение грамматических правил. Еще одна ключевая особенность японского языка заключается в порядке слов. В каноническом предложении с подлежащим, сказуемым и дополнением сначала идет подлежащее, затем сказуемое и, наконец, дополнение: «Джон + ест + яблоко». В японском языке, наоборот, сначала стоит подлежащее, затем дополнение – и только потом глагол: «Джон + яблоко + ест»[9]. Примечательно, что тот же порядок характерен для предлогов (которые фактически становятся послелогами), притяжательных местоимений и многих других частей речи. Например, безобидная фраза «Мой дядя мечтает работать в Бостоне» превращается в изречение, достойное Йоды из «Звездных войн»: «Дядя мой Бостоне в работать мечтает».

Любопытно, но все эти инверсии имеют нечто общее. Лингвисты считают, что они обусловлены одним-единственным параметром – так называемой «позицией вершины». В английском, русском и других языках определяющее слово конструкции – ее вершина – обычно стоит на первом месте (в Париже, мой дядя, хочет жить), а в японском – на последнем (Париже в, дядя мой, жить хочет). Этот бинарный параметр отличает многие языки, даже те, которые не связаны исторически (язык навахо, например, подчиняется тем же правилам, что и японский). Таким образом, чтобы овладеть родным языком – скажем, английским или японским, – ребенок должен соответствующим образом настроить параметр «позиция вершины» в своей внутренней языковой модели («до» или «после»).

Научение – это использование комбинаторного взрыва

Неужели овладение речью действительно сводится к заданию каких-то там параметров? В это трудно поверить – но лишь потому, что мы не в состоянии представить то огромное поле возможностей, которое открывается перед нами с увеличением количества параметров, поддающихся регулировке. Это так называемый «комбинаторный взрыв» – экспоненциальный рост возможностей, возникающий при объединении даже небольшого их числа. Предположим, что грамматика мировых языков может быть описана примерно 50 бинарными параметрами, как это постулируют некоторые лингвисты. В итоге мы получаем 250 комбинаций – более миллиона миллиардов возможных языков, или 1 с пятнадцатью нулями! Синтаксические правила трех тысяч реально существующих языков легко вписываются в это гигантское пространство. Однако наш мозг содержит не пятьдесят регулируемых параметров, а гораздо больше – восемьдесят шесть миллиардов нейронов, каждый из которых образует около десяти тысяч синаптических контактов, причем сила этих связей может варьироваться. Выходит, пространство ментальных представлений практически бесконечно.

Человеческие языки активно используют эти комбинации на всех уровнях. Рассмотрим, например, ментальный лексикон: набор слов, которые мы знаем и модель которых постоянно носим в своей голове. Так, любой англоговорящий взрослый свободно владеет примерно 50 тысячами слов с самыми разнообразными значениями[10]. На первый взгляд это гигантский словарный запас, но человек умудряется приобрести его примерно за десять лет. Все потому, что мы можем разложить учебную задачу на составляющие. Учитывая, что эти пятьдесят тысяч слов в среднем состоят из двух слогов, каждый из которых состоит примерно из трех фонем, выбранных из сорока четырех фонем, существующих в английском языке, двоичное кодирование всех этих слов дает менее двух миллионов элементарных двоичных вариантов («битов» со значением 0 или 1). Другими словами, весь словарный запас взрослого человека уместился бы в небольшой 250-килобайтный компьютерный файл (каждый байт состоит из 8 битов).

Ментальный лексикон можно ужать еще сильнее, если принять во внимание большую избыточность языка. Любые шесть букв, выбранные наугад, например xfdrga, не всегда образуют английское слово. Настоящие слова состоят из слогов, объединенных согласно строгим правилам. Это верно на всех уровнях: предложения – это правильные сочетания слов, слова – это правильные сочетания слогов, а слоги – это правильные сочетания фонем. Комбинации эти многочисленны (человек выбирает из нескольких десятков или сотен элементов), но в конечном счете ограничены (допускаются только определенные комбинации). Фактически овладение языком – это обнаружение параметров, управляющих возможными комбинациями на всех уровнях.

Вкратце, человеческий мозг разбивает задачу научения на подзадачи, создавая иерархическую, многоуровневую модель. Особенно это очевидно в случае языка, включающего несколько уровней, или ярусов, – от элементарных звуков до целых предложений и даже полноценных бесед. Тот же принцип иерархической декомпозиции реализован во всех сенсорных системах. Некоторые участки мозга улавливают низкоуровневые паттерны: они видят мир сквозь крошечное пространственно-временное окно и анализируют мельчайшие закономерности. Например, в первичной зрительной коре каждый нейрон анализирует лишь очень небольшую область сетчатки. Он смотрит на мир через маленькое отверстие и, следовательно, обнаруживает только низкоуровневые закономерности – например, наличие движущейся наклонной линии. Миллионы нейронов выполняют одну и ту же работу в разных точках сетчатки; их выходы становятся входами следующего уровня, который обнаруживает «закономерности в закономерностях» и так далее. На каждом уровне область анализа расширяется: мозг ищет более масштабные закономерности как во времени, так и в пространстве. Именно эта иерархия позволяет нам обнаруживать сложные объекты или понятия: линию, палец, кисть, руку, человеческое тело… Нет, подождите, вообще-то тела два! Два человека стоят лицом друг к другу и пожимают руки… Да это же первая встреча Трампа и Макрона!

Научение – это минимизация ошибок

Вычислительные алгоритмы, которые мы называем «искусственными нейронными сетями», построены по принципу иерархической организации коры головного мозга. Подобно коре, они содержат последовательные слои, каждый из которых пытается обнаружить более сложные закономерности, чем предыдущий. Поскольку эти слои организуют поступающие данные на все более и более глубоких уровнях, такие сети часто называют «глубокими» (или «глубинными»). Каждый слой сам по себе способен обнаружить лишь простейшие элементы внешней реальности (в таких случаях математики говорят о линейном разделении, то есть каждый нейрон может разделить имеющиеся данные только на две категории, А и Б, проведя через них прямую линию). Тем не менее, если собрать множество таких слоев, можно получить чрезвычайно мощное обучаемое устройство, способное обнаруживать сложные структуры и приспосабливаться к самым разнообразным задачам. Современные искусственные нейронные сети, использующие преимущества новейших компьютерных микросхем, относятся к глубоким в том смысле, что содержат десятки последовательных слоев. Чем дальше от входа находится слой, тем выше его «проницательность» и способность идентифицировать абстрактные свойства.

Возьмем алгоритм LeNet, созданный французским пионером искусственных нейросетей Яном Лекуном (см. цветную иллюстрацию 2)6. Уже в 1990-х годах эта сеть добилась замечательных результатов в распознавании рукописных знаков. Многие годы канадская почта использовала ее для автоматической обработки почтовых индексов. Как она работает? На входе алгоритм получает изображение символа в виде пикселей, а на выходе предлагает одну из возможных интерпретаций десяти цифр или двадцати шести букв. Искусственная сеть состоит из иерархии простых процессоров, которые немного напоминают нейроны и образуют последовательные слои. Первые слои подключены непосредственно к изображению: в них применяются простые фильтры, распознающие линии и фрагменты кривых. Процессоры высоких уровней содержат более мощные и сложные фильтры и могут научиться распознавать крупные части изображений: изгиб цифры 2, замкнутую петлю буквы O, параллельные линии буквы Z. Искусственные нейроны выходного слоя реагируют на символ независимо от его положения, шрифта или регистра. Все эти свойства не навязаны программистом: они вытекают из миллионов связей, которые соединяют процессоры. Эти связи, однажды отрегулированные автоматизированным алгоритмом, определяют фильтр, который каждый нейрон применяет к поступающим сигналам; именно эти настройки объясняют, почему один нейрон реагирует на цифру 2, а другой – на цифру 3.

Но как же настраиваются эти миллионы связей? Точно так же, как наш мозг, когда мы надеваем призматические очки! Всякий раз, когда сеть дает предварительный ответ, ей сообщают, правильный он или нет. Если ответ неправильный, сеть корректирует соответствующие параметры, дабы избежать ошибки в следующий раз. Каждый неправильный ответ несет в себе ценную информацию. Как и в случае с призматическими очками (слишком большое смещение вправо или влево), характер ошибки подсказывает системе, что именно нужно было сделать, чтобы решить задачу правильно. Вернувшись к источнику ошибки, машина определяет оптимальные параметры, которые впредь позволят ее избежать.

Вернемся к охотнику, которому нужно отрегулировать оптический прицел своего ружья. Процедура обучения элементарна. Охотник стреляет и обнаруживает, что взял на пять сантиметров правее. Теперь он располагает важной информацией как об амплитуде (пять сантиметров), так и о характере ошибки (смещение вправо). Эти сведения дают ему возможность скорректировать следующий выстрел. Если охотник умный, он быстро сообразит, как исправить ситуацию: если пуля отклонилась вправо, необходимо сдвинуть прицел чуть влево. А если он не настолько проницателен, он может выбрать другую мишень и проверить, что произойдет, если прицелиться правее. Таким образом, путем проб и ошибок охотник рано или поздно обнаружит, какие именно манипуляции с прицелом уменьшают отклонение пули от намеченной цели.

Меняя положение прицела, наш храбрый охотник применяет алгоритм научения, хотя сам этого не осознает. Он имплицитно вычисляет то, что математики называют «производной» системы, или ее градиентом, и использует «метод градиентного спуска». Иными словами, охотник учится смещать видоискатель ружья в направлении, уменьшающем вероятность ошибки.

Несмотря на миллионы входов, выходов и регулируемых параметров, большинство искусственных нейросетей, используемых в современном искусственном интеллекте, действуют точно так же, как наш охотник: они анализируют свои ошибки и на их основе корректируют свое внутреннее состояние в направлении, которое должно эти ошибки уменьшить. Во многих случаях такое обучение строго контролируется. Мы сообщаем сети, какой именно ответ она должна была выдать на выходе («Это 1, а не 7»), и точно знаем, в каком направлении необходимо корректировать параметры, если они привели к ошибке (математические вычисления позволяют определить, какие именно связи следует модифицировать, если в ответ на изображение цифры 1 сеть слишком часто дает на выходе 7). На языке машинного обучения это называется «обучением с учителем» (поскольку некто знает правильный ответ, который должна дать система) и «обратным распространением ошибки» (поскольку сигналы об ошибке отправляются обратно в сеть для изменения ее параметров). Процедура проста: я пробую ответить, мне сообщают правильный ответ, я определяю свою ошибку и корректирую параметры, чтобы впредь этой ошибки не совершать. На каждом этапе я делаю лишь небольшие поправки в нужном направлении. Вот почему такое обучение может протекать крайне медленно: в ходе овладения сложным видом деятельности вроде игры в Tetris данный цикл необходимо повторить тысячи, миллионы, даже миллиарды раз. Это и неудивительно: в пространстве с множеством регулируемых параметров поиски оптимальных настроек для каждой гайки и болта могут занять некоторое время.

Данный принцип постепенной коррекции ошибки был реализован уже в самых первых искусственных нейросетях, созданных в 1980-х годах. Достижения в области вычислительной техники позволили распространить эту идею на гигантские нейронные сети, включающие сотни миллионов регулируемых соединений. Эти глубокие нейросети состоят из последовательностей этапов, каждый из которых адаптируется к текущей задаче. Например, на цветной иллюстрации 4 представлена система GoogLeNet на основе архитектуры LeNet. Последняя была предложена Яном Лекуном и выиграла один из самых престижных международных конкурсов по распознаванию образов. Анализируя миллиарды изображений, система научилась распределять их на тысячи различных категорий: лица, пейзажи, лодки, автомобили, собаки, насекомые, цветы, дорожные знаки и так далее. Каждый уровень ее иерархии настроен на некий важный аспект реальности: например, нейроны низших уровней избирательно реагируют на линии и текстуры. Чем выше уровень, тем больше нейронов учится реагировать на сложные признаки: геометрические фигуры (круги, кривые, звезды), части объектов (карман брюк, ручку автомобильной двери, пару глаз) и даже целые объекты (здания, лица, пауков)7.

Стараясь минимизировать ошибки, алгоритм градиентного спуска обнаружил, что эти формы лучше всего подходят для классификации образов. Однако, если бы та же самая сеть получала на входе отрывки из книг или нотные листы, она бы настроилась иначе и научилась распознавать буквы, ноты или любые другие фигуры, распространенные в новой среде. Например, на цветной иллюстрации 3 показано, как сеть такого типа самоорганизуется для распознавания тысяч рукописных цифр8. На самом низком уровне данные смешаны: одни изображения внешне похожи, но представляют собой разные цифры (скажем, 3 и 8); другие, наоборот, выглядят по-разному, но в действительности обозначают одно и то же (цифру 8, например, каждый пишет по-своему – у кого-то верхний контур замкнут, у кого-то не замкнут и т.д.). На каждом этапе степень абстракции возрастает, пока все варианты одного и того же знака не будут сгруппированы вместе. Посредством процедуры сокращения ошибок искусственная сеть обнаруживает иерархию признаков, наиболее важных для распознавания рукописных цифр. Примечательно, что само по себе исправление ошибок позволяет обнаружить целый ряд подсказок, облегчающих решение поставленной задачи.

Концепция обучения путем обратного распространения ошибки лежит в основе многих современных компьютерных приложений. Это рабочая лошадка, благодаря которой смартфон умеет распознавать ваш голос, а умный автомобиль – «видеть» пешеходов и дорожные знаки. Весьма вероятно, что наш мозг тоже использует ту или иную ее версию. Впрочем, метод обратного распространения ошибки может принимать разные формы. За последние тридцать лет в области искусственного интеллекта достигнут невероятный прогресс; исследователи обнаружили множество приемов, облегчающих обучение. Ниже мы рассмотрим их более подробно – оказывается, они многое могут рассказать о нас самих и о том, как мы учимся.

Научение – это исследование пространства возможностей

Одна из проблем, связанных с описанной выше процедурой коррекции ошибок, заключается в том, что система может зациклиться на неоптимальных параметрах. Представьте мяч для гольфа, который всегда катится под уклон. Допустим, прямо сейчас он движется по склону холма. Если в какой-то момент он попадет в ямку или в углубление, то уже никогда не достигнет его подножия – низшей точки ландшафта, абсолютного оптимума. Нечто подобное может случиться и с алгоритмом градиентного спуска, который иногда застревает в точке «локального минимума». «Локальный минимум» – своеобразный колодец в пространстве параметров, ловушка, из которой нельзя выбраться. Как только это происходит, обучение останавливается, ибо все последующие изменения кажутся контрпродуктивными: любое из них лишь увеличивает частоту ошибок. Система чувствует, что научилась всему, чему могла, и слепо игнорирует настройки высшего уровня, хотя те могут находиться всего в нескольких шагах в пространстве параметров. Алгоритм градиентного спуска не «видит» их, ибо отказывается подняться наверх, чтобы опуститься еще ниже. Близорукий, он отваживается отойти только на небольшое расстояние от начальной точки, а потому может не заметить лучшие, но удаленные конфигурации.

Это кажется вам слишком абстрактным? Представим конкретную ситуацию: вы идете за покупками на рынок, где хотите купить продукты подешевле. Вы минуете первого продавца (цены у него явно завышены), обходите второго (у него слишком дорого) и, наконец, останавливаетесь около третьего. У третьего продавца товар гораздо дешевле, чем у двух предыдущих. Но кто поручится, что в конце прохода или, возможно, в соседнем городе цены не окажутся еще ниже? Иначе говоря, понятия «лучшая местная цена» и «глобальный минимум» не всегда означают одно и то же.

На такой случай у специалистов в области вычислительной техники припасен целый арсенал хитроумных приемов. Большинство состоит в том, чтобы ввести в поиск лучших параметров элемент случайности. Идея проста: вместо того чтобы двигаться на рынке по одному-единственному проходу, разумнее выбрать более хаотичный маршрут; вместо того чтобы позволить мячу для гольфа спокойно катиться вниз по склону, следует придать ему ускорение, тем самым уменьшив вероятность того, что он застрянет в ямке. Иногда алгоритмы стохастического поиска пробуют удаленные и частично случайные настройки: если лучшее решение находится в пределах досягаемости, шансы рано или поздно найти его достаточно велики. На практике ввести некоторую степень случайности можно самыми разными способами: задавая или обновляя параметры хаотичным образом, внося разнообразие в порядок примеров, добавляя шум к данным или используя только случайный набор связей. Все это повышает надежность обучения.

Некоторые алгоритмы машинного обучения черпают вдохновение из дарвиновского алгоритма, который управляет эволюцией видов: в ходе оптимизации параметров они вводят мутации ранее обнаруженных решений. Как и в биологии, скорость этих мутаций должна тщательно контролироваться; это позволяет машине исследовать новые решения, не тратя слишком много времени на разного рода «авантюры».

В основе другого алгоритма лежит отжиг – один из видов термической обработки, которым издавна пользовались кузнецы и ремесленники для оптимизации свойств металла. Метод отжига позволяет получить исключительно прочный клинок и состоит в многократном нагревании сплава при постепенно понижающихся температурах. Это повышает вероятность того, что атомы займут правильное положение. Недавно суть этого процесса была успешно перенесена в информатику: алгоритм имитации отжига вносит случайные изменения в параметры при постепенном понижении виртуальной «температуры». Вероятность случайного события высока в начале, а затем начинает снижаться, пока система не достигает оптимальной конфигурации.

Ученые обнаружили, что все эти приемы чрезвычайно эффективны – а значит, не исключено, что в ходе эволюции некоторые из них были «встроены» в наш мозг. Случайный поиск, стохастическое любопытство и зашумленные нейроны – все это играет важную роль в научении у Homo sapiens. И в игре «камень, ножницы, бумага», и в джазовой импровизации, и в анализе возможных решений математической задачи случайность есть один из важнейших компонентов решения. Как мы увидим ниже, всякий раз, когда дети переходят в режим обучения – то есть когда они играют, – они исследуют десятки возможностей, причем зачастую делают это беспорядочно, наобум. Ночью их мозг продолжает жонглировать идеями, пока не натыкается на ту, которая лучше всего объясняет пережитое в течение дня. В третьей части этой книги мы еще вернемся к полуслучайному алгоритму, который отвечает за ненасытное любопытство детей – и тех счастливых взрослых, которым удалось сохранить ум ребенка.

Научение – это оптимизация функции вознаграждения

Помните систему LeNet Лекуна, которая распознает формы цифр? Чтобы этот тип искусственной нейросети мог учиться, его необходимо обеспечить правильными ответами. Иными словами, сеть должна знать, какой из десяти возможных цифр соответствует каждое введенное изображение. Для исправления ошибок система должна вычислить разницу между своим и правильным ответами. Данная процедура получила название «обучения с учителем»: некто вне системы знает решение и пытается научить машину. Метод достаточно эффективный, однако следует отметить, что ситуация, в которой правильный ответ известен заранее, – большая редкость. Когда дети учатся ходить, никто не говорит им, какие именно мышцы нужно сокращать; их просто поощряют пробовать снова и снова, пока они не перестают падать. Другими словами, малыши учатся исключительно на основе оценки результата: я упал или же мне удалось наконец пересечь комнату.

С той же проблемой «обучения без учителя» сталкивается и искусственный интеллект. Например, когда машина учится играть в видеоигру, перед ней ставят одну-единственную задачу – набрать максимальное количество очков. Никто не говорит ей, какие именно действия необходимо для этого предпринять. Как же быть? Как машине самостоятельно найти эффективный и быстрый способ достичь поставленной цели?

«Очень просто», – сказали ученые и придумали так называемое «обучение с подкреплением», в рамках которого мы не сообщаем системе никаких подробностей о том, что она должна делать (этого никто не знает!), но определяем «награду» – например, в виде количества очков9. Что еще хуже, машина может узнавать это количество с задержкой, уже после совершения тех или иных действий. Обучение на основе отложенного подкрепления – принцип, на базе которого DeepMind, дочерняя компания Google, построила машину, способную играть в шахматы, шашки и го. В конце партии система получает один-единственный сигнал, свидетельствующий о выигрыше или проигрыше. Во время самой игры обратная связь отсутствует – засчитывается лишь окончательная победа над соперником. Как же тогда машине определить, что нужно делать? И, если уж на то пошло, как она может оценить свои действия, если известен только исход игры?

Ученые нашли хитрое решение. Они программируют машину так, чтобы она делала сразу две вещи: действовала и одновременно оценивала собственный прогресс. Одна половина системы, так называемый «критик», учится предсказывать конечный результат. Цель этой сети искусственных нейронов заключается в том, чтобы как можно точнее оценить состояние игры и предсказать ее исход: я выигрываю или проигрываю? Благодаря «внутреннему критику» система способна оценивать свои действия в любой момент времени, а не только в конце. На основании этой оценки другая половина машины, «актор» (собственно, «исполнитель»), корректирует свое поведение: пожалуй, мне не стоит делать то-то и то-то – «критик» считает, что это увеличит мои шансы на проигрыш.

Испытание за испытанием «актор» и «критик» работают в тандеме: один учится выбирать наиболее эффективные действия, другой – как можно точнее оценивать их последствия. Спустя некоторое время – в отличие от того парня из анекдота, который падает с небоскреба и на лету восклицает: «Пока все хорошо!» – сеть «актор – критик» обретает невероятную прозорливость: способность предсказывать, какие партии скорее всего будут выиграны, а какие неизбежно закончатся катастрофой.

Комбинация «актор – критик» – одна из самых эффективных стратегий современного искусственного интеллекта. При поддержке иерархической нейронной сети она буквально творит чудеса. Еще в 1980-х годах эта система выиграла чемпионат мира по нардам, а недавно позволила DeepMind создать многофункциональную нейронную сеть, способную играть в разного рода видеоигры вроде Super Mario или Tetris10. Достаточно задать пиксели изображения в качестве входных данных, возможные действия в качестве выходных данных и очки в качестве функции вознаграждения. Всему остальному машина научится сама. Играя в Tetris, она обнаружит, что на экране отображаются разные фигуры, что падающая фигура важнее остальных, что те или иные действия могут изменить ее ориентацию и положение в пространстве и так далее, – а затем выработает оптимальную тактику. В Super Mario изменения входных данных и вознаграждений учат машину обращать внимание на совершенно иные параметры: какие пиксели образуют тело Марио, как он движется, где находятся враги, как выглядят стены, двери, ловушки, бонусы… и как себя вести рядом с ними. Регулируя свои настройки – то есть миллионы связей, соединяющих слои, – сеть может адаптироваться ко всем типам игр и научиться распознавать формы Tetris, Pac-Man или Sonic the Hedgehog.

Но зачем учить машину играть в видеоигры? Два года спустя инженеры DeepMind использовали соответствующие наработки для решения жизненно важной экономической задачи: как Google оптимизировать управление своими компьютерными серверами? Искусственная нейронная сеть осталась прежней; изменились лишь входные данные (дата, время, погода, международные события, поисковые запросы, количество людей, подключенных к каждому серверу, и т.д.), выходные данные (подключение или отключение того или иного сервера на разных континентах) и функция вознаграждения (экономия энергии). Результат – мгновенное снижение энергопотребления. В итоге компания Google сократила расходы на электроэнергию на 40 процентов и сэкономила десятки миллионов долларов – а ведь оптимизировать эти самые серверы пытались сотни специалистов! Искусственный интеллект, в самом деле, достиг таких высот, что способен перевернуть вверх дном целые отрасли.

Кстати, DeepMind совершала и другие подвиги. Как всем, наверное, известно, ее программе AlphaGo удалось победить Ли Седоля – восемнадцатикратного чемпиона мира по игре в го, до недавнего времени считавшейся Эверестом искусственного интеллекта11. В го играют на огромной квадратной доске – гобане – размером 19х19 клеток (всего 361 клетка) черными и белыми камнями. Количество комбинаций настолько велико, что систематически проанализировать все будущие ходы, доступные каждому игроку, невозможно. И все же обучение с подкреплением позволило программе AlphaGo распознавать благоприятные и неблагоприятные комбинации лучше, чем любому живому игроку. Как ей это удалось? Разработчики, в частности, заставляли систему играть против самой себя, подобно тому как тренируется шахматист, одновременно играя и белыми, и черными. Идея проста: в конце каждой партии победившая программа усиливает свою тактику, а проигравшая ослабляет, при этом обе учатся более эффективно оценивать свои ходы.

Мы с удовольствием посмеиваемся над Мюнхгаузеном, который в своих легендарных «Приключениях» пытается вытащить себя из болота за волосы. В искусственном интеллекте, однако, безумный метод эксцентричного барона породил довольно сложную стратегию «самонастройки», или бутстрэппинга: шаг за шагом, начиная с бессмысленной архитектуры, лишенной всяких знаний, искусственная нейронная сеть становится чемпионом мира, просто играя сама с собой.

Ускорение обучения за счет обеспечения сотрудничества двух сетей – или, наоборот, их конкуренции – важный прорыв в области искусственного интеллекта, который до сих пор приносит щедрые плоды. Например, одна из последних идей, так называемое «состязательное обучение»12, предполагает наличие двух противоборствующих систем: скажем, одна сеть учится распознавать картины Ван Гога, а вторая – их подделывать. Первая система получает бонус всякий раз, когда успешно идентифицирует подлинник, в то время как вторая – всякий раз, когда ей удается обмануть первую. Данный алгоритм обучения дает не один, а сразу два искусственных интеллекта: въедливого специалиста по Ван Гогу, обожающего выискивать мелкие детали, которые могут подтвердить подлинность картины, и гениального фальсификатора, чьи полотна способны ввести в заблуждение даже лучших экспертов. Такого рода обучение можно сравнить с подготовкой к президентским дебатам: многие кандидаты нанимают специальных людей, которые имитируют речь и повторяют лучшие реплики их оппонентов.

Можно ли применить такой подход к единому человеческому мозгу? Наши два полушария и многочисленные подкорковые ядра также содержат целую коллекцию экспертов, которые не только соперничают, но и сотрудничают, координируя и оценивая действия друг друга. Некоторые области нашего мозга учатся моделировать то, что делают другие; они позволяют нам «предвидеть» будущее и на удивление реалистично представить результаты наших поступков. Благодаря памяти и воображению мы легко можем увидеть море, в котором купались прошлым летом, или дверную ручку, за которую хватаемся в темноте. Некоторые области учатся критиковать: они постоянно оценивают наши способности и прогнозируют вознаграждение или наказание, которые мы можем получить. Именно эти участки подталкивают нас к действию или бездействию. Мы также увидим, что метапознание – способность к познанию самого себя, самооценке, мысленному моделированию того, что произойдет, поступи мы так или иначе, – играет фундаментальную роль в человеческом научении. Представления, которые мы формируем о себе, помогают нам добиваться успеха или в некоторых случаях вовлекают нас в замкнутый круг неудач. Таким образом, вполне уместно рассматривать мозг как совокупность сотрудничающих и конкурирующих экспертов.

Научение – это ограничение области поиска

Перед современным искусственным интеллектом по-прежнему стоит серьезная проблема: чем больше параметров имеет внутренняя модель, тем сложнее найти оптимальный способ ее настройки. Поскольку в современных искусственных нейросетях пространство поиска огромно, ученые вынуждены иметь дело с мощным комбинаторным взрывом: на каждом этапе доступны миллионы вариантов, а их комбинации настолько многочисленны, что исследовать их все просто невозможно. В результате обучение иногда протекает крайне медленно: требуются миллиарды попыток, чтобы заставить систему выбрать верное направление в океане возможностей. Любые исходные данные – даже самые подробные – становятся скудными по сравнению с гигантскими размерами имеющегося пространства. Данная проблема получила название «проклятие размерности»; проще говоря, обучение – сложная штука, если у вас есть миллионы потенциальных рычагов, на которые можно давить.

Громадное количество параметров, которыми располагают искусственные нейронные сети, ведет ко второму препятствию – «переобучению», или «переподгонке»: у системы так много степеней свободы, что ей легче запомнить детали каждого примера, чем определить общее правило, которое их объясняет.

Как метко заметил основатель современных информационных технологий Джон фон Нейман (1903–1957), «с четырьмя параметрами я могу описать слона, а с пятью – заставить его махать хоботом». Ученый имел в виду, что наличие чересчур большого количества свободных параметров может обернуться во вред: слишком велика опасность «переподгонки» данных. Хотя машина запоминает каждую деталь, это не означает, что она «поняла» нечто важное. Вы можете составить описание пахидермов, не имея никаких глубоких познаний о слонах как о виде. Наличие слишком большого количества свободных параметров препятствует абстракции. Несмотря на то что система учится легко, она не способна выполнять обобщение, то есть применять полученные знания в новых ситуациях. Тем не менее способность к обобщению является ключом к любому обучению. Какой смысл в машине, способной распознать картинку, которую она уже видела, или выиграть партию в го, в которую она уже играла? Очевидно, что конечная цель заключается в том, чтобы распознать любое изображение или выиграть у любого игрока в любых обстоятельствах – как знакомых, так и незнакомых.

Разумеется, ученые уже придумали несколько решений этой проблемы. Одним из наиболее эффективных методов, которые могут как ускорить процесс обучения, так и улучшить способность к обобщению, является упрощение модели. Когда число параметров, подлежащих корректировке, сведено к минимуму, система вынуждена искать более общее решение. Именно эта идея подтолкнула Лекуна к изобретению сверточных нейронных сетей – искусственного обучаемого устройства, которое стало эталоном в области распознавания образов13. Идея проста: чтобы распознать элементы на картинке, достаточно проделать более или менее одинаковые действия везде. Например, на фотографиях лица могут оказаться в любом месте. Чтобы распознать их, необходимо применить один и тот же алгоритм к каждой части изображения (искать овал, пару глаз и так далее). Никакой необходимости в отдельных моделях для каждой точки сетчатки нет: то, что усвоено в одном месте, может быть повторно использовано в любом другом.

В процессе обучения сверточные нейронные сети Лекуна применяют все, что им удается узнать в одной области, ко всей сети, на всех уровнях. Посему им предстоит усвоить гораздо меньшее количество параметров: по большому счету система должна отрегулировать один-единственный фильтр, который она будет применять везде, а не множество различных соединений для каждого фрагмента изображения. Этот простой трюк значительно улучшает производительность, особенно обобщение. Столкнувшись с новым изображением, алгоритм может использовать весь свой обширный опыт, полученный в результате анализа каждой точки каждой фотографии, которую он когда-либо видел. Это существенно ускоряет процесс обучения: машина исследует только подмножество моделей зрения. До начала обучения она уже знает о мире кое-что важное, а именно – что один и тот же объект может появиться в любом месте изображения.

Этот же прием работает и во многих других областях. Например, чтобы распознать речь, необходимо абстрагироваться от специфики голоса говорящего. Для этого искусственную нейронную сеть заставляют использовать одни и те же соединения в разных частотных диапазонах независимо от того, высокий голос или низкий. За счет уменьшения количества параметров, подлежащих корректировке, удается не только увеличить скорость, но и улучшить способность к обобщению. Собственно, именно благодаря этому ваш смартфон может реагировать на ваш голос.

Научение – это проецирование априорных гипотез

Стратегия Яна Лекуна – хороший пример гораздо более общего явления: использования знаний, присущих системе изначально. Сверточные нейросети учатся лучше и быстрее других типов искусственных нейронных сетей, потому что они не учатся всему. В самой их архитектуре заключена основополагающая гипотеза: то, что я узнаю в одном месте, можно обобщить и применить в других местах.

Главная проблема распознавания образов – это инвариантность: я должен распознать объект вне зависимости от его положения и размера, даже если он движется вправо или влево, ко мне или от меня. Это не только трудная задача, но и мощный ограничитель: логично предположить, что одни и те же подсказки помогут мне узнать лицо в любой точке пространства. Задействуя повсюду один и тот же алгоритм, сверточные сети эффективно используют это ограничение: они интегрируют его в саму свою структуру. Изначально, до любого обучения, система уже «знает» это ключевое свойство зрительного мира. Она не учится инвариантности, а принимает ее априори и использует для сужения учебного пространства – умно, не правда ли?

Мораль в том, что природу (наследственность) и среду не следует противопоставлять друг другу. Чистого научения в отсутствие каких-либо априорных ограничителей не существует. Любой алгоритм научения так или иначе содержит некий набор предположений об изучаемой области. Вместо того чтобы пытаться научиться всему «с нуля», гораздо эффективнее опираться на предварительные допущения, которые четко очерчивают базовые законы исследуемой области и интегрируют эти законы в саму архитектуру системы. Чем больше количество таких допущений, тем быстрее происходит научение (при условии, конечно, что эти допущения верны!). Это справедливо всегда. Например, было бы ошибочно полагать, что программа AlphaGo Zero, которая тренировалась играть в го сама с собой, возникла на пустом месте: ее первоначальное представление включало, среди прочего, знание топографии и симметрий игры, что позволило сократить пространство поиска в восемь раз.

Наш мозг тоже содержит множество допущений, причем самого разного толка. В одной из последующих глав мы убедимся, что при рождении мозг ребенка уже организован и весьма неплохо информирован. Дети имплицитно знают, что мир состоит из вещей, которые движутся, если их толкнуть, но никогда не проникают друг в друга (твердые предметы), а также из гораздо более странных сущностей, которые говорят и движутся сами по себе (люди). Специально изучать эти законы нет никакой необходимости: поскольку они верны везде, где живет человек, наш геном заранее встраивает их в мозг, тем самым существенно ускоряя процесс научения. Младенцам вовсе не приходится познавать мир «с нуля»: поскольку их мозг с самого начала изобилует врожденными ограничителями, все, что остается, – это усвоить определенные параметры, которые меняются непредсказуемо (форма лица, цвет глаз, тон голоса, индивидуальные вкусы окружающих людей и так далее).

С другой стороны, если мозг ребенка знает разницу между людьми и неодушевленными объектами, то это потому, что в определенном смысле он ей научился – не в первые дни своей жизни, но в ходе миллионов лет эволюции. Дарвиновский естественный отбор, по сути, представляет собой типичный алгоритм обучения – невероятно мощную программу, которая работала сотни миллионов лет на миллиардах обучающихся машин (под «машинами» я подразумеваю всех существ, когда-либо живших на Земле)14. Мы – наследники невероятной, бесконечной мудрости. Путем дарвиновских проб и ошибок наш геном впитал знания всех предшествующих поколений. Эти врожденные знания совсем иного типа, нежели конкретные факты, которые мы узнаем в течение жизни: они носят гораздо более абстрактный характер, ибо «программируют» наши нейронные сети уважать фундаментальные законы природы.

Вкратце, во время беременности наши гены закладывают архитектуру мозга, которая направляет и ускоряет последующее научение, ограничивая размер исследуемого пространства. На языке информатики можно сказать, что гены задают «гиперпараметры» мозга – высокоуровневые переменные, определяющие количество слоев, типы нейронов, общую форму их взаимосвязей, дублирование в сетчатке и так далее. Поскольку многие из этих переменных хранятся в нашем геноме, учиться им не нужно: наш вид усвоил их в ходе эволюционного развития.

Вывод: наш мозг – не просто пассивный приемник сенсорных импульсов. С самого начала он обладает набором абстрактных гипотез – знаниями, накопленными в результате дарвиновской эволюции и проецируемыми на внешний мир. Хотя не все ученые согласны с данной точкой зрения, я считаю ее ключевой: наивная эмпирическая философия, лежащая в основе многих современных искусственных нейросетей, ошибочна. Едва ли при рождении наши нейронные сети абсолютно дезорганизованы и лишены каких-либо знаний вообще. Такого просто не может быть. Научение – и у человека, и у машины – всегда начинается с некоего набора априорных гипотез. Эти гипотезы система проецирует на поступающие данные, а затем выбирает те, которые лучше всего согласуются с текущими условиями. Как пишет Жан-Пьер Шанжё в своей книге Neuronal Man (букв. «Человек нейронный», 1985), «учиться – значит исключать».

Глава 2
Почему наш мозг учится лучше, чем существующие машины

Глядя на последние достижения в сфере искусственного интеллекта, можно подумать, будто мы наконец-то сообразили, как скопировать и даже превзойти человеческое научение и интеллект. Согласно некоторым самопровозглашенным пророкам, машины вот-вот поработят нас. Ничто не может быть дальше от истины. На самом деле, большинство когнитивистов, несмотря на значительный прогресс в области искусственных нейронных сетей, прекрасно понимают, что возможности этих машин крайне ограниченны. По правде говоря, почти все искусственные нейронные сети осуществляют только те операции, которые наш мозг выполняет бессознательно, за несколько десятых долей секунды, – прежде всего это восприятие образа, его распознавание, классификация и установление значения15. Однако в отличие от машин наш мозг умеет не только это, он способен изучать образ сознательно, тщательно, шаг за шагом, в течение нескольких секунд. Он формулирует символические представления (репрезентации) и эксплицитные теории мира, которыми мы можем поделиться с окружающими с помощью речи.

Операции такого рода – медленные, разумные, символические – остаются исключительной привилегией нашего вида (пока). Современные алгоритмы машинного обучения их практически не воспроизводят. Несмотря на активные исследования в области машинного перевода и логики, искусственные нейронные сети часто обвиняют в том, что они пытаются изучить все на одном уровне, словно решение всех задач сводится к автоматической классификации. Для человека с молотком все похоже на гвоздь! Но наш мозг гораздо гибче. Получив информацию, он быстро расставляет приоритеты и по возможности выводит общие, логические, эксплицитные принципы.

Чего не хватает искусственному интеллекту?

Ответив на этот вопрос, мы сможем выявить уникальные характеристики человеческой способности к научению. Вот краткий и, вероятно, неполный список функций, которыми обладает даже младенец, но которые отсутствуют в большинстве современных искусственных систем.


Усвоение абстрактных понятий. Большинство искусственных нейросетей воспроизводит только самые первые стадии обработки информации – анализ изображения, который зрительные области нашего мозга осуществляют менее чем за пятую долю секунды. Алгоритмы глубокого обучения далеко не так глубоки, как утверждают некоторые. По словам Йошуа Бенжио, одного из изобретателей алгоритмов глубокого обучения, такие системы в основном схватывают поверхностные, статистические закономерности в данных, а не абстрактные понятия высокого уровня16. Например, чтобы распознать объект, алгоритмы глубокого обучения часто полагаются на те или иные очевидные особенности изображения – скажем, определенный цвет или форму. Измените эти детали – и производительность алгоритма резко упадет: современные сверточные нейронные сети не способны распознать, что составляет сущность объекта. Они не понимают, что стул остается стулом независимо от того, сколько у него ножек (четыре или только одна) или из чего он сделан (из стекла, металла или пластика). Тенденция обращать внимание на поверхностные признаки делает эти сети восприимчивыми к ошибкам. Написано множество статей о том, как обмануть нейронную сеть: возьмите банан, измените несколько пикселей или прицепите к нему определенную наклейку. Вуаля! – нейронная сеть подумает, что это тостер!

Разумеется, человек, которому показали изображение на долю секунды, иногда совершает те же промахи, что и машина, и может принять собаку за кошку17. Однако, если ему дать чуть больше времени, он тут же исправит ошибку. В отличие от компьютера мы обладаем способностью подвергнуть сомнению наши убеждения и переориентировать внимание на те аспекты образа, которые не согласуются с первым впечатлением. Этот второй анализ, сознательный и разумный, задействует наши общие способности к рассуждению и абстракции. Искусственные нейронные сети упускают из виду одну очень важную вещь: человеческое научение – это не просто настройка фильтра распознавания образов, это построение абстрактной модели мира. Например, когда мы учимся читать, мы приобретаем абстрактное представление о каждой букве алфавита, которое позволяет не только распознавать ее во всех возможных вариантах, но и генерировать новые:



Когнитивист Дуглас Хофштадтер однажды сказал, что распознать букву А – настоящая проблема для искусственного интеллекта! Данное язвительное замечание, несомненно, является сильным преувеличением, но доля истины в нем есть: даже в таком тривиальном контексте люди умело справляются с абстракциями. Этот наш дар лежит в основе одного забавного явления повседневной жизни капчи – коротенькой последовательности букв, которую просят распознать некоторые сайты, дабы убедиться, что вы человек, а не машина. Многие годы капчи успешно противостояли машинам. Но компьютерная наука развивается быстро: в 2017 году искусственной системе удалось распознать капчу почти на человеческом уровне18. Неудивительно, что этот алгоритм имитирует человеческий мозг сразу в нескольких отношениях. Совершая истинный tour de force[11], он умудряется извлечь скелет каждой буквы, внутреннюю сущность буквы А, после чего использует все ресурсы статистического мышления, чтобы проверить, применима ли эта абстрактная идея к имеющемуся образу. И все же этот компьютерный алгоритм, каким бы сложным он ни был, работает только с капчами. Наш мозг применяет способность распознавать абстракции во всех аспектах повседневной жизни.


Эффективная обработка данных. Все согласятся с тем, что современные нейронные сети обучаются слишком медленно: им требуются тысячи, миллионы, даже миллиарды элементов данных, чтобы сформировать представление об определенной области. У нас даже есть экспериментальные доказательства этой медлительности. Например, чтобы научиться приемлемо играть на консоли Atari, нейронной сети, разработанной DeepMind, необходимо минимум 900 часов, а человеку – всего 2!19 Другой пример – овладение речью. По оценкам психолингвиста Эммануэля Дюпу, в большинстве французских семей дети слышат от 500 до 1000 часов речи в год; этого более чем достаточно для усвоения языка Декарта, даже с такими мудреностями, как soixante douze («семьдесят два») или s'il vous plaît («пожалуйста»). С другой стороны, в племени цимане, населяющем север боливийской Амазонки, дети слышат только 60 часов речи в год, но это отнюдь не мешает им отлично говорить на языке цимане. Для сравнения: лучшие современные компьютерные системы от Apple, Baidu и Google требуют в 20–1000 раз больше данных, чтобы достичь даже мизерной языковой компетенции. В плане научения эффективность человеческого мозга остается непревзойденной: машины способны поглощать огромное количество информации, зато мы способны обрабатывать ее более эффективно. Иными словами, из минимума данных люди умеют извлекать максимум.


Социальное научение. Человек – единственный вид, который добровольно делится информацией: мы многому учимся у других людей благодаря речи. Данная способность до сих пор остается вне досягаемости современных искусственных нейросетей. В искусственных моделях знания зашифрованы, рассеяны в значениях сотен миллионов синаптических весов. В этой скрытой, имплицитной форме их нельзя извлечь и избирательно передать другим. Мы, напротив, можем эксплицитно сообщить другим информацию самого высокого уровня – ту, которая достигает нашего сознания. Сознательное знание неразрывно связано с возможностью его вербального выражения: всякий раз, когда мы приходим к более или менее четкому пониманию некоего явления, ментальная формула находит отклик в нашем языке мышления, и мы можем сообщить о ней окружающим с помощью речи. Необычайная эффективность, с которой человек делится своими знаниями с другими, используя минимальное количество слов («Чтобы попасть на рынок, поверните направо, на маленькую улочку за церковью»), до сих пор беспрецедентна как для животного мира, так и для мира компьютеров.


Научение с одной попытки. Ярчайший пример такой эффективности – усвоение нового материала с первой попытки. Если я употреблю новый глагол, скажем, «курдячить»[12], хотя бы один раз, вы тоже сможете его использовать. Конечно, некоторые искусственные нейросети могут запомнить мою фразу. Но что машины пока не умеют делать хорошо, так это интегрировать новую информацию в существующую сеть знаний – а человеческому мозгу это отлично удается. Вы не только запоминаете новый глагол «курдячить», но и мгновенно понимаете, как его спрягать и вставлять в другие предложения: вы часто курдячите? я курдячил вчера, а они курдячат сегодня. Когда я говорю: «Давайте покурдячим завтра» – вы не просто узнаете новое слово, вы вставляете его в обширную систему символов и правил. Например, «курдячить» – личный глагол II спряжения (я курдячу, ты курдячишь, он курдячит и т.д.). Научиться – значит успешно внедрить новые знания в существующую сеть.


Систематичность и язык мышления. Грамматические правила – лишь один из примеров необычайного таланта нашего мозга: способности обнаруживать общие законы, лежащие в основе конкретных случаев. Будь то математика, язык, наука или музыка, человеческий мозг ухитряется извлекать из них абстрактные принципы, систематические правила, которые он может вновь применить в самых разных контекстах. Возьмем, к примеру, арифметику: наша способность складывать два числа носит очень общий характер – как только мы научились этой процедуре на малых числах, мы без труда можем применить ее к произвольно большим числам. Но главное – мы умеем делать обобщающие выводы. Многие дети в возрасте пяти-шести лет обнаруживают, что за каждым числом n следует число n + 1 и что последовательность целых чисел, следовательно, бесконечна – наибольшего числа просто не существует. Лично я до сих пор с трепетом вспоминаю момент, когда я это осознал – на самом деле, это была моя первая математическая теорема. Какие необыкновенные способности к абстракции! Каким образом нашему мозгу, состоящему из конечного числа нейронов, удается концептуализировать бесконечность?

Современным искусственным нейросетям недоступен даже такой простой абстрактный закон, как «за каждым числом следует другое число». Абсолютные истины – не их конек. Систематичность20, способность к обобщению на основе некоего символического правила, а не поверхностного сходства по-прежнему ускользает от большинства современных алгоритмов. Иронично, но так называемые алгоритмы глубокого обучения практически не приспособлены к глубокому анализу.

Наш мозг, напротив, превосходно умеет выводить формулы на своем собственном, ментальном языке. Например, он может выразить понятие бесконечного множества, ибо обладает внутренним языком, наделенным такими абстрактными функциями, как отрицание и квантификация (бесконечное = не конечное = за пределами любого числа). Американский философ Джерри Фодор (1935–2017) предложил теоретическое объяснение этой способности: он утверждал, что мы мыслим символами, которые комбинируются в соответствии с систематическими правилами особого «языка мышления»21. Возможности такого языка обусловлены его рекурсивной природой: каждый вновь созданный объект (скажем, понятие бесконечности) может быть немедленно использован в новых комбинациях, без ограничений. Сколько существует бесконечностей? Этот, казалось бы, абсурдный вопрос задал себе математик Георг Кантор (1845–1918) и сформулировал теорию трансфинитных чисел. Способность «бесконечно использовать конечный набор средств», согласно Вильгельму фон Гумбольдту (1767–1835), характеризует все человеческое мышление.

Некоторые искусственные модели пытаются имитировать усвоение абстрактных математических правил у детей, но для этого они должны овладеть совсем иной формой научения – той, которая опирается на уже существующий набор правил и базовых положений и предполагает быстрый выбор самых емких и правдоподобных из них22. С этой точки зрения научение становится похожим на программирование: оно состоит в выборе простейшей внутренней формулы среди всех доступных на языке мышления.

Современные нейронные сети по большей части не способны репрезентировать весь спектр абстрактных фраз, формул, правил и теорий, с помощью которых мозг Homo sapiens моделирует мир. Едва ли это случайно: в этом есть нечто сугубо человеческое, нечто такое, чего нет в мозге других видов животных и что современная нейробиология еще не успела изучить подробно – поистине уникальный признак нашего вида. По всей видимости, люди – единственные приматы, чей мозг репрезентирует наборы символов, которые комбинируются в соответствии со сложным древовидным синтаксисом23. В частности, сотрудники моей лаборатории доказали: услышав последовательность звуков – например, бип-бип-бип-буп, – человеческий мозг мгновенно строит теорию относительно лежащей в ее основе абстрактной структуры (три идентичных звука плюс один непохожий). Оказавшись в аналогичной ситуации, обезьяна обнаруживает последовательность из четырех звуков, понимает, что последний отличается, но, похоже, не интегрирует эти фрагментарные знания в единую формулу. Откуда нам это известно? Изучая мозговую деятельность обезьян, мы видим, как отдельные нейронные сети реагируют на количество и последовательности, но не наблюдаем интегрированного паттерна активности в области, отвечающей за речь у людей, так называемой зоне Брока24.

По аналогии с этим потребуются десятки тысяч попыток, прежде чем обезьяна поймет, как изменить порядок последовательности (с АБВГ на ГВБА), хотя четырехлетнему ребенку достаточно пяти25. Младенец, который родился всего несколько месяцев назад, уже кодирует внешний мир с помощью абстрактных и систематических правил – это способность, которой напрочь лишены не только классические искусственные нейросети, но и другие виды приматов.


Компоновка. Как только я научусь складывать два числа (к примеру), этот навык станет неотъемлемой частью моего репертуара талантов: иными словами, я немедленно смогу его применить для решения любых других задач. Я смогу использовать его как подпрограмму в десятках различных контекстов – скажем, чтобы оплатить счет в ресторане или проверить налоговую декларацию. Но главное – я смогу комбинировать его с другими приобретенными навыками: например, без труда взять некое число, прибавить к нему 2 и определить, что больше: новое число или 526.

Удивительно, но современные искусственные нейросети до сих пор не проявляют такой гибкости. Знание, которое они усвоили, остается изолированным в скрытых, недоступных связях, что препятствует его повторному использованию в других, более сложных задачах. В отличие от человека искусственные модели не умеют сочетать ранее приобретенные навыки, то есть рекомбинировать их для решения новых задач. Для современного искусственного интеллекта характерна чрезвычайно узкая специализация. Программа AlphaGo, которая может победить любого чемпиона по игре в го, – упрямый эксперт, неспособный обобщить свои таланты и применить их в другой, даже очень похожей игре (например, AlphaGo отлично умеет играть в го на стандартном гобане 19х19, но не на доске 15х15). В человеческом мозге, напротив, научение почти всегда означает преобразование знаний в эксплицитную форму, позволяющую их использовать повторно, рекомбинировать и объяснять другим. Здесь мы снова сталкиваемся с уникальным аспектом человеческого мозга, который тесно связан с речью и который, как оказалось, крайне трудно воспроизвести в машине. Еще в 1637 году эту проблему предвосхитил Декарт в своем фундаментальном труде «Рассуждения о методе»:

Но если бы сделать машины, которые имели бы сходство с нашим телом и подражали бы нашим действиям, насколько это мыслимо, то у нас все же было бы два верных средства узнать, что эта не настоящие люди. Во-первых, такая машина никогда не могла бы пользоваться словами или другими знаками, сочетая их так, как это делаем мы, чтобы сообщать другим свои мысли. Можно, конечно, представить себе, что машина сделана так, что произносит слова… Но никак нельзя себе представить, что она расположит слова различным образом, чтобы ответить на сказанное в ее присутствии, на что, однако, способны даже самые тупые люди. Во-вторых, хотя такая машина многое могла бы сделать так же хорошо и, возможно, лучше, чем мы, в другом она непременно оказалась бы несостоятельной, и обнаружилось бы, что она действует не сознательно, а лишь благодаря расположению своих органов. Ибо в то время как разум – универсальное орудие, могущее служить при самых разных обстоятельствах, органы машины нуждаются в особом расположении для каждого отдельного действия[13].

Разум – универсальное орудие нашей психики. Умственные способности, перечисленные Декартом, предполагают наличие второй системы научения, иерархически занимающей более высокое положение, чем первая, и основанной на правилах и символах. На ранних стадиях наша зрительная система отдаленно напоминает современные искусственные нейросети: она учится фильтровать поступающие образы и распознавать часто встречающиеся конфигурации. Этого достаточно, чтобы определить лицо, слово или расположение камней на гобане. Но затем стиль обработки информации кардинально меняется: научение становится больше сродни рассуждению, логическому выводу, имеющему своей целью выявить основополагающие правила изучаемой области. Создание машин, которым доступен этот второй уровень интеллекта, – сложнейшая задача. Но что конкретно делают люди, когда учатся на этом втором уровне, и что именно ускользает от большинства современных алгоритмов машинного обучения?

Учиться – значит логически выводить основы

Одной из характерных особенностей человека является неустанный поиск абстрактных правил, выводов высокого уровня, которые мы извлекаем из конкретной ситуации и впоследствии проверяем на новых наблюдениях. Попытки сформулировать такие абстрактные законы могут служить чрезвычайно мощной стратегией научения, поскольку самые абстрактные законы – это законы, которые применимы к наибольшему числу наблюдений. Поиск подходящего логического правила, учитывающего все доступные данные, – наиболее действенный способ существенно ускорить научение, и человеческий мозг умеет играть в эту игру очень хорошо.

Рассмотрим пример. Представьте, что я показываю вам десять непрозрачных ящиков с разноцветными шарами внутри. Я наугад выбираю ящик, из которого раньше ничего не доставал, запускаю в него руку и достаю зеленый шар. Можете ли вы сделать какие-нибудь выводы о содержимом ящика? Какого цвета будет следующий шар?

Вероятно, первый ответ, который придет вам на ум, прозвучит примерно так: «Я понятия не имею – вы не дали мне практически никакой информации; откуда мне знать, какого цвета будет следующий шар?» Да, но… Представьте, что некоторое время назад я вытащил несколько шаров из других ящиков, и вы отметили следующую закономерность: шары в каждом ящике всегда одного цвета. Выходит, все просто? Как только я покажу новый ящик, вам нужно всего-навсего увидеть один зеленый шар, чтобы сделать вывод, что все остальные шары тоже зеленые. Благодаря этому общему правилу научение происходит с одной попытки.

Данный пример наглядно иллюстрирует, как знания более высокого порядка, сформулированные на так называемом «метауровне», управляют наблюдениями более низкого уровня. Стоит нам усвоить некое абстрактное метаправило – например, «шары в каждом ящике одного цвета», – как процесс научения значительно ускоряется. Конечно, это правило может оказаться и ложным. Вы будете сильно удивлены (или «метаудивлены»), если в десятом ящике окажутся шары всех цветов. В этом случае вам придется пересмотреть свою ментальную модель и поставить под вопрос допущение о том, что все ящики одинаковые. Возможно, вы предложите гипотезу еще более высокого уровня, «метаметагипотезу». Скажем, что ящики бывают двух видов: в одних лежат шары одного цвета, в других – разных цветов. Если так, то вам потребуется по меньшей мере два шара из каждого ящика, чтобы сделать какие-либо выводы. В любом случае формулирование иерархии абстрактных правил существенно сократит драгоценное время научения.

В этом смысле научение предполагает управление внутренней иерархией правил и попытки как можно скорее вывести из них наиболее общие, подытоживающие целую серию наблюдений. Человеческий мозг, по-видимому, применяет этот иерархический принцип с детства. Возьмем двух– или трехлетнего ребенка, который гуляет в саду и узнает от родителей новое слово – допустим, слово «бабочка». Зачастую ребенку достаточно услышать слово один или два раза, и вуаля! – его значение зафиксировано в памяти. Невероятная скорость! Ни одна из известных на сегодняшний день систем искусственного интеллекта не способна учиться так быстро. Почему это так трудно? Потому что любой случай употребления слова не полностью ограничивает его значение. Обычно ребенок слышит слово «бабочка», находясь в окружении цветов, деревьев, игрушек и людей; все это – потенциальные значения нового слова, не говоря даже о менее очевидных значениях: каждое мгновение нашей жизни полно не только звуков, запахов, движений, действий, но и абстрактных свойств. «Бабочка» вполне может означать цвет, небо, движение или симметрию. Существование абстрактных слов только усложняет задачу. Как дети узнают смысл слов «думать», «верить», «нет», «свобода» и «смерть», если то, что они обозначают, не поддается чувственному восприятию? Как они понимают, что значит «я», если каждый раз, когда они слышат это местоимение, говорящие имеют в виду… самих себя?!

Быстрое усвоение абстрактных слов так же несовместимо с наивными взглядами на формирование словарного запаса, как павловское обусловливание или скиннеровские ассоциации. Искусственным нейронным сетям, которые просто пытаются соотнести входные данные с выходными и образы со словами, обычно требуются тысячи попыток, прежде чем они начнут понимать, что слово «бабочка» относится к вон тому разноцветному насекомому в углу изображения. Разумеется, такое поверхностное соотнесение слов с картинками никогда не позволит установить смысл слов без фиксированного денотата, например, местоимения «мы», наречия «всегда» или существительного «запах».

Усвоение новых слов представляет огромную проблему для когнитивной науки. Тем не менее сегодня мы знаем, что часть решения кроется в способности ребенка формулировать нелингвистические, абстрактные, логические репрезентации. Еще до того, как малыши овладевают первыми словами, они активно пользуются своеобразным языком мышления, на котором могут формулировать и проверять абстрактные гипотезы. Их мозг – не «чистый лист»; врожденные знания, которые они проецируют на внешний мир, существенно ограничивают абстрактное пространство, в котором происходит научение. Более того, дети быстро схватывают значения новых слов потому, что в выборе подходящих гипотез руководствуются целым арсеналом правил высокого уровня. Такие метаправила значительно ускоряют процесс научения – точь-в-точь как в задаче с разноцветными шарами в разных ящиках.

Одно из правил, облегчающих усвоение лексики, заключается в том, чтобы всегда отдавать предпочтение простейшему предположению (наименьшему множеству), совместимому с данными. Например, когда ребенок слышит, как его мать говорит: «Посмотри на собаку», теоретически ничто не мешает слову «собака» относиться к этой конкретной собаке (Снупи) или, наоборот, к любому млекопитающему, четвероногому существу, животному или вообще всему живому. Как же ребенок узнает истинное значение слова – например, что слово «собака» применимо ко всем собакам, но только к собакам? Эксперименты показывают, что дети рассуждают логически: они проверяют все гипотезы, но оставляют только самую простую модель, которая согласуется с данными. Когда малыш слышит слово «Снупи», это всегда контекстуально связано с конкретным существом, а самое маленькое множество, совместимое с этими наблюдениями, ограничивается данной конкретной собакой. Впервые услышав слово «собака» в определенном контексте, многие дети полагают, что это слово относится только к конкретному животному, но, услышав его дважды, в двух разных контекстах, делают вывод, что слово относится ко всему виду. Согласно прогнозу математической модели, достаточно трех или четырех примеров, чтобы установить верное значение27. Такие логические выводы дети делают быстрее, чем любая искусственная нейросеть, существующая на сегодняшний день.

Овладеть речью в рекордные сроки (по сравнению с современными системами искусственного интеллекта) детям позволяют и другие хитрости. Одно из таких метаправил всем известно: обычно говорящий смотрит на то, о чем говорит. Это правило позволяет детям значительно ограничить абстрактное пространство, в котором они ищут значение нового слова: ребенку не нужно соотносить каждое незнакомое слово со всеми объектами в своем поле зрения, как поступил бы компьютер. Последний будет делать это до тех пор, пока не соберет достаточно данных и не убедится, что каждый раз, когда он слышит о бабочке, где-то есть маленькое разноцветное насекомое. Чтобы понять, о чем говорит мама, ребенку достаточно проследить за ее взглядом или направлением пальца. Это называется «совместным вниманием» и является фундаментальным принципом овладения речью.

Вот изящный эксперимент: покажите двух– или трехлетнему ребенку новую игрушку, посмотрите на нее и скажите: «Пупс!» Ребенок с первого раза поймет, что «пупс» – это название предмета. Теперь воспроизведите ситуацию, но на этот раз молчите – пусть слово «пупс» малыш услышит из динамика. В этом случае он ничему не научится, потому что не сможет расшифровать намерение говорящего28. Маленькие дети усваивают значение нового слова только в том случае, если понимают намерение человека, который его произнес. Эта же способность позволяет им сформировать обширный запас абстрактных слов: чтобы понять, к какой мысли или слову апеллирует говорящий, они должны поставить себя на его место.

Дети используют множество метаправил для заучивания слов. Например, они опираются на грамматический контекст. Возьмем английский язык. Когда ребенку говорят: Look at the butterfly («Посмотри на эту бабочку»), наличие детерминатива the подсказывает ему, что следующее слово должно быть существительным. Это метаправило, несомненно, приобретено – дети явно не появляются на свет с врожденным знанием всех артиклей на всех языках. Тем не менее исследования показывают, что данный тип научения происходит очень быстро: к году младенцам уже известны самые распространенные детерминативы и другие служебные слова, облегчающие дальнейшее научение29.

Это происходит потому, что некоторые грамматические слова употребляются очень часто и почти всегда стоят перед существительным. Может показаться, что подобные рассуждения создают замкнутый круг, но это не так. Примерно в шесть месяцев малыши начинают овладевать существительными: первыми в списке идут самые знакомые, например, bottle («бутылочка») и chair («стул»). Через некоторое время дети замечают, что этим словам часто предшествует другое слово – артикль the. Вывод: все эти слова, вероятно, принадлежат к одной категории (существительным) и обычно обозначают вещи. Руководствуясь данным метаправилом, ребенок, который услышал новое высказывание, например the butterfly («бабочка»), прежде всего ищет возможное значение среди окружающих его объектов, а не расценивает слово как глагол или прилагательное. Каждый последующий эпизод подкрепляет это правило, а оно, в свою очередь, облегчает и ускоряет последующее научение. Специалисты по психологии развития утверждают, что ребенок полагается на синтаксический бутстрэппинг: детский алгоритм овладения языком развертывается постепенно, сам по себе, основываясь на последовательности небольших, но систематических шагов вывода.


Учиться – значит выбирать простейшую модель, которая согласуется с данными. Предположим, я покажу вам картинку, которая приведена выше, и скажу, что три объекта, обведенные в квадрат, – это «туфы». Располагая столь скудными данными, как вы найдете другие туфы? Ваш мозг вычисляет принципы, по которым были обведены именно эти изображения, строит иерархическое дерево их основных свойств, а затем выбирает самую маленькую ветвь, которая совместима со всеми данными.


Существует еще одно метаправило, которое дети часто используют для ускорения усвоения новых слов. Оно называется «допущением взаимного исключения» и вкратце может быть сформулировано следующим образом: одна вещь – одно название. Проще говоря, закон гласит, что два разных слова едва ли будут относиться к одному и тому же понятию – во всяком случае, это маловероятно. Следовательно, незнакомое слово скорее всего обозначает новый предмет или новую концепцию. Благодаря этому правилу ребенок, услышавший новое слово, может ограничить поиски его значения вещами, названия которых он пока не знает. Начиная с 16 месяцев дети мастерски пользуются этим трюком30. Проведем эксперимент: возьмите две мисочки – пусть одна будет синяя, а другая, скажем, оливково-зеленая – и скажите ребенку: «Дай мне оливновую миску». Ребенок даст вам ту миску, которая не синяя (слово, которое он уже знает). Очевидно, он полагает, что если бы вы говорили о синей миске, то вы бы употребили слово «синяя» – значит, вы имеете в виду другую. Одного-единственного раза достаточно, чтобы через несколько недель малыш вспомнил, что этот странный цвет называется «оливновый».

Здесь мы снова видим, что владение метаправилом значительно ускоряет процесс научения. Вполне вероятно, что само это метаправило тоже приобретено. И действительно, некоторые эксперименты показывают, что малыши из двуязычных семей применяют его гораздо реже, чем дети с одним родным языком31. Билингвальный опыт подсказывает им, что родители могут использовать разные слова, чтобы сказать одно и то же. Одноязычные дети, напротив, часто полагаются на правило исключительности. Со временем они приходят к выводу, что всякий раз, когда вы произносите новое слово, вы хотите познакомить их с новым предметом или концепцией. Услышав фразу «дай мне глакс» в комнате, полной знакомых предметов, ребенок будет повсюду искать эту таинственную штуку: ему и в голову не придет, что вы можете иметь в виду одну из уже известных ему вещей.

Все эти метаправила иллюстрируют так называемый «дар абстракции»: самые абстрактные метаправила усвоить легче всего – хотя бы потому, что их подтверждает каждое слово, которое слышит ребенок. Таким образом, грамматическое правило «перед существительным обычно идет артикль the» вполне может быть усвоено на ранней стадии и впоследствии облегчить приобретение обширного репертуара существительных. Благодаря абстракции примерно в два-три года дети вступают в благословенный период, по праву называемый «лексическим взрывом». В это время они без усилий выучивают от десяти до двадцати новых слов в день, полагаясь на подсказки, которые до сих пор ставят в тупик лучшие алгоритмы на планете.

Способность использовать метаправила, по-видимому, требует достаточно развитого интеллекта. Если так, значит, она присуща только человеку? Не совсем. В определенной степени делать абстрактные умозаключения способны и другие животные. Возьмем случай с Рико – бордер-колли, которого научили приносить самые разные предметы32. Все, что вам нужно, – это сказать: «Рико, принеси динозавра». Животное убегает в комнату с игрушками и через несколько секунд возвращается с плюшевым динозавром в пасти. Этологи, которые проверяли Рико, установили, что он знает около двухсот слов. Но это еще не самое удивительное. Оказывается, чтобы выучить новые слова, пес применял принцип взаимной исключительности! Если бы вы сказали: «Рико, принеси сикирид» (новое слово), он бы вернулся с предметом, названия которого не знал. Иными словами, Рико использовал метаправила, в том числе правило «одна вещь – одно название».

Математики и специалисты в области вычислительной техники уже приступили к разработке алгоритмов, которые позволят машинам усваивать подобную иерархию правил, метаправил и метаметаправил. В этих иерархических алгоритмах каждый эпизод обучения ограничивает не только параметры низкого уровня, но и знания самого высокого уровня, абстрактные гиперпараметры, которые, в свою очередь, управляют последующим обучением. Хотя таким системам еще далеко до экстраординарной эффективности, присущей человеческому мозгу при овладении речью, они показывают неплохие результаты. Например, на цветной иллюстрации 4 представлен новейший алгоритм, который, подобно искусственному ученому, ищет лучшую модель внешнего мира33. Данная система обладает набором абстрактных примитивов, а также грамматикой, позволяющей генерировать бесконечное число структур более высокого уровня посредством рекомбинации этих элементарных правил. Например, она может определить линейную цепочку как последовательность тесно связанных точек, описываемую правилом «с каждой точкой соседствуют две другие точки – одна слева, другая справа», и совершенно самостоятельно обнаружить, что такая цепочка является наилучшим способом представления множества целых чисел (от нуля до бесконечности) или политических взглядов (от ультралевых до ультраправых). Вариант той же грамматики дает двоичное дерево, где каждый узел имеет одного родителя и двух потомков. Такая древовидная структура выбирается автоматически, когда систему просят представить живые существа; машина, подобно искусственному Дарвину, заново открывает древо жизни!

Другие комбинации правил порождают плоскости, цилиндры и сферы, и алгоритм определяет, как такие структуры приближенно выражают географию нашей планеты. Более сложные версии того же алгоритма могут выразить еще более абстрактные идеи. Например, американские специалисты в сфере вычислительной техники Ной Гудман и Джош Тененбаум разработали систему, способную открыть принцип причинности34, согласно которому одни события вызывают другие. Его формулировка носит весьма абстрактный и математический характер: «В направленном ациклическом графе, связывающем различные переменные, существует подмножество переменных, от которых зависят все остальные». Хотя это определение почти невозможно понять, оно прекрасно иллюстрирует тип абстрактных внутренних формул, которые эта ментальная грамматика способна выразить и проверить. Система тестирует тысячи таких формул, но сохраняет только те из них, которые согласуются с входящими данными. В результате она быстро выводит принцип причинности (если, конечно, некоторые из получаемых ею сенсорных сигналов являются причинами, а другие – следствиями). Это еще одно доказательство в пользу дара абстракции: принятие такой высокоуровневой гипотезы значительно ускоряет процесс обучения, ибо радикально сужает объем правдоподобных гипотез, среди которых осуществляется поиск. Вот почему из поколения в поколение дети неустанно спрашивают «почему?» и ищут объяснений, тем самым подпитывая бесконечную погоню нашего вида за научными знаниями.

Согласно данной точке зрения, научение состоит в анализе обширного набора утверждений, выраженных на языке мышления, и выборе того, которое наилучшим образом согласуется с данными. Как мы увидим далее, эта модель отлично описывает все, что происходит в мозге любого ребенка. Подобно начинающим ученым, дети формулируют теории и сравнивают их с внешним миром. Отсюда следует, что ментальные представления детей гораздо более структурированы, нежели представления современных искусственных нейросетей. С самого рождения мозг ребенка уже должен обладать двумя ключевыми составляющими: всеми механизмами, позволяющими генерировать множество абстрактных формул (комбинаторным языком мышления), и способностью выбирать из этих формул наиболее правдоподобные.

Таково наше новое видение мозга35: мозг – это огромная генеративная модель, в значительной степени структурированная и способная формулировать бесчисленное множество гипотетических правил и структур, но постепенно ограничивающаяся теми, которые максимально точно описывают реальность.

Учиться – значит рассуждать как ученый

Как мозг выбирает наиболее подходящую гипотезу? По каким критериям он принимает или отвергает модель внешнего мира? Оказывается, для этого существует идеальная стратегия. Она лежит в основе одной из самых современных и продуктивных теорий научения – гипотезы о том, что мозг ведет себя как ученый. Согласно данной теории, учиться – значит рассуждать как хороший специалист по статистике, выбирающий из нескольких альтернативных теорий ту, у которой больше всего шансов оказаться верной. А какая теория вероятнее станет таковой? Разумеется, та, которая наилучшим образом объясняет имеющиеся данные.

Как же работает научное мышление? Когда ученые формулируют теорию, они не просто записывают математические формулы – они делают прогнозы. О силе теории судят по богатству исходных прогнозов, которые из нее вытекают. Последующее подтверждение или опровержение этих предсказаний ведет к подтверждению или крушению теории. Исследователи применяют простую логику: они формулируют несколько теорий, распутывают паутину вытекающих из них прогнозов и исключают теории, прогнозы которых опровергает опыт или наблюдения. Конечно, одного эксперимента редко бывает достаточно: зачастую, чтобы отделить истинное от ложного, приходится повторять эксперимент несколько раз, в разных лабораториях. И все же, перефразируя философа науки Карла Поппера (1902–1994), невежество постепенно отступает, ибо благодаря серии догадок и опровержений мы можем шаг за шагом уточнить теорию.

В этом плане наука сродни человеческому научению. По мере того как мозг успешно формулирует все более и более точные теории внешнего мира на основе наблюдений, невежество каждого из нас постепенно отступает. Но разве это не просто туманная метафора? Нет. По сути, это довольно точное описание вычислений, которые, судя по всему, производит мозг. За последние тридцать лет гипотеза «ребенка как ученого» привела к ряду крупных открытий относительно того, как дети рассуждают и учатся.

Математики и ученые в области вычислительной техники уже давно сформулировали лучший способ рассуждения в условиях неопределенности. Эту теорию называют байесовской, в честь ее создателя, преподобного Томаса Байеса (1702–1761), английского пресвитерианского пастора и математика, ставшего членом Королевского общества. Возможно, правда, нам следовало бы назвать ее теорией Лапласа, поскольку именно Пьер-Симон, маркиз де Лаплас (1749–1827) – великий французский математик – придал ей окончательную форму. Как бы то ни было, несмотря на свой почтенный «возраст», в когнитивистике и машинном обучении она получила известность лишь в последние лет двадцать. К счастью, сегодня все больше исследователей осознают, что только байесовский подход, основанный на теории вероятностей, позволяет извлекать максимум информации из каждой единицы данных. Учиться – значит делать как можно больше выводов из каждого наблюдения, даже самого неопределенного. Правило Байеса это гарантирует.

Что же обнаружили Байес и Лаплас? В двух словах – как правильно делать выводы, то есть рассуждать на базе вероятностей с тем, чтобы проследить каждое наблюдение до его наиболее вероятной причины. Вернемся к основам логики. С древнейших времен человечество умело рассуждать на базе истинностных значений: истинно или ложно. Аристотель сформулировал правила дедукции, которые мы называем силлогизмами и применяем более или менее интуитивно. Например, правило под названием modus tollens (букв. «метод отрицания») гласит, что если P подразумевает Q и оказывается, что Q ложно, то и P тоже ложно. Именно это правило Шерлок Холмс применяет в знаменитом рассказе «Серебряный»[14]:

Инспектор Грегори: Есть еще какие-то моменты, на которые вы советовали бы мне обратить внимание?

Холмс: На странное поведение собаки в ночь преступления.

Инспектор Грегори: Собаки? Но она никак себя не вела!

Холмс: Это-то и странно.

Шерлок рассудил, что если бы собака учуяла незнакомца, то непременно бы залаяла. Поскольку она этого не сделала, преступник, очевидно, не был посторонним человеком… Подобные рассуждения позволили знаменитому сыщику сузить круг подозреваемых и в конечном итоге разоблачить убийцу.

«Какое это имеет отношение к научению?» – наверняка спросите вы. Что ж, учиться – значит рассуждать как детектив: по сути, научение всегда сводится к анализу скрытых причин явлений и построению наиболее правдоподобной модели, которая ими управляет. Но в реальном мире наблюдения редко бывают истинными или ложными: они носят неопределенный и вероятностный характер. Вот тут-то в игру и вступают фундаментальные работы преподобного Байеса и маркиза де Лапласа: байесовская теория говорит нам, как мыслить вероятностями, то есть какие виды силлогизмов мы должны применять, когда данные не идеальные (истинные или ложные), а вероятностные.

Probability Theory: The Logic of Science («Теория вероятностей: Логика науки») – название увлекательной книги по байесовской теории, написанной статистиком Э.Т. Джейнсом (1922–1998)36. Оказывается, то, что мы называем вероятностью, есть не что иное, как выражение нашей неуверенности. Теория с математической точностью описывает законы, по которым должна развиваться неуверенность с каждым новым наблюдением. Фактически это идеальное расширение логики в туманную область вероятностей и неопределенностей.

Рассмотрим пример, схожий по духу с тем, на котором преподобный Байес основал свою теорию в XVIII веке. Предположим, я вижу, как кто-то подбрасывает монетку. Если монетка правильная (симметричная), вероятность выпадения орла и решки одинаковая: пятьдесят на пятьдесят. Исходя из этой предпосылки, классическая теория вероятностей подсказывает нам, как вычислить вероятность того или иного исхода (например, вероятность выпадения пяти решек подряд). Байесовская теория позволяет двигаться в противоположном направлении – от наблюдений к причинам. Она дает нам возможность ответить на вопросы вроде «после того как я подброшу монету несколько раз, должен ли я изменить свои представления о ней?». По умолчанию предполагается, что монета симметрична. Но если решка выпадет двадцать раз подряд, я поступлю разумно, если пересмотрю свои изначальные допущения: с этой монетой явно что-то не так. Очевидно, моя первоначальная гипотеза стала неправдоподобной, но насколько? Как именно мне обновлять мои убеждения после каждого наблюдения? В рамках теории каждому допущению присваивается номер, соответствующий степени правдоподобия или уровню доверия. С каждым последующим наблюдением это число изменяется на величину, пропорциональную степени невероятности наблюдаемого исхода. Как и в науке, чем невероятнее экспериментальное наблюдение, тем сильнее оно нарушает прогнозы первоначальной теории и с тем большей уверенностью мы можем отвергнуть эту теорию и искать альтернативные интерпретации.

Байесовская теория невероятно эффективна. Во время Второй мировой войны британский математик Алан Тьюринг (1912–1954) использовал ее для расшифровки кода «Энигмы». Как известно, немецкие военные сообщения шифровались с помощью машины под названием «Энигма» – хитроумного устройства из шестеренок, роторов и электрических кабелей. После каждой буквы конфигурации, количество которых превышало один миллиард, менялись. Каждое утро шифровальщик задавал машине особые настройки, которые были запланированы на этот день. Затем он набирал текст, и «Энигма» выдавала на первый взгляд случайную последовательность букв, которую мог расшифровать только обладатель шифровального ключа. Всем остальным текст казался полностью лишенным какого-либо порядка. Однако гениальный Тьюринг обнаружил, что если две машины были настроены одним и тем же образом, то это приводило к небольшой погрешности в распределении букв, в результате чего возрастала вероятность того, что два сообщения будут похожи. Эта погрешность была настолько мала, что одной буквы было недостаточно, чтобы сделать какой-то точный вывод. Тем не менее, анализируя букву за буквой, Тьюринг смог доказать, что одна и та же конфигурация действительно использовалась дважды. С помощью устройства, которое назвали «бомбой» (большой тикающей электромеханической машины, которая стала прототипом наших компьютеров), он и его команда регулярно взламывали код «Энигмы».

Но какое отношение это имеет к живому мозгу? Что ж, похоже, точно так же рассуждает и наша кора больших полушарий37. Согласно этой теории, каждая область мозга формулирует одну или несколько гипотез и посылает соответствующие прогнозы в другие отделы. Таким образом, каждый модуль ограничивает предположения следующего, обмениваясь вероятностными предсказаниями о внешнем мире. Эти сигналы называются «нисходящими»: они зарождаются в областях высокого уровня – например, в лобных долях – и спускаются в сенсорные области более низкого уровня, такие как первичная зрительная кора. Теория предполагает, что эти сигналы выражают набор гипотез, которые наш мозг считает правдоподобными и хочет проверить.

В сенсорных областях нисходящие допущения вступают в контакт с «восходящей» информацией из внешнего мира – например, из сетчатки. Теория гласит: как только модель соприкасается с реальностью, мозг вычисляет сигнал ошибки – расхождение между тем, что предсказывала модель, и тем, что наблюдалось фактически. Байесовский алгоритм определяет, как использовать этот сигнал ошибки для изменения внутренней модели мира. Если ошибки нет, значит, модель правильная. В противном случае сигнал ошибки движется вверх по цепочке мозговых центров и по пути корректирует соответствующие параметры. В результате алгоритм относительно быстро приходит к ментальной модели, которая согласуется с внешним миром.

Согласно данному представлению о мозге, наши взрослые суждения объединяют два уровня: врожденные знания, присущие нам как виду (то, что сторонники байесовского подхода называют априорной вероятностью – наборы правдоподобных гипотез, унаследованных в ходе эволюции), и наш личный опыт (апостериорная вероятность – пересмотр этих гипотез на основе всех выводов, которые мы смогли сделать на протяжении жизни). Такое разделение труда ставит точку в классической дискуссии об относительной роли наследственности и окружающей среды: организация нашего мозга обеспечивает нас как мощным стартовым снаряжением, так и не менее мощной самообучающейся машиной. Очевидно, все знания должны быть основаны на этих двух компонентах: во-первых, на наборе априорных допущений, предшествующих любому взаимодействию с окружающей средой, а во-вторых, на способности сортировать эти допущения в соответствии с их апостериорной правдоподобностью после соприкосновения с реальными данными.

На сегодняшний день мы можем математически доказать, что байесовский подход – это лучший способ учиться. Это единственный способ выделить саму суть учебного эпизода и извлечь из него максимум. Для научения достаточно всего нескольких битов информации вроде подозрительных совпадений, которые Тьюринг обнаружил в коде «Энигмы». Как только система их обработает, она получит достаточно данных, чтобы опровергнуть одни теории и подтвердить другие.

Значит, вот как работает мозг? Неужели он с рождения может генерировать массы гипотез, из которых затем выбирает те, которые наилучшим образом согласуются с наблюдаемыми данными? Получается, младенцы с самого рождения действуют как умные и терпеливые ученые-статистики? Способны ли они извлечь максимум информации из каждого учебного опыта? Давайте посмотрим, что удалось выяснить о мозге маленьких детей в ходе экспериментальных исследований.

Часть II
Как учится наш мозг

Споры об относительной роли наследственности и окружающей среды не утихали на протяжении тысячелетий. Подобны ли младенцы tabula rasa – чистому листу или пустому сосуду, которые должен заполнить опыт? Уже в 400 году до нашей эры в своем труде «Государство» Платон отверг представление о том, что наш мозг приходит в мир, будучи лишенным всякого знания. С самого рождения, утверждал он, каждая душа наделена двумя сложными механизмами: силой знания и органом, с помощью которого мы можем учиться.

Как мы уже убедились, две тысячи лет спустя прогресс в сфере машинного обучения заставил ученых прийти к аналогичному выводу. Обучение протекает значительно эффективнее, если машина обладает двумя свойствами: широким пространством гипотез (набором ментальных моделей с множеством возможных настроек) и сложными алгоритмами, которые корректируют эти настройки в соответствии с данными, полученными из внешнего мира. Как однажды сказал один из моих друзей, в дискуссии о роли наследственности и окружающей среды мы недооцениваем и первое, и второе! Чтобы учиться, необходимы две структуры: обширный набор потенциальных моделей и эффективный алгоритм для их адаптации к реальности.

Искусственные нейронные сети делают это по-своему, доверяя представление ментальных моделей миллионам регулируемых связей. Хотя такие системы способны на быстрое и бессознательное распознавание образов или речи, репрезентация более абстрактных гипотез, таких как правила грамматики или логика математических операций, им недоступна.

Человеческий мозг, по всей видимости, функционирует иначе: наши знания множатся за счет комбинирования символов. Согласно данной точке зрения, мы появляемся на свет с огромным количеством возможных комбинаций потенциальных мыслей. Этот язык мышления, включающий абстрактные допущения и грамматические правила, присутствует в нас изначально и порождает необъятное царство гипотез. Теория байесовского мозга гласит: чтобы эти гипотезы проверить, наш мозг должен действовать, как ученый: собирать статистические данные, а затем использовать их для выбора наиболее подходящей генеративной модели.

Такой взгляд на научение может показаться нелогичным. Он предполагает, что мозг каждого маленького ребенка потенциально содержит все языки мира, все объекты, все лица и все инструменты, с которыми он когда-либо сможет столкнуться, а также все слова, факты и события, которые он когда-либо сможет запомнить. Комбинаторика мозга такова, что все эти объекты мысли потенциально уже есть в нем – наряду с соответствующими априорными вероятностями, а также способностью обновлять их на основе текущего опыта. Неужели ребенок в самом деле учится именно так?

Глава 3
Невидимые знания младенцев

На первый взгляд не может быть никаких сомнений в том, что мозг новорожденного младенца начисто лишен всяких знаний. И правда: разве не разумно полагать, как это делал Джон Локк, что ум ребенка – «чистый лист», который приобретает свое содержание исключительно под влиянием окружающей среды? Похожую точку зрения высказывал и Жан-Жак Руссо (1712–1778) в своем трактате «Эмиль, или О воспитании» (1762): «Мы рождаемся способными к учению, но ничего не понимающими, ничего не сознающими»[15]. Почти два столетия спустя Алан Тьюринг, отец современной информатики, выдвинул следующую гипотезу: «Предположительно мозг ребенка – это нечто вроде блокнота, какие покупают в магазине канцелярских товаров: простой механизм, зато множество пустых листов».

Теперь мы знаем, что эта точка зрения в корне ошибочна. Внешность бывает обманчива: несмотря на свою незрелость, новорожденный мозг уже обладает значительными познаниями, унаследованными вследствие долгой эволюционной истории. По большей части, однако, эти знания остаются невидимыми, ибо никак не проявляются в примитивном поведении малышей. Ученым-когнитивистам потребовалась немалая изобретательность, чтобы продемонстрировать огромный репертуар способностей, с которыми рождаются все дети. Объекты, числа, вероятности, лица, речь… диапазон первоначальных знаний младенцев поистине широк.

Понятие о физических объектах

На интуитивном уровне все мы знаем, что мир состоит из твердых объектов. На самом деле, он состоит из атомов, но на макроуровне, где живем мы, эти атомы часто объединяются в более крупные сущности, которые движутся как единое целое и иногда сталкиваются, не утрачивая при этом своей внутренней связности. Эти большие скопления атомов и есть то, что мы называем «объектами». Существование объектов является фундаментальным свойством окружающей среды. Должны ли мы этому специально учиться? Нет. Миллионы лет эволюции, похоже, запечатлели это знание в самых глубинах нашего мозга. Ребенок, родившийся всего несколько месяцев назад, уже знает, что мир состоит из объектов, которые движутся, занимают пространство, не исчезают без причины и не могут находиться в двух разных местах одновременно38. В некотором смысле мозг младенца уже знает законы физики: он ожидает, что траектория движения объекта будет непрерывной как в пространстве, так и во времени, без каких-либо внезапных скачков или исчезновений.

Откуда нам это известно? Дело в том, что младенцы выказывают явное удивление в определенных экспериментальных ситуациях, нарушающих законы физики. В современных лабораториях исследователи превращаются в настоящих волшебников (см. цветную иллюстрацию 5). В маленьких театрах, специально созданных для малышей, они показывают всевозможные фокусы: предметы на сцене появляются, исчезают, множатся, проходят сквозь стены… Скрытые камеры зорко следят за движением глаз ребенка. Результаты не вызывают сомнений: к магии чувствительны даже те младенцы, которым едва исполнилось несколько недель. Эти крохи уже обладают глубокими интуитивными представлениями о физическом мире и, как и все мы, удивляются, когда их ожидания не оправдываются. Увеличив изображение глаз, ученые определяют, куда смотрят дети и как долго. После этого они могут точно измерить степень удивления и установить, что именно рассчитывали увидеть малыши.

Спрячьте какой-нибудь предмет за книгой, а затем внезапно «уроните» ее на стол, как будто скрытой вещи больше не существует (она упала в специальный люк): дети будут просто ошеломлены! Они не понимают, как твердый предмет мог буквально раствориться в воздухе. Их потрясению нет границ, когда предмет исчезает за одним экраном и вдруг появляется за другим или когда игрушечный поезд, катящийся вниз по склону, беспрепятственно проезжает сквозь стену. Кроме того, дети знают, что предмет – это нечто целое: увидев два конца палочки, которые синхронно движутся по обе стороны экрана, они, естественно, полагают, что за экраном скрывается одна палочка. Вообразите себе их удивление, когда экран опускается и они видят не одну, а две палочки (см. рисунок ниже).

Таким образом, можно утверждать, что младенцы с самого начала обладают обширными познаниями о мире, хотя и не знают всего. Конечно, нет. Обычно им требуется несколько месяцев, чтобы понять, как два объекта могут поддерживать друг друга39. Поначалу они не знают, что если предмет уронить, то он упадет. Лишь очень постепенно дети осознают все факторы, которые заставляют объект падать или оставаться на месте. Прежде всего малыши обнаруживают, что предметы падают, когда теряют опору. Сперва они полагают, что любого контакта достаточно, чтобы игрушка оставалась неподвижной – например, можно положить ее на край стола, и никуда она оттуда не денется. Со временем они выясняют, что игрушка должна находиться не только в контакте со столом, но и на нем, а не под ним или сбоку от него. Наконец, спустя еще несколько месяцев дети понимают, что и этого правила недостаточно: главное, чтобы над столом оставался центр тяжести предмета – вот тогда игрушка точно не упадет!


Младенцы обладают чрезвычайно ранними интуитивными представлениями об арифметике, физике и даже психологии. В ходе экспериментов исследователи исходят из того, что на неожиданные события дети смотрят дольше, чем на ожидаемые. Например, малыши очень удивляются, когда из коробки с черными шарами вдруг выкатывается белый шар (интуитивные представления о числах и вероятностях) или когда за ширмой оказывается не одна палочка, а две (интуитивные представления о физических объектах). Увидев шар, который катится сам по себе, перепрыгивает через некое препятствие, а затем сворачивает вправо, дети делают вывод, что шар – живое существо с собственными целями и намерениями, а потому несказанно изумляются, если он продолжает прыгать даже тогда, когда никаких препятствий нет (интуитивные представления о психологии).


Вспомните об этом в следующий раз, когда ваш ребенок в десятый раз уронит ложку со стола: он просто экспериментирует! Как и всякому ученому, детям необходимо провести целую серию испытаний, чтобы последовательно отвергнуть все неправильные теории. Обычно это происходит в следующем порядке: (1) предметы висят в воздухе; (2) они не упадут, если коснутся другого предмета; (3) они не упадут, если будут лежать на другом предмете; (4) они не упадут, если большая их часть будет находиться выше другого предмета, и так далее и тому подобное.

Данный экспериментальный подход сохраняется и в зрелом возрасте. Мы все с интересом наблюдаем за предметами, которые, как нам кажется, нарушают обычные законы физики (гелиевые шары, мобили, неваляшки со смещенным центром тяжести), и смотрим волшебные представления, в которых кролики исчезают в шляпах, а женщин распиливают пополам. Такие вещи развлекают нас, ибо не согласуются с интуитивными представлениями, которых наш мозг придерживался с рождения и которые активно совершенствовал в первый год жизни. Джош Тененбаум, профессор искусственного интеллекта и когнитивистики в Массачусетском технологическом институте, выдвинул любопытную гипотезу: по его мнению, мозг ребенка содержит своеобразный игровой движок, ментальную симуляцию типичного поведения объектов, подобную тем, которые используются в видеоиграх для моделирования виртуальной реальности. Задействуя эти симуляции в своей голове и сравнивая их с реальностью, младенцы быстро обнаруживают, что физически возможно или вероятно.

Чувство числа

Рассмотрим другой пример – арифметику. Разумеется, дети не понимают математику, это же очевидно! И все же, начиная с 1980-х годов, эксперименты свидетельствуют о прямо противоположном40. В ходе одного из исследований младенцам показывают слайды с изображением двух предметов, среди которых изредка попадаются изображения с тремя предметами. Дети явно замечают это изменение, ибо смотрят на картинки с тремя предметами гораздо дольше, чем на картинки с двумя. Манипулируя характером, размером и плотностью предметов, ученые убедились, что младенцы действительно реагируют на само их количество, а не на какой-то иной физический параметр. Лучшим доказательством того, что младенцы обладают абстрактным «чувством числа», является способность к обобщению, а именно переходу от звуков к образам: если ребенок слышит «ту-ту-ту-ту» – то есть четыре звука, – он проявляет больший интерес к картинке с четырьмя предметами, чем к картинке с двенадцатью, и наоборот41. Контролируемые эксперименты такого рода весьма многочисленны; все они убедительно показывают, что дети с рождения обладают интуитивной способностью распознавать приблизительное число объектов, причем независимо от характера представления информации (зрительная или слуховая).

А считать малыши тоже умеют? Предположим, что дети видят, как за ширмой прячут сначала один предмет, а затем второй. Потом ширму опускают, и – о, чудо! – за ней оказывается только один предмет! Младенцы долго и внимательно смотрят за ширму, что свидетельствует о явном удивлении42. Если же за ширмой оказываются два предмета, продолжительность взгляда не превышает нескольких мгновений. Это «когнитивное удивление», возникающее при несовпадении реальности и умственных расчетов, показывает, что уже в возрасте нескольких месяцев дети понимают, что 1 + 1 должно составлять 2. Они строят внутреннюю модель невидимой области и умеют ею манипулировать путем добавления или удаления объектов. Что примечательно, такие эксперименты работают не только для 1 + 1 и 2 − 1, но и для 5 + 5 и 10 − 5. При условии, что ошибка достаточно велика, девятимесячные дети удивляются всякий раз, когда фактическое количество предметов не совпадает с умственными расчетами: например, они точно знают, что 5 + 5 не может быть 5, а 10 − 5 не может быть 1043.

Это действительно врожденный навык? Неужели первых месяцев жизни достаточно, чтобы ребенок усвоил основные законы, которые управляют поведением множества объектов? Хотя в течение первых месяцев точность, с которой дети оценивают количество44, существенно улучшается, эксперименты показывают, что отправная точка – вовсе не «чистый лист». Новорожденные способны распознавать количество объектов уже через несколько часов после появления на свет – так же как обезьяны, голуби, вороны, цыплята, рыбы и даже саламандры. В случае с цыплятами исследователи контролировали все сенсорные входы: хотя птенцы не видели ни одного объекта в своей жизни, их «чувство числа» никуда не делось45.

Такие эксперименты показывают, что арифметика – один из врожденных навыков, которым эволюция наделила не только человека, но и многие другие виды. Соответствующие нейронные сети были обнаружены у обезьян и воронов. Оказывается, их мозг содержит особые «числовые нейроны», которые «настроены» на определенное количество объектов. Одни клетки реагируют на один объект, другие – на два, три, пять или даже тридцать. Как ни странно, числовые нейроны присутствуют даже у тех животных, которые не получили никакого предварительного обучения46. С помощью методов нейровизуализации сотрудники моей лаборатории установили: в гомологичных местах человеческого мозга тоже содержатся клетки, реагирующие на мощность множества (т.е. количество элементов конечного множества). Недавно, благодаря новейшей аппаратуре, удалось непосредственно зафиксировать активность таких нейронов в гиппокампе47.

Результаты этих исследований опровергают некоторые положения ведущей теории детского развития, сформулированной великим швейцарским психологом Жаном Пиаже (1896–1980). По мнению ученого, понятие «постоянства объектов» – понимание, что объекты продолжают существовать, даже если ребенок их больше не видит, – возникает ближе к концу первого года жизни. Что касается абстрактного понятия числа, Пиаже утверждал, что оно вообще недоступно маленьким детям и медленно формируется спустя несколько лет после рождения, главным образом за счет абстрагирования от более конкретных мер размера, длины и плотности. На самом деле, все как раз наоборот. Понятия объекта и числа являются фундаментальными характеристиками нашего мышления; они представляют собой часть «базовых знаний», с которыми мы приходим в мир, и в сочетании друг с другом позволяют формулировать более сложные мысли48.

Чувство числа – лишь один из примеров того, что я называю невидимым знанием младенцев: интуитивных представлений, которыми они обладают с рождения и на которых строится последующее научение. Вот еще несколько навыков, которые исследователи обнаружили у малышей спустя несколько недель после рождения.

Интуитивные представления о вероятностях

От чисел до вероятностей всего один шаг. Ученые уже сделали его, решив выяснить, могут ли дети в возрасте нескольких месяцев предсказать исход лотереи. В ходе эксперимента младенцам сначала показывают прозрачный ящик, внутри которого хаотично перемещаются четыре шара – три красных и один зеленый. В самом низу ящика есть отверстие. В какой-то момент из него выкатывается либо зеленый шар, либо красный. Примечательно, что удивление ребенка напрямую связано с вероятностью происходящего. Если из ящика выпадает красный шар – наиболее вероятное событие, ибо большинство шаров красного цвета, – ребенок смотрит на него одно мгновение. Если же из ящика появляется зеленый шар – весьма неожиданный исход, с вероятностью один к четырем, – взгляд фиксируется на нем гораздо дольше.

Дальнейшие исследования подтверждают: в своих маленьких головках младенцы прогоняют детальную мысленную симуляцию ситуации и связанных с ней вероятностей. Если шары разделены некой перегородкой, перемещаются ближе или дальше от отверстия или выкатываются из ящика с разными интервалами, младенцы интегрируют все эти параметры в свои ментальные вычисления. Длительность их взгляда всегда отражает маловероятность наблюдаемого сценария, которую они, судя по всему, вычисляют исходя из количества задействованных предметов.

Все эти навыки превосходят возможности большинства современных искусственных нейросетей. И действительно, реакция удивления далеко не тривиальна. Удивление свидетельствует о том, что мозг сумел оценить шансы на тот или иной исход и пришел к выводу, что наблюдаемое событие крайне маловероятно. Поскольку во взгляде младенцев видны все признаки удивления, их мозг явно способен к вероятностным вычислениям. Кстати, одна из самых популярных современных теорий функционирования мозга рассматривает этот орган как вероятностный компьютер, который манипулирует распределениями вероятностей и использует их для предсказания будущих событий. Эксперименты показывают, что таким «продвинутым» калькулятором вооружены даже младенцы.

В ходе целой серии исследований было установлено: помимо калькулятора, мозг младенца снабжен всеми механизмами, позволяющими делать сложные вероятностные выводы. Помните математическую теорию вероятностей преподобного Байеса, благодаря которой можно проследить наблюдаемое явление до его вероятных причин? Похоже, дети способны применять правило Байеса уже через несколько месяцев после рождения49. Они не только знают, как перейти от ящика с цветными шарами к соответствующим вероятностям (прямая цепочка умозаключений), как мы только что убедились, но и умеют переходить от наблюдений обратно к содержимому ящика (обратная цепочка умозаключений). В одном эксперименте малышам показывают непрозрачный ящик, после чего человек с завязанными глазами вынимает из него несколько шаров. Шары появляются один за другим; большинство из них красного цвета. Могут ли младенцы сообразить, что в ящике лежит множество красных шаров? Да! В конце исследователи открывают ящик. Если оказывается, что большинство шаров зеленые, дети удивляются и смотрят в ящик дольше, чем в ящик, полный красных шаров. Их логика безупречна: если в ящике лежат в основном зеленые шары, как объяснить тот факт, что экспериментатор достал так много красных?

Хотя вам может показаться, что в этом поведении нет ничего особенного, оно подразумевает необычайную способность к имплицитным, бессознательным рассуждениям, работающим в обоих направлениях: на основании случайной выборки младенцы могут угадать характеристики множества, а на основании множества – характеристики случайной выборки.

Таким образом, с самого рождения наш мозг уже наделен интуитивной логикой. В настоящее время существует множество вариантов базовых экспериментов, описанных выше. Все они свидетельствуют об одном: дети ведут себя, как настоящие ученые, и рассуждают, как хорошие специалисты по статистике, исключая наименее вероятные гипотезы и выискивая скрытые причины различных явлений50. В частности, американский психолог Фэй Сюй показала, что, если одиннадцатимесячные дети видят, как исследователь достает из контейнера преимущественно красные шары, а затем обнаруживают, что большинство шаров в ящике желтые, они не только удивляются, но и делают дополнительный вывод: этот человек предпочитает красные шары!51 Если же дети видят, что выборка не случайна, то есть следует определенному шаблону (скажем, желтый шар, красный шар, желтый шар, красный шар), они приходят к заключению, что ее произвел человек, а не машина52.

Логика и вероятность тесно связаны. Как говорил Шерлок Холмс, «мой старый принцип расследования состоит в том, чтобы исключить все явно невозможные предположения. Тогда то, что остается, является истиной, какой бы неправдоподобной она ни казалась»[16]. Другими словами, мы можем превратить вероятность в уверенность, используя рассуждение для исключения некоторых возможностей. Если ребенок способен «жонглировать» вероятностями, значит, он владеет и логикой, ибо логическое мышление – всего лишь ограничение вероятностного рассуждения вероятностями 0 и 153. Недавно философ и психолог Люка Бонатти доказал это экспериментально. В его исследованиях десятимесячный ребенок видит, как за ширмой прячут два объекта: цветок и динозавра. Затем один из этих объектов достают, но какой именно – неизвестно: он лежит в горшке, так что видна только верхняя часть. После этого с другой стороны ширмы появляется динозавр. В этот момент ребенок может сделать логический вывод: «В горшке либо цветок, либо динозавр. Но это не может быть динозавр, потому что я только что видел, как он появился с другой стороны. Значит, в горшке цветок». И это работает: ребенок не удивляется, если исследователь достает из горшка цветок, но бурно реагирует, если там оказывается динозавр.

Кроме того, взгляд ребенка отражает интенсивность его логического мышления: как и у взрослого, его зрачки расширяются в тот момент, когда дедукция становится возможной. Малыш – настоящий Шерлок Холмс в пеленках – начинает с нескольких гипотез (это либо цветок, либо динозавр), а затем исключает некоторые из них (это точно не динозавр), тем самым переходя от вероятности к уверенности (это точно цветок).

«Теория вероятностей – язык науки», – говорит нам Джейнс, и младенцы уже знают этот язык: задолго до того, как они произносят первы�

Скачать книгу

Прежде всего хорошо изучите ваших воспитанников, ибо вы решительно их не знаете.

Жан-Жак Руссо, «Эмиль, или О воспитании» (1762)

Странный и удивительный факт: мы изучили каждый сантиметр человеческого тела, составили каталог всех животных, населяющих нашу планету, дали описание и придумали название каждой травинке, но веками довольствовались эмпирическим подходом к психологии, как будто она менее важна, чем искусство лекаря, животновода или фермера.

Жан Пиаже, «Современная педагогика» (1949)

Если мы не знаем, как мы учимся, откуда нам знать, как преподавать?

Л. Рафаэль Райф, ректор Массачусетского технологического института (23 марта 2017)

Stanislas Dehaene

HOW WE LEARN

Copyright © 2020 by Stanislas Dehaene. All rights reserved

Научный редактор

И. Захаров,

старший научный сотрудник лаборатории возрастной психогенетики Психологического института РАО

© Чечина А.А., перевод на русский язык, 2020

© Оформление. ООО «Издательство «Эксмо», 2021

«Каждая книга известного французского психофизиолога Станисласа Деана – это событие. Не стала исключением и эта. В ней рассматриваются важнейшие вопросы когнитивной нейронауки: как происходит научение, как мы приобретаем новые знания, чем работа мозга во время обучения отличается от работы компьютера? Несмотря на столь сложную тему, книга написана чрезвычайно ярким и доступным языком, при этом в ней полностью сохранена научная точность и аккуратность при изложении фактов и теорий. Важно отметить, что Станислас Деан не просто перечисляет те или иные факты по теме, но и предлагает собственную оригинальную гипотезу «нейронного рециклинга», позволяющую совершенно по-новому взглянуть на многие, казалось бы давно известные наблюдения. Думаю, что я непременно буду рекомендовать эту книгу своим студентам».

Станислав Козловский,

доцент кафедры психофизиологии факультета

психологии МГУ имени М.В. Ломоносова

Введение

В сентябре 2009 года я познакомился с одним удивительным ребенком. Именно он заставил меня в корне пересмотреть мои представления о научении. Я был в огромном белом здании, вдохновленном архитектурой Оскара Нимейера[1], – Неврологическом реабилитационном центре имени Сары Кубичек в Бразилии, с которым моя лаборатория сотрудничала уже около десяти лет. Директор, Лючиа Брага, отвела меня к одному из пациентов – семилетнему мальчику Фелипе, который пролежал на больничной койке больше половины своей жизни. В возрасте четырех лет его ранили на улице – к сожалению, это не такое уж редкое событие в Бразилии. Шальная пуля повредила спинной мозг и уничтожила зрительные центры в головном мозге. В результате малыш полностью утратил подвижность и ослеп. Чтобы ему было легче дышать, врачи проделали в его трахее – у самого основания шеи – небольшое отверстие. Вот уже три года Фелипе жил в больничной палате, запертый в тюрьме собственного неподвижного тела.

Помню, как, идя по коридору, я мысленно приготовился увидеть несчастного, искалеченного ребенка. А потом я увидел… Фелипе, такого же очаровательного маленького мальчика, как и все семилетние дети: разговорчивого, жизнерадостного и любознательного. Он свободно говорил на английском языке и задал мне несколько каверзных вопросов о французских словах. Оказывается, ему всегда нравились языки, и он никогда не упускал возможности пополнить свой словарный запас (малыш владел тремя языками: португальским, английским и испанским). Хотя Фелипе был слеп и прикован к постели, он нашел спасение в воображении и сочинял чудесные истории. Персонал больницы активно поддерживал его увлечение и всячески старался ему помочь. Через несколько месяцев Фелипе научился диктовать свои рассказы помощнику, а позже стал записывать их самостоятельно – с помощью специальной клавиатуры, подключенной к компьютеру и звуковой карте. Педиатры и логопеды по очереди дежурили у детской кроватки, превращая его сочинения в настоящие тактильные книги с рельефными иллюстрациями. Я видел, как он гордо перелистывает их пальчиками, используя те крохи осязания, которые у него остались. Его истории повествуют о героях и героинях, горах и озерах, которые он никогда не увидит, но о которых мечтает, как любой маленький мальчик.

Встреча с Фелипе глубоко тронула меня, а также убедила внимательнее присмотреться к тому, что, вероятно, следует считать величайшим талантом нашего мозга: способности учиться. Фелипе – ребенок, само существование которого бросает вызов нейронауке. Как когнитивные способности нашего мозга умудряются противостоять столь радикальному изменению среды? Почему мы с Фелипе можем мыслить схожим образом, хотя наш сенсорный опыт в корне различен? Как разные люди приходят к одним и тем же понятиям, почти независимо от того, как и когда происходит их усвоение?

Многие нейробиологи – убежденные эмпирики: вслед за английским философом эпохи Просвещения Джоном Локком (1632–1704) они настаивают, что мозг черпает все свои знания из внешнего мира. С этой точки зрения главным свойством корковых нейронных сетей[2] должна быть пластичность, возможность адаптироваться к входным сигналам. И действительно, нервные клетки обладают поразительной способностью регулировать свои синапсы в ответ на поступающие импульсы. Однако будь это главным драйвером работы мозга, мой маленький Фелипе, лишенный постоянного притока зрительных и моторных сигналов, неизбежно стал бы весьма ограниченной личностью. Каким же чудом ему удалось развить совершенно нормальные когнитивные способности?

Случай Фелипе отнюдь не уникален. Всем известна история Хелен Келлер (1880–1968) и Мари Эртен (1885–1921): первая потеряла зрение и слух в младенчестве, вторая родилась глухой и слепой. Тем не менее спустя годы мучительной социальной изоляции обе освоили язык жестов и в конце концов стали блестящими мыслителями и писательницами1. На страницах этой книги мы познакомимся со многими людьми, которые, я надеюсь, радикально изменят и ваши взгляды на научение. Один из них – выдающийся математик Эммануэль Жиру, потерявший зрение в одиннадцать лет. Перефразируя слова Лиса из «Маленького принца» Антуана де Сент-Экзюпери (1943), Жиру уверенно заявляет: «В геометрии самого главного глазами не увидишь. Зорок один лишь разум». Но как этот слепой человек вообще ориентируется в абстрактных пространствах алгебраической геометрии и так легко манипулирует плоскостями, сферами и объемами, хотя даже не видит их? В ходе исследований мы выясним, что Эммануэль использует те же самые нейронные сети, что и другие математики, но его зрительная кора, вместо того чтобы оставаться неактивной, переквалифицировалась на решение задач.

Я также познакомлю вас с Нико – молодым художником, который, посетив музей Мармоттан в Париже, создал отличную копию знаменитой картины Моне «Впечатление. Восходящее солнце» (см. цветную иллюстрацию 1). Что же в этом такого исключительного, спросите вы. Ничего, лишь тот факт, что у Нико всего одно полушарие, левое, – правое было почти целиком удалено в возрасте трех лет! В итоге мозг Нико втиснул все свои таланты в оставшуюся половину: не только речь, письмо и чтение, как у обычных людей, но и рисование, которое обычно считается функцией правого полушария, а также компьютерные науки и даже фехтование на инвалидных колясках – вид спорта, в котором Нико получил звание чемпиона Испании. Забудьте все, что вам говорили о разделении обязанностей между полушариями: жизнь Нико доказывает, что любой человек без правого полушария может стать креативным и талантливым художником! Нейропластичность воистину творит чудеса.

Мы посетим печально известные детские дома Бухареста, где дети с рождения не получали практически никакого внимания – однако же годы спустя школьный опыт некоторых из них (преимущественно усыновленных до года или двух) оказался близок к нормальному.

Все эти примеры иллюстрируют необычайную гибкость человеческого мозга: даже такие тяжелые травмы, как слепота, потеря полушария и социальная изоляция, не могут лишить нас возможности учиться. Речь, чтение, математика, художественное творчество – все эти уникальные таланты человека, которыми не обладает ни один другой примат, успешно противостоят обширным повреждениям, включая удаление целого полушария, потерю зрения или утрату двигательных навыков. Поскольку научение – жизненно важный процесс, человеческий мозг наделен невероятной пластичностью – способностью к самоизменению, приспособлению. Тем не менее в некоторых случаях процесс научения буквально останавливается и не приводит к позитивным изменениям. Возьмем чистую алексию, неспособность прочесть ни единого слова. Я лично обследовал нескольких таких взрослых: все они прекрасно умели читать, но после инсульта, затронувшего крошечную область их мозга, утратили способность расшифровывать даже такие простые слова, как «дом» или «кот». Помню, среди них была умнейшая женщина – преданная поклонница французской газеты Le Monde. Она говорила на трех языках и была глубоко опечалена тем фактом, что отныне для нее любая газетная страница выглядит как китайская грамота. Несмотря на последствия перенесенного инсульта, женщина решила во что бы то ни стало научиться читать заново. И все же спустя два года усиленных тренировок ее навыки чтения по-прежнему остались на уровне детского сада: ей требовалось несколько секунд, чтобы прочесть одно слово, буква за буквой, и она спотыкалась на каждом слове. Почему она не могла научиться? И почему некоторые дети, страдающие дислексией, дискалькулией или диспраксией, не в состоянии овладеть навыками чтения, счета или письма, хотя другим они даются так легко?

Пластичность мозга капризна. Иногда она действительно позволяет преодолеть огромные трудности. А иногда дети и взрослые – умные и в высшей степени мотивированные – сохраняют мучительные нарушения на всю жизнь. Зависит ли это от конкретных нейронных сетей? Снижается ли пластичность с возрастом? Можно ли ее восстановить? Какие законы ею управляют? Чем обусловлена поразительная эффективность мозга с рождения и на протяжении всего детства? Какие алгоритмы позволяют нашим нейронным сетям формировать представления о мире? Поможет ли понимание принципов их действия учиться быстрее и лучше? Могут ли они вдохновить нас на создание более «умных» машин, искусственного интеллекта, который будет имитировать работу человеческого мозга или даже превзойдет его? На эти и другие вопросы я попытаюсь дать ответ в данной книге. В ее основу положен междисциплинарный подход: во всех наших рассуждениях мы прежде всего будем опираться на последние научные открытия в самых разных областях знаний: в когнитивистике, нейробиологии, в сфере искусственного интеллекта и педагогики.

Зачем учиться?

Почему мы вообще должны учиться? Сам факт того, что мы наделены способностью получать знания, вызывает вопросы. Разве не было бы лучше, если бы дети могли говорить и думать с самого первого дня, подобно Афине, которая, согласно легенде, появилась на свет из головы Зевса уже взрослой, в полном вооружении и, едва «роды» закончились, испустила боевой клич? Почему мы не рождаемся уже подготовленными, с предварительно загруженными поведенческими программами и знаниями, необходимыми для выживания? Разве в дарвиновской борьбе за жизнь у животного, которое рождается зрелым и обладает более обширными знаниями, чем другие, не больше шансов победить и распространить свои гены? Зачем эволюции понадобилось изобретать научение?

Я отвечу так: предварительное программирование мозга и невозможно, и нежелательно. Невозможно? Но почему? Хотя бы потому, что для подробного кодирования всех наших знаний человеческой ДНК просто не хватило бы емкости. Наши двадцать три пары хромосом содержат три миллиарда пар «букв» A, C, G, T – молекул аденина, цитозина, гуанина и тимина. Сколько информации они несут? Информация измеряется в битах, которые могут иметь два значения: 1 или 0. Поскольку каждая из четырех букв генома кодирует два бита (мы можем записать их как 00, 01, 10 и 11), наша ДНК содержит в общей сложности шесть миллиардов битов. Однако, как вы помните, в современных компьютерах мы считаем информацию байтами – последовательностями из восьми битов. Следовательно, человеческий геном можно свести примерно к 750 мегабайтам. Это емкость старомодного компакт-диска или небольшого USB-накопителя! И это при том, что в своих расчетах мы не учитывали многочисленные повторения, которыми изобилует наша ДНК.

Из столь скромного объема информации, унаследованного нами спустя миллионы лет эволюции, наш геном, изначально ограниченный одной-единственной оплодотворенной яйцеклеткой, выстраивает весь план организма – каждую молекулу каждой клетки в печени, почках, мышцах и, конечно же, в мозге: восемьдесят шесть миллиардов нейронов, тысячу триллионов связей… Как же ему это удается? Если предположить, что каждое из наших нервных соединений кодирует только один бит (хотя это явное преуменьшение), емкость нашего мозга должна составлять около ста терабайт (или 1015 битов). Иными словами, его емкость в сто тысяч раз больше емкости нашего генома. Возникает парадокс: фантастический дворец, который представляет собой наш мозг, содержит в сто тысяч раз больше деталей, чем чертежи архитектора, которые используются для его постройки! Я вижу только одно объяснение: структурный каркас дворца возводится в соответствии с указаниями архитектора (генома), а детали находятся в ведении руководителя проекта, который корректирует план в зависимости от местности (окружающей среды). Поскольку с этой точки зрения предварительно описать человеческий мозг во всей его полноте невозможно, на помощь генам приходит научение.

Данная метафора, однако, не объясняет, почему научение столь распространено в животном мире. Даже простые организмы, вообще не имеющие коры головного мозга (например, дождевые черви, дрозофилы и морские огурцы), усваивают многие из присущих им форм поведения в результате научения. Рассмотрим маленького червячка под названием нематода, или C. elegans. За последние двадцать лет это миллиметровое животное стало настоящей лабораторной звездой: дело в том, что его строение в основном определяется генетически и может быть проанализировано вплоть до мельчайших подробностей. Большинство особей имеют ровно 959 клеток, включая 302 нейрона, все связи которых хорошо изучены. И все же нематоды учатся2. Первоначально исследователи рассматривали это существо как своего рода робота, который только и умеет, что плавать взад-вперед, однако позже было установлено, что ему доступны по крайней мере два вида научения: привыкание (габитуация) и ассоциация. Габитуация относится к способности организма адаптироваться к повторяющемуся стимулу (например, к молекуле в воде, в которой живет животное) и постепенно переставать реагировать на него. Ассоциация, напротив, состоит в обнаружении и запоминании аспектов окружающей среды, служащих надежными предикторами источника пищи или опасности. Нематода – чемпион ассоциации: она, например, может вспомнить, какие вкусы, запахи или температуры ранее были связаны с пищей (бактерии) или с молекулами репеллента (запах чеснока), и использовать эту информацию для выбора оптимального маршрута движения.

При таком небольшом количестве нейронов поведение червя вполне можно было бы запрограммировать заранее. Но это не так. Причина в том, что способность приспосабливаться к специфической среде, в которой животное родилось, крайне полезна и даже необходима для его выживания. Даже два генетически идентичных организма необязательно окажутся в одной и той же экосистеме. В случае нематоды способность оперативно корректировать свое поведение в зависимости от плотности, химического состава и температуры места, в котором она очутилась, позволяет ей выбирать оптимальный курс действий. В более общем смысле всякое животное должно быстро адаптироваться к непредсказуемым условиям текущего окружения. Естественный отбор – чрезвычайно эффективный алгоритм, открытый Дарвином, – безусловно, содействует адаптации каждого организма к своей экологической нише, но делает это с ужасающе низкой скоростью. Целые поколения будут обречены на смерть, прежде чем некая полезная мутация увеличит шансы вида на выживание. Способность учиться, напротив, работает гораздо быстрее: она может изменить поведение в течение нескольких минут, что является самой квинтэссенцией научения – привить навык максимально быстро адаптироваться к непредсказуемым условиям.

Вот почему учиться так важно. В ходе эволюции животные, которые обладали даже зачаточной способностью к научению, имели больше шансов выжить, чем те, чье поведение было фиксировано, а потому чаще могли передать свой геном (уже включающий генетически управляемые алгоритмы научения) следующему поколению. Таким образом, естественный отбор благоприятствовал развитию способности к научению. Эволюционный алгоритм помог сделать важное открытие: возможность быстро менять определенные параметры тела, чтобы приспособиться к изменчивым условиям окружающей среды, будет только на пользу.

Естественно, некоторые аспекты физического мира неизменны: сила тяжести действует повсюду, а скорость распространения света и звука не меняется в одночасье. Именно поэтому нам не нужно учиться отращивать уши, глаза или внутренние лабиринты, которые в рамках вестибулярной системы отслеживают ускорение нашего тела: все эти свойства заложены в нас генетически. Другие параметры – расстояние между глазами, вес и длина конечностей, высота голоса и прочее – варьируются, а потому мозг вынужден приспосабливаться к ним. Как мы увидим далее, человеческий мозг есть результат компромисса. Наша долгая эволюционная история наделила нас, с одной стороны, множеством врожденных нейронных связей (кодирующих все общие интуитивные категории, на которые мы делим мир: образы, звуки, движения, объекты, животные, люди), а с другой стороны – неким сложным алгоритмом научения, позволяющим нам совершенствовать эти навыки на основе жизненного опыта.

Homo docens

Если бы меня попросили описать исключительные таланты нашего вида одним словом, я бы ответил: «Научение». Мы не просто Homo sapiens, мы Homo docens[3] – вид, который учит себя сам. Большая часть наших знаний о мире не задана генами; мы извлекаем их из внешнего мира или получаем от тех, кто нас окружает. Ни одно другое животное не смогло столь радикально поменять свою экологическую нишу. Мы перебрались из африканской саванны в пустыни, горы, на острова и полярные ледники; мы жили в пещерах, строили города и даже побывали в космосе – и все это за несколько тысяч лет. Благодаря чему? Благодаря способности учиться. От освоения огня и изготовления каменных орудий до сельского хозяйства, научных изысканий и расщепления атома: история человечества – это история постоянного самообновления. В основе всех этих достижений лежит один секрет – экстраординарная способность нашего мозга формулировать гипотезы и выбирать те из них, которые лучше всего согласуются с внешним окружением.

Умение учиться – триумф нашего вида. Миллиарды параметров нашего мозга способны адаптироваться к нашей среде, нашему языку, нашей культуре, нашим обычаям и нашей пище. Эти параметры выбраны не случайно: в ходе эволюции дарвиновский алгоритм установил, какие пути необходимо задать предварительно, а какие должны окончательно сформироваться под влиянием внешнего мира. У нашего вида вклад научения особенно велик – хотя бы потому, что детство у человека длится гораздо дольше, чем у других млекопитающих. Поскольку мы обладаем уникальной способностью к речи и математике, наше учебное устройство легко ориентируется в обширных пространствах гипотез и их потенциально бесконечном множестве комбинаций, пусть даже все они уходят своими корнями в фиксированный и неизменный фундамент, унаследованный нами от предков.

Не так давно человечество обнаружило, что оно может еще больше развить эту замечательную способность с помощью одного института – школы. Педагогика – исключительная привилегия нашего вида: ни одно другое животное не занимается активным обучением своих детенышей, выделяя определенное время для наблюдения за их успехами, трудностями и ошибками[4]. Изобретение школы – института, систематизирующего неформальное образование, существующее во всех человеческих обществах, – значительно увеличило потенциал нашего мозга. Мы убедились, что можем воспользоваться высочайшей пластичностью детского мозга и внедрить в него максимум информации и умений. На протяжении веков наша школьная система совершенствовалась, и сегодня она охватывает период от пятнадцати лет и более. Доступнее стало и высшее образование. Университеты – это подлинные нейроперерабатывающие заводы, в которых наш мозг обретает и оттачивает свои главные таланты.

Образование – основной акселератор мозга. Неудивительно, что оно занимает первые строчки в перечне государственных расходов: без него сети корковых нейронов остались бы алмазами неограненными. Самой сложностью нашего общества мы обязаны тому положительному влиянию, которое образование оказывает на кору головного мозга: это чтение, письмо, арифметика, алгебра, музыка, чувство времени и пространства, улучшение памяти… Например, вы знали, что кратковременная память у грамотного человека, количество слогов, которое он может повторить, почти вдвое больше, чем у взрослого, который никогда не ходил в школу и остался неграмотным? А что IQ повышается на несколько единиц с каждым дополнительным годом обучения?

Научение научению

Образование приумножает и без того немалые возможности нашего мозга – но может ли он функционировать еще лучше? В школе и на работе мы постоянно задействуем алгоритмы научения, но делаем это интуитивно, не обращая внимания на то, как именно протекает данный процесс. Никто никогда не объяснял нам правила, согласно которым мозг запоминает и понимает или, наоборот, забывает и ошибается. Это печально, ибо сегодня человечество обладает весьма обширными научными знаниями по этому вопросу. На веб-сайте, созданном британским фондом British Education Endowment Foundation (EEF)3, перечислены наиболее эффективные педагогические вмешательства; одну из первых строк в этом рейтинге занимает обучение метакогнитивным процессам (метапознание – знание возможностей и ограничений собственного мозга). Умение учиться – пожалуй, самый важный фактор академической успеваемости.

К счастью, теперь мы многое знаем о том, как работает научение. Тридцать лет исследований на стыке компьютерных наук, нейробиологии и когнитивной психологии позволили нам более или менее прояснить алгоритмы, которые использует наш мозг, выявить задействованные сети нейронов, установить факторы, которые модулируют их производительность, а также разобраться, почему у людей они особенно эффективны. Все эти вопросы мы обсудим по очереди. Надеюсь, когда вы закроете эту книгу, вы будете гораздо лучше понимать, что именно происходит в вашей голове во время научения. На мой взгляд, крайне важно, чтобы каждый ребенок и каждый взрослый осознавал весь потенциал собственного мозга и, конечно же, его ограничения. Систематически препарируя наши ментальные алгоритмы и мозговые механизмы, современная когнитивистика придает новый смысл знаменитому сократовскому изречению «Познай самого себя». Сегодня речь идет уже не о простой интроспекции, но о понимании тонкой нейрональной механики, генерирующей наши мысли, и ее использовании в соответствии с нашими потребностями, целями и жела- ниями.

Новая наука о научении, безусловно, особенно актуальна для всех работников системы образования: прежде всего учителей и методистов. Я убежден: правильно преподавать, не обладая – будь то имплицитно или эксплицитно – ментальной моделью того, что происходит в умах учеников, невозможно. Какими интуитивными представлениями они наделены изначально? Какие шаги необходимо предпринять, чтобы двигаться вперед? Какие факторы могут помочь им развить свои навыки?

Хотя когнитивная нейробиология не располагает точными ответами на все вопросы, сегодня мы знаем, что все дети появляются на свет с одинаковой архитектурой мозга – мозга Homo sapiens, кардинально отличающегося от мозга других человекообразных обезьян. Разумеется, я не утверждаю, что мозг одного человека есть точная копия мозга другого: в силу причуд нашего генома и особенностей раннего развития нам присущи разные «таланты» и разная скорость научения. Но несмотря на эти – весьма незначительные – отличия, базовая схема одинакова у всех, равно как и организация алгоритмов научения. По этой причине существуют фундаментальные принципы, которым обязан следовать всякий хороший педагог. Так, все маленькие дети обладают общим набором абстрактных представлений в сферах языка, арифметики, логики и теории вероятностей, обеспечивающим фундамент для дальнейшего обучения. Кроме того, все учащиеся извлекают пользу из сосредоточенного внимания, активного вовлечения, обратной связи и ночной консолидации памяти. Эти факторы я называю «четырьмя столпами» научения: как мы убедимся, именно они лежат в основе универсального алгоритма научения, которым пользуются и взрослые, и дети.

Вместе с тем человеческому мозгу свойственны индивидуальные вариации. В крайних случаях они могут носить патологический характер. В настоящее время реальность таких нарушений развития, как дислексия, дискалькулия, диспраксия и расстройства внимания, уже не вызывает сомнений. К счастью, благодаря лучшему пониманию архитектуры, порождающей данные отклонения, мы обнаружили, что существуют простые стратегии их диагностики и компенсации. Посему одной из целей данной книги я вижу распространение этих научных знаний с тем, чтобы каждый учитель и каждый родитель мог выбрать оптимальную тактику обучения. Хотя дети сильно отличаются друг от друга по содержанию своих знаний, все они пользуются одними и теми же алгоритмами научения. Следовательно, педагогические приемы, успешно внедряемые в работе со всеми детьми, будут эффективны и для детей с нарушениями обучаемости – только применять их следует с большим вниманием, терпением, систематичностью и толерантностью к ошибкам.

Последнее особенно важно: хотя обратная связь по ошибкам необходима, многие дети со временем не только теряют уверенность в себе, но и утрачивают всякое любопытство. Проблема в том, что их зачастую наказывают за ошибки, а не помогают исправиться. В школах по всему миру обратная связь синонимична наказанию и стигматизации (в одной из глав мы подробно поговорим о том, какую роль играют в этой путанице школьные отметки). Отрицательные эмоции снижают учебный потенциал мозга, в то время как безопасная среда, не вызывающая чувства страха, наоборот, содействует восстановлению нейропластичности. Любой прогресс в образовании возможен только в том случае, если мы одновременно учитываем и эмоциональные, и познавательные аспекты нашего мозга – в современной когнитивной нейронауке оба считаются ключевыми элементами успешного научения.

Человек и машина

Сегодня перед человеческим интеллектом встает новая проблема: с недавних пор мы больше не являемся единственными чемпионами по способности учиться. Во всех областях знаний алгоритмы машинного обучения бросают вызов уникальному статусу нашего вида. Благодаря им современные смартфоны умеют распознавать лица и голоса, транскрибировать речь, переводить с одного языка на другой, управлять различными устройствами и даже играть в шахматы или го намного лучше, чем мы. Машинное обучение превратилось в многомиллиардную индустрию, черпающую вдохновение из организации и функционирования нашей собственной нервной системы. Но как работают эти искусственные алгоритмы? Помогут ли их принципы понять, что такое научение? Способны ли они уже сейчас имитировать работу живого мозга или им еще предстоит пройти долгий путь?

Хотя последние достижения в области информационных технологий завораживают, их ограничения очевидны. Классические алгоритмы глубокого обучения копируют лишь малую часть функционирования нашего мозга. По моему убеждению, эта часть соответствует первым стадиям сенсорной обработки, первым двумстам или тремстам миллисекундам, в течение которых наш мозг работает бессознательно. Данный тип обработки никоим образом не следует считать поверхностным: за долю секунды человеческий мозг может распознать лицо или слово, поместить его в контекст, понять и даже интегрировать в небольшое предложение… Проблема в том, что это сугубо восходящий процесс, не предполагающий каких-либо серьезных размышлений. Только на последующих стадиях обработки информации – более медленных и сознательных – наш мозг задействует все свои способности к рассуждению, умозаключению и анализу. Как с точки зрения логики, так и с точки зрения гибкости живой мозг значительно превосходит все современные машины. Даже самые продвинутые компьютерные архитектуры и те уступают человеческому младенцу в способности создавать абстрактные модели мира.

Даже в пределах своей основной специализации – например, в области быстрого распознавания форм – существующие алгоритмы гораздо менее эффективны, чем наш мозг. Современные компьютеры требуют миллионов, если не миллиардов, обучающих попыток. В самом деле, машинное обучение стало чуть ли не синонимом больших данных: в отсутствие гигантских объемов информации алгоритмы практически не способны извлечь абстрактные знания, которые можно перенести на новые ситуации. Другими словами, они не используют данные оптимальным образом.

В этом состязании младенческий мозг одерживает победу без труда: чтобы выучить новое слово, малышам достаточно одного или двух повторений. Их мозг выжимает максимум из минимума данных – умение, которое по-прежнему ускользает от компьютеров. Нейрональные алгоритмы научения умудряются извлечь суть из малейшего наблюдения. Если ученые желают добиться такой же производительности в машинах, им следует черпать вдохновение из механизмов, которые интегрировала в наш мозг сама эволюция. Это может быть внимание, которое позволяет нам отбирать информацию и усиливать релевантные сигналы, или, например, сон – алгоритм, посредством которого наш мозг синтезирует усвоенное в течение дня. Новые машины с такими свойствами уже появились, и их производительность неуклонно растет – в ближайшем будущем они, безусловно, составят серьезную конкуренцию нашему мозгу.

Согласно одной из новых теорий, причина, по которой человеческий мозг до сих пор превосходит машины, заключается в том, что он действует, как ученый-статистик. Постоянно вычисляя вероятности, он оптимизирует свою способность к научению. Судя по всему, в процессе эволюции наш мозг приобрел сложные алгоритмы, которые беспрерывно оценивают его знания и сопряженную с ними неуверенность (неопределенность). Такое систематическое внимание к вероятностям является в математическом смысле наилучшим способом в полной мере использовать каждую единицу инфор- мации4.

Недавние эксперименты подтверждают эту гипотезу. Даже младенцы понимают вероятности: по всей видимости, они с рождения встроены в их нейронные сети. Дети ведут себя как маленькие ученые: их мозг изобилует гипотезами, которые напоминают научные теории и проверяются на опыте. Способность оперировать вероятностями, по большей части бессознательно, вписана в саму логику нашего научения. Она позволяет любому из нас постепенно отвергать ложные гипотезы и сохранять только те теории, которые согласуются с данными. В отличие от других видов животных люди используют это чувство вероятностей для построения научных теорий о внешнем мире. Только мы – представители Homo sapiens – систематически генерируем абстрактные символические мысли и регулярно оцениваем их правдоподобие на основе новых наблюдений.

Инновационные компьютерные алгоритмы, учитывающие этот новый подход к научению, называются «байесовскими» – в честь преподобного Томаса Байеса (1702–1761), который сформулировал отдельные элементы этой теории еще в XVIII веке. Я предполагаю, что байесовские алгоритмы произведут настоящую революцию в машинном обучении: уже сегодня они способны извлекать абстрактную информацию не хуже любого ученого.

Наше путешествие в современную науку о научении состоит из трех частей.

Первая часть под названием «Что такое научение?» начинается с определения того, что значит для человека или животного – и для любого алгоритма или машины – учиться новому. Идея проста: учиться – значит последовательно формировать как в искусственных, так и в естественных нейронных сетях внутреннюю модель внешнего мира. Гуляя по незнакомому городу, я составляю его мысленную карту – миниатюрную модель улиц и переулков. Точно так же ребенок, который учится кататься на велосипеде, формирует подсознательную симуляцию того, как движения ног, нажимающих на педали, и рук, поворачивающих руль, влияют на устойчивость велосипеда. Аналогичным образом компьютерный алгоритм, который учится распознавать лица, собирает шаблонные модели возможных форм глаз, носов, ртов и их комбинаций.

Но как мы создаем правильную ментальную модель? Как мы увидим далее, ум учащегося можно уподобить гигантской машине с миллионами регулируемых параметров; настройки этих параметров в совокупности и определяют то, чему мы научились (например, где скорее всего будут находиться улицы на нашей ментальной карте окрестностей).

В головном мозге параметры – это синапсы, связи между нейронами, сила которых варьируется; в большинстве современных компьютеров параметры – это регулируемые веса или вероятности, определяющие силу каждой приемлемой гипотезы. Таким образом, научение – как в мозге, так и в машинах – требует поиска оптимального сочетания параметров, которые вместе определяют ментальную модель во всех ее подробностях. В этом смысле научение – проблема поиска; чтобы лучше понять, как научение работает в человеческом мозге, необходимо изучить, как алгоритмы обучения работают в современных компьютерах.

Сравнивая компьютерные алгоритмы с алгоритмами мозга in silico[5] и in vivo[6], мы постепенно получим более четкое представление о том, что означает научение на уровне мозга. Конечно, математикам и специалистам в области вычислительных систем не удалось разработать алгоритмы обучения, столь же мощные, как человеческий мозг, – пока. Тем не менее они все больше склоняются к теории оптимального алгоритма обучения, который должна использовать любая система, если она стремится к максимальной эффективности. Согласно этой теории, лучший ученик действует, как ученый, рационально использующий вероятности и статистику. Возникает новая модель: модель мозга как статистика, при которой корковые области мозга обрабатывают данные о вероятностях событий. Данная теория подчеркивает четкое разделение труда между наследственностью и средой: гены создают обширные пространства априорных гипотез, из которых впоследствии среда выбирает те, которые наилучшим образом описывают внешний мир. Иными словами, набор гипотез задан генетически, но их отбор зависит от опыта.

Согласуется ли эта теория с тем, как на самом деле работает мозг? И как научение реализуется в биологических нейронных сетях? Какие изменения происходят в нашем мозге, когда мы приобретаем новую компетенцию? Во второй части книги, «Как учится наш мозг», мы обратимся к психологии и нейробиологии. Особое внимание будет уделено младенцам – подлинным и непревзойденным самообучающимся машинам. Согласно новейшим исследованиям, они действительно ведут себя как юные специалисты по статистике. Их поразительная интуиция в сферах языка, геометрии, чисел и статистики подтверждает: младенцы могут быть чем угодно, но только не «чистым листом», tabula rasa[7]. При рождении детский мозг уже организован, он проецирует гипотезы на внешний мир с самого первого дня. Кроме того, дети обладают значительным запасом пластичности, которая отражается в беспрерывных изменениях синапсов. В пределах этой статистической машины наследственность и среда не противостоят друг другу – напротив, они действуют сообща. Результатом является структурированная, но пластичная система с уникальной способностью к самовосстановлению после травм и переориентации уже существующих нейронных сетей на овладение навыками, не предусмотренными эволюцией, – например, чтением или математикой.

В третьей части книги, «Четыре столпа научения», я подробно расскажу о некоторых хитростях, которые делают наш мозг самым эффективным самообучающимся устройством, известным на сегодняшний день. В значительной степени нашу способность к научению модулируют четыре основных механизма. Первый – это внимание, система нейронных сетей, которые отбирают, усиливают и передают сигналы, считающиеся нами релевантными, тем самым усиливая их воздействие в нашей памяти в сто раз. Второй столп – активное вовлечение: пассивный организм почти ничему не научится, ибо научение требует активного генерирования гипотез, мотивации и любопытства. Третий столп – обратная связь: всякий раз, когда реальность не совпадает с нашими ожиданиями, в нашем мозге распространяются сигналы ошибки. Они корректируют имеющиеся ментальные модели, исключают непригодные гипотезы и стабилизируют наиболее точные. Наконец, четвертый столп – это консолидация: периодически наш мозг компилирует (собирает воедино) то, что он усвоил, и переносит это в долговременную память, тем самым высвобождая нейронные ресурсы для дальнейшего научения. Важную роль в этом процессе консолидации играет повторение. Мозг активен даже во сне; во время сна он в ускоренном темпе воспроизводит свои прошлые состояния и перекодирует знания, приобретенные в течение дня.

Эти четыре столпа универсальны: младенцы, дети и взрослые всех возрастов используют их каждый раз, когда задействуют свою способность к научению. Вот почему все мы должны научиться владеть ими – именно так мы сможем научиться учиться. В заключении мы обсудим практические последствия этих научных открытий. Изменить наши подходы к научению и обучению в школе, дома или на работе вовсе не так сложно, как кажется. Простые рекомендации касательно игр, любознательности, социализации, концентрации и сна помогут еще больше развить то, что и так является величайшим талантом нашего мозга, – способность учиться.

Часть I

Что такое научение?

По сути, интеллект можно рассматривать как процесс преобразования неструктурированной информации в полезные и актуальные знания.

Демис Хассабис, исследователь искусственного интеллекта, основатель компании DeepMind (2017)

Что такое научение? Во многих языках это слово имеет тот же корень, что и латинский глагол apprehendere («схватывать»): apprehending в английском, apprendre во французском, aprender в испанском и португальском. И действительно, научиться – значит уловить некий фрагмент реальности и перенести его в мозг. В когнитивных науках принято считать, что научение состоит в формировании внутренней модели мира. В процессе научения первичные данные, которые улавливают наши органы чувств, превращаются в более или менее абстрактные идеи, пригодные для повторного использования в новом контексте, – малые модели реальности.

Ниже мы узнаем, что обо всем этом говорит когнитивистика и наука об искусственном интеллекте. Как возникают такие внутренние модели в мозге и машинах? Как меняется репрезентация (представление) информации, когда мы учимся? Что происходит на уровне, общем для любого организма – будь то человек, животное или компьютер? Обсудив различные инженерные хитрости, позволяющие машинам учиться, мы получим более четкое представление о той невероятной работе, которую проделывает мозг всякого ребенка, когда он учится видеть, говорить и писать. Как ни странно, детский мозг сохраняет преимущество: несмотря на все технические и научные достижения, современные алгоритмы машинного обучения копируют лишь малую часть способностей человеческого мозга. Разобравшись, где заканчивается машинное обучение и в чем мозг ребенка превосходит даже самый мощный компьютер, мы точно определим, что значит «научение».

Глава 1

Семь определений научения

Что значит «научение»? Мое первое и самое общее определение таково: научиться – значит сформировать внутреннюю модель внешнего мира.

Вы можете этого не осознавать, но ваш мозг хранит тысячи таких моделей. Образно говоря, они похожи на миниатюрные муляжи, более или менее точно повторяющие реальность. Например, у всех нас есть ментальная карта района и дома, в котором мы живем, – достаточно закрыть глаза и мысленно представить их в мельчайших подробностях. Разумеется, никто из нас не родился с этой картой – мы приобрели ее посредством научения.

Богатство и разнообразие наших ментальных моделей, по большей части бессознательных, поражает воображение. Так, у любого англоговорящего читателя имеется обширная ментальная модель английского языка; благодаря ей он понимает слова, которые сейчас читает, и может догадаться, что слово plastovski – не английское, слова swoon и wistful – точно английские, а слово dragostan – возможно[8]. Помимо языковой модели, мозг содержит и несколько моделей тела, которые он постоянно использует для коррекции положения конечностей при движении и для поддержания равновесия. Другие ментальные модели кодируют наши знания о физических объектах и взаимодействии с ними: вы знаете, как держать ручку, писать или ездить на велосипеде. Третьи описывают близких нам людей: у каждого человека имеется огромный ментальный каталог его родственников и знакомых, в котором задокументированы их внешность, голоса, вкусы и причуды.

Эти ментальные модели способны генерировать гиперреалистичные симуляции окружающей нас вселенной. Вы замечали, что иногда ваш мозг устраивает самые настоящие виртуальные реалити-шоу, в которых вы ходите, танцуете, посещаете новые места, ведете интересные беседы или испытываете сильные эмоции? Конечно, я говорю о снах! Кажется невероятным, но все мысли, которые приходят к нам в сновидениях, есть не что иное, как продукт неконтролируемой работы внутренних моделей мира.

Впрочем, мы «изобретаем» реальность не только во сне: бодрствуя, наш мозг постоянно проецирует гипотезы и интерпретативные системы на внешний мир. Это происходит потому, что каждое изображение, попадающее на сетчатку глаза, неоднозначно. Например, всякий раз, когда мы видим тарелку, ее изображение подобно бесконечному количеству эллипсов. Почему же мы видим тарелку круглой, хотя органы чувств говорят нам, что она овальная? Все дело в дополнительных данных, которые поставляет наш мозг: он знает, что круглая форма – наиболее вероятная интерпретация. За кулисами сенсорные области непрерывно вычисляют вероятности, и в сознание попадает только наиболее вероятная модель. Именно проекции мозга в конечном счете придают смысл потоку данных, поступающему от органов чувств. В отсутствие внутренних моделей необработанные сенсорные данные остались бы бессмысленными.

В процессе научения наш мозг захватывает фрагмент реальности, который он ранее упустил, и использует его для построения новой модели мира. Такие модели могут отражать как внешнюю реальность, так и внутреннюю: первые формируются, когда мы изучаем историю, ботанику или карту города; вторые – когда мы учимся координировать движения во время игры на скрипке. В обоих случаях мозг интернализирует (т.е. встраивает внутрь) некий новый аспект реальности: фактически, чтобы усвоить неизвестный материал, он соответствующим образом перенастраивает свои нейронные сети.

Такие изменения, безусловно, не совершаются наугад. Научение – это прежде всего способность приспосабливаться к внешнему миру и способность исправлять ошибки. Но откуда мозг «знает», как обновить внутреннюю модель, если, скажем, он заблудился и не может найти свой дом, упал с велосипеда, проиграл партию в шахматы или неправильно написал слово «экстаз»? Рассмотрим семь ключевых идей, которые лежат в основе современных алгоритмов машинного обучения и которые применимы и к человеческому мозгу, – семь различных определений того, что значит «научение».

Научение – это регулировка параметров ментальной модели

Иногда корректировка ментальной модели не представляет сложностей. Вообразите, что вы видите некий предмет и протягиваете к нему руку. Что происходит? Еще в XVII веке Рене Декарт (1596–1650) предположил, что наша нервная система должна содержать особые нейронные сети, преобразующие зрительные сигналы в мышечные команды (см. рисунок ниже). Вы можете убедиться в этом сами: попробуйте схватить предмет, надев очки другого человека, желательно близорукого. Еще лучше, если вам удастся раздобыть призматические очки, смещающие видимое изображение на дюжину градусов влево5. Естественно, первая попытка закончится провалом: из-за призм вы протянете руку не в сторону самого предмета, а гораздо правее. Путем последовательных проб и ошибок вы скорректируете свои движения и впредь будете брать левее. С каждым разом ваши движения будут все более и более точными – это ваш мозг учится компенсировать смещение. Но если снять очки и попробовать снова, вы с удивлением обнаружите, что ваша рука тянется не туда. Вы взяли слишком далеко в левую сторону!

Что такое научение? Учиться – значит корректировать параметры внутренней модели. Например, чтобы научиться указывать на предмет пальцем, необходимо устранить смещение видимого изображения: каждая ошибка несет в себе полезную информацию, позволяющую сократить разрыв. В искусственных нейронных сетях применяется та же логика, хотя число возможных регулировок значительно больше. Распознавание рукописного знака требует тонкой настройки миллионов связей. Опять же, каждая ошибка – в данном случае это неверный выходной сигнал «8» – может быть использована для корректировки параметров соединений, что позволяет улучшить производительность в следующем испытании.

Что же произошло? Всего за несколько минут ваш мозг скорректировал внутреннюю модель зрения. Параметр этой модели, отвечающий за несоответствие между видимым изображением и положением вашего тела, был установлен на новое значение. Во время процесса корректировки методом проб и ошибок ваш мозг делает то, что делает всякий охотник, регулирующий оптический прицел своего ружья: он совершает пробный выстрел и на основании результатов сдвигает видоискатель в нужном направлении. Данный тип научения протекает быстро: достаточно нескольких попыток, чтобы компенсировать смещение видимых объектов. Однако новые параметры несовместимы со старыми – отсюда систематическая ошибка, которая возникает всякий раз, когда мы снимаем призмы и возвращаемся к нормальному зрению.

Бесспорно, данный вид научения является весьма специфичным, поскольку требует корректировки только одного параметра (угла обзора). Обычно научение носит гораздо более сложный характер и предполагает регулировку десятков, сотен и даже тысяч миллионов параметров (каждого синапса в соответствующей сети нейронов). Тем не менее сам принцип остается неизменным: все сводится к поиску тех настроек внутренней модели, которые наилучшим образом отвечают состоянию внешнего мира.

Представим младенца, который недавно родился в Токио. В течение следующих двух-трех лет его внутренняя речевая модель должна будет адаптироваться к особенностям именно японского языка. Мозг этого малыша подобен машине с миллионами настроек на каждом уровне. Некоторые из этих настроек – например, на слуховом уровне – определяют, какой набор согласных и гласных используется в японском языке и какие правила позволяют их комбинировать. Ребенку, родившемуся в японской семье, предстоит узнать, какие фонемы составляют японские слова и где следует проводить границы между звуками. Один из параметров, в частности, касается различий между звуками [р] и [л]. Во многих языках между ними существует разительный контраст, но только не в японском: японцы не видят разницы между «ложей» и «рожей». Следовательно, каждый ребенок обязан отрегулировать целый набор параметров, которые в совокупности определяют, какие категории речевых звуков релевантны для его родного языка.

Похожая процедура научения повторяется на каждом уровне – от звуковых паттернов до лексики, грамматики и смыслового содержания. Мозг организован в виде иерархии моделей реальности, вложенных одна в другую наподобие матрешки. Учиться – значит использовать поступающие данные для корректировки параметров на каждом уровне этой иерархии. Рассмотрим пример высокого уровня: усвоение грамматических правил. Еще одна ключевая особенность японского языка заключается в порядке слов. В каноническом предложении с подлежащим, сказуемым и дополнением сначала идет подлежащее, затем сказуемое и, наконец, дополнение: «Джон + ест + яблоко». В японском языке, наоборот, сначала стоит подлежащее, затем дополнение – и только потом глагол: «Джон + яблоко + ест»[9]. Примечательно, что тот же порядок характерен для предлогов (которые фактически становятся послелогами), притяжательных местоимений и многих других частей речи. Например, безобидная фраза «Мой дядя мечтает работать в Бостоне» превращается в изречение, достойное Йоды из «Звездных войн»: «Дядя мой Бостоне в работать мечтает».

Любопытно, но все эти инверсии имеют нечто общее. Лингвисты считают, что они обусловлены одним-единственным параметром – так называемой «позицией вершины». В английском, русском и других языках определяющее слово конструкции – ее вершина – обычно стоит на первом месте (в Париже, мой дядя, хочет жить), а в японском – на последнем (Париже в, дядя мой, жить хочет). Этот бинарный параметр отличает многие языки, даже те, которые не связаны исторически (язык навахо, например, подчиняется тем же правилам, что и японский). Таким образом, чтобы овладеть родным языком – скажем, английским или японским, – ребенок должен соответствующим образом настроить параметр «позиция вершины» в своей внутренней языковой модели («до» или «после»).

Научение – это использование комбинаторного взрыва

Неужели овладение речью действительно сводится к заданию каких-то там параметров? В это трудно поверить – но лишь потому, что мы не в состоянии представить то огромное поле возможностей, которое открывается перед нами с увеличением количества параметров, поддающихся регулировке. Это так называемый «комбинаторный взрыв» – экспоненциальный рост возможностей, возникающий при объединении даже небольшого их числа. Предположим, что грамматика мировых языков может быть описана примерно 50 бинарными параметрами, как это постулируют некоторые лингвисты. В итоге мы получаем 250 комбинаций – более миллиона миллиардов возможных языков, или 1 с пятнадцатью нулями! Синтаксические правила трех тысяч реально существующих языков легко вписываются в это гигантское пространство. Однако наш мозг содержит не пятьдесят регулируемых параметров, а гораздо больше – восемьдесят шесть миллиардов нейронов, каждый из которых образует около десяти тысяч синаптических контактов, причем сила этих связей может варьироваться. Выходит, пространство ментальных представлений практически бесконечно.

Человеческие языки активно используют эти комбинации на всех уровнях. Рассмотрим, например, ментальный лексикон: набор слов, которые мы знаем и модель которых постоянно носим в своей голове. Так, любой англоговорящий взрослый свободно владеет примерно 50 тысячами слов с самыми разнообразными значениями[10]. На первый взгляд это гигантский словарный запас, но человек умудряется приобрести его примерно за десять лет. Все потому, что мы можем разложить учебную задачу на составляющие. Учитывая, что эти пятьдесят тысяч слов в среднем состоят из двух слогов, каждый из которых состоит примерно из трех фонем, выбранных из сорока четырех фонем, существующих в английском языке, двоичное кодирование всех этих слов дает менее двух миллионов элементарных двоичных вариантов («битов» со значением 0 или 1). Другими словами, весь словарный запас взрослого человека уместился бы в небольшой 250-килобайтный компьютерный файл (каждый байт состоит из 8 битов).

Ментальный лексикон можно ужать еще сильнее, если принять во внимание большую избыточность языка. Любые шесть букв, выбранные наугад, например xfdrga, не всегда образуют английское слово. Настоящие слова состоят из слогов, объединенных согласно строгим правилам. Это верно на всех уровнях: предложения – это правильные сочетания слов, слова – это правильные сочетания слогов, а слоги – это правильные сочетания фонем. Комбинации эти многочисленны (человек выбирает из нескольких десятков или сотен элементов), но в конечном счете ограничены (допускаются только определенные комбинации). Фактически овладение языком – это обнаружение параметров, управляющих возможными комбинациями на всех уровнях.

Вкратце, человеческий мозг разбивает задачу научения на подзадачи, создавая иерархическую, многоуровневую модель. Особенно это очевидно в случае языка, включающего несколько уровней, или ярусов, – от элементарных звуков до целых предложений и даже полноценных бесед. Тот же принцип иерархической декомпозиции реализован во всех сенсорных системах. Некоторые участки мозга улавливают низкоуровневые паттерны: они видят мир сквозь крошечное пространственно-временное окно и анализируют мельчайшие закономерности. Например, в первичной зрительной коре каждый нейрон анализирует лишь очень небольшую область сетчатки. Он смотрит на мир через маленькое отверстие и, следовательно, обнаруживает только низкоуровневые закономерности – например, наличие движущейся наклонной линии. Миллионы нейронов выполняют одну и ту же работу в разных точках сетчатки; их выходы становятся входами следующего уровня, который обнаруживает «закономерности в закономерностях» и так далее. На каждом уровне область анализа расширяется: мозг ищет более масштабные закономерности как во времени, так и в пространстве. Именно эта иерархия позволяет нам обнаруживать сложные объекты или понятия: линию, палец, кисть, руку, человеческое тело… Нет, подождите, вообще-то тела два! Два человека стоят лицом друг к другу и пожимают руки… Да это же первая встреча Трампа и Макрона!

Научение – это минимизация ошибок

Вычислительные алгоритмы, которые мы называем «искусственными нейронными сетями», построены по принципу иерархической организации коры головного мозга. Подобно коре, они содержат последовательные слои, каждый из которых пытается обнаружить более сложные закономерности, чем предыдущий. Поскольку эти слои организуют поступающие данные на все более и более глубоких уровнях, такие сети часто называют «глубокими» (или «глубинными»). Каждый слой сам по себе способен обнаружить лишь простейшие элементы внешней реальности (в таких случаях математики говорят о линейном разделении, то есть каждый нейрон может разделить имеющиеся данные только на две категории, А и Б, проведя через них прямую линию). Тем не менее, если собрать множество таких слоев, можно получить чрезвычайно мощное обучаемое устройство, способное обнаруживать сложные структуры и приспосабливаться к самым разнообразным задачам. Современные искусственные нейронные сети, использующие преимущества новейших компьютерных микросхем, относятся к глубоким в том смысле, что содержат десятки последовательных слоев. Чем дальше от входа находится слой, тем выше его «проницательность» и способность идентифицировать абстрактные свойства.

Возьмем алгоритм LeNet, созданный французским пионером искусственных нейросетей Яном Лекуном (см. цветную иллюстрацию 2)6. Уже в 1990-х годах эта сеть добилась замечательных результатов в распознавании рукописных знаков. Многие годы канадская почта использовала ее для автоматической обработки почтовых индексов. Как она работает? На входе алгоритм получает изображение символа в виде пикселей, а на выходе предлагает одну из возможных интерпретаций десяти цифр или двадцати шести букв. Искусственная сеть состоит из иерархии простых процессоров, которые немного напоминают нейроны и образуют последовательные слои. Первые слои подключены непосредственно к изображению: в них применяются простые фильтры, распознающие линии и фрагменты кривых. Процессоры высоких уровней содержат более мощные и сложные фильтры и могут научиться распознавать крупные части изображений: изгиб цифры 2, замкнутую петлю буквы O, параллельные линии буквы Z. Искусственные нейроны выходного слоя реагируют на символ независимо от его положения, шрифта или регистра. Все эти свойства не навязаны программистом: они вытекают из миллионов связей, которые соединяют процессоры. Эти связи, однажды отрегулированные автоматизированным алгоритмом, определяют фильтр, который каждый нейрон применяет к поступающим сигналам; именно эти настройки объясняют, почему один нейрон реагирует на цифру 2, а другой – на цифру 3.

Но как же настраиваются эти миллионы связей? Точно так же, как наш мозг, когда мы надеваем призматические очки! Всякий раз, когда сеть дает предварительный ответ, ей сообщают, правильный он или нет. Если ответ неправильный, сеть корректирует соответствующие параметры, дабы избежать ошибки в следующий раз. Каждый неправильный ответ несет в себе ценную информацию. Как и в случае с призматическими очками (слишком большое смещение вправо или влево), характер ошибки подсказывает системе, что именно нужно было сделать, чтобы решить задачу правильно. Вернувшись к источнику ошибки, машина определяет оптимальные параметры, которые впредь позволят ее избежать.

Вернемся к охотнику, которому нужно отрегулировать оптический прицел своего ружья. Процедура обучения элементарна. Охотник стреляет и обнаруживает, что взял на пять сантиметров правее. Теперь он располагает важной информацией как об амплитуде (пять сантиметров), так и о характере ошибки (смещение вправо). Эти сведения дают ему возможность скорректировать следующий выстрел. Если охотник умный, он быстро сообразит, как исправить ситуацию: если пуля отклонилась вправо, необходимо сдвинуть прицел чуть влево. А если он не настолько проницателен, он может выбрать другую мишень и проверить, что произойдет, если прицелиться правее. Таким образом, путем проб и ошибок охотник рано или поздно обнаружит, какие именно манипуляции с прицелом уменьшают отклонение пули от намеченной цели.

Меняя положение прицела, наш храбрый охотник применяет алгоритм научения, хотя сам этого не осознает. Он имплицитно вычисляет то, что математики называют «производной» системы, или ее градиентом, и использует «метод градиентного спуска». Иными словами, охотник учится смещать видоискатель ружья в направлении, уменьшающем вероятность ошибки.

Несмотря на миллионы входов, выходов и регулируемых параметров, большинство искусственных нейросетей, используемых в современном искусственном интеллекте, действуют точно так же, как наш охотник: они анализируют свои ошибки и на их основе корректируют свое внутреннее состояние в направлении, которое должно эти ошибки уменьшить. Во многих случаях такое обучение строго контролируется. Мы сообщаем сети, какой именно ответ она должна была выдать на выходе («Это 1, а не 7»), и точно знаем, в каком направлении необходимо корректировать параметры, если они привели к ошибке (математические вычисления позволяют определить, какие именно связи следует модифицировать, если в ответ на изображение цифры 1 сеть слишком часто дает на выходе 7). На языке машинного обучения это называется «обучением с учителем» (поскольку некто знает правильный ответ, который должна дать система) и «обратным распространением ошибки» (поскольку сигналы об ошибке отправляются обратно в сеть для изменения ее параметров). Процедура проста: я пробую ответить, мне сообщают правильный ответ, я определяю свою ошибку и корректирую параметры, чтобы впредь этой ошибки не совершать. На каждом этапе я делаю лишь небольшие поправки в нужном направлении. Вот почему такое обучение может протекать крайне медленно: в ходе овладения сложным видом деятельности вроде игры в Tetris данный цикл необходимо повторить тысячи, миллионы, даже миллиарды раз. Это и неудивительно: в пространстве с множеством регулируемых параметров поиски оптимальных настроек для каждой гайки и болта могут занять некоторое время.

Данный принцип постепенной коррекции ошибки был реализован уже в самых первых искусственных нейросетях, созданных в 1980-х годах. Достижения в области вычислительной техники позволили распространить эту идею на гигантские нейронные сети, включающие сотни миллионов регулируемых соединений. Эти глубокие нейросети состоят из последовательностей этапов, каждый из которых адаптируется к текущей задаче. Например, на цветной иллюстрации 4 представлена система GoogLeNet на основе архитектуры LeNet. Последняя была предложена Яном Лекуном и выиграла один из самых престижных международных конкурсов по распознаванию образов. Анализируя миллиарды изображений, система научилась распределять их на тысячи различных категорий: лица, пейзажи, лодки, автомобили, собаки, насекомые, цветы, дорожные знаки и так далее. Каждый уровень ее иерархии настроен на некий важный аспект реальности: например, нейроны низших уровней избирательно реагируют на линии и текстуры. Чем выше уровень, тем больше нейронов учится реагировать на сложные признаки: геометрические фигуры (круги, кривые, звезды), части объектов (карман брюк, ручку автомобильной двери, пару глаз) и даже целые объекты (здания, лица, пауков)7.

Стараясь минимизировать ошибки, алгоритм градиентного спуска обнаружил, что эти формы лучше всего подходят для классификации образов. Однако, если бы та же самая сеть получала на входе отрывки из книг или нотные листы, она бы настроилась иначе и научилась распознавать буквы, ноты или любые другие фигуры, распространенные в новой среде. Например, на цветной иллюстрации 3 показано, как сеть такого типа самоорганизуется для распознавания тысяч рукописных цифр8. На самом низком уровне данные смешаны: одни изображения внешне похожи, но представляют собой разные цифры (скажем, 3 и 8); другие, наоборот, выглядят по-разному, но в действительности обозначают одно и то же (цифру 8, например, каждый пишет по-своему – у кого-то верхний контур замкнут, у кого-то не замкнут и т.д.). На каждом этапе степень абстракции возрастает, пока все варианты одного и того же знака не будут сгруппированы вместе. Посредством процедуры сокращения ошибок искусственная сеть обнаруживает иерархию признаков, наиболее важных для распознавания рукописных цифр. Примечательно, что само по себе исправление ошибок позволяет обнаружить целый ряд подсказок, облегчающих решение поставленной задачи.

Концепция обучения путем обратного распространения ошибки лежит в основе многих современных компьютерных приложений. Это рабочая лошадка, благодаря которой смартфон умеет распознавать ваш голос, а умный автомобиль – «видеть» пешеходов и дорожные знаки. Весьма вероятно, что наш мозг тоже использует ту или иную ее версию. Впрочем, метод обратного распространения ошибки может принимать разные формы. За последние тридцать лет в области искусственного интеллекта достигнут невероятный прогресс; исследователи обнаружили множество приемов, облегчающих обучение. Ниже мы рассмотрим их более подробно – оказывается, они многое могут рассказать о нас самих и о том, как мы учимся.

Научение – это исследование пространства возможностей

Одна из проблем, связанных с описанной выше процедурой коррекции ошибок, заключается в том, что система может зациклиться на неоптимальных параметрах. Представьте мяч для гольфа, который всегда катится под уклон. Допустим, прямо сейчас он движется по склону холма. Если в какой-то момент он попадет в ямку или в углубление, то уже никогда не достигнет его подножия – низшей точки ландшафта, абсолютного оптимума. Нечто подобное может случиться и с алгоритмом градиентного спуска, который иногда застревает в точке «локального минимума». «Локальный минимум» – своеобразный колодец в пространстве параметров, ловушка, из которой нельзя выбраться. Как только это происходит, обучение останавливается, ибо все последующие изменения кажутся контрпродуктивными: любое из них лишь увеличивает частоту ошибок. Система чувствует, что научилась всему, чему могла, и слепо игнорирует настройки высшего уровня, хотя те могут находиться всего в нескольких шагах в пространстве параметров. Алгоритм градиентного спуска не «видит» их, ибо отказывается подняться наверх, чтобы опуститься еще ниже. Близорукий, он отваживается отойти только на небольшое расстояние от начальной точки, а потому может не заметить лучшие, но удаленные конфигурации.

Это кажется вам слишком абстрактным? Представим конкретную ситуацию: вы идете за покупками на рынок, где хотите купить продукты подешевле. Вы минуете первого продавца (цены у него явно завышены), обходите второго (у него слишком дорого) и, наконец, останавливаетесь около третьего. У третьего продавца товар гораздо дешевле, чем у двух предыдущих. Но кто поручится, что в конце прохода или, возможно, в соседнем городе цены не окажутся еще ниже? Иначе говоря, понятия «лучшая местная цена» и «глобальный минимум» не всегда означают одно и то же.

На такой случай у специалистов в области вычислительной техники припасен целый арсенал хитроумных приемов. Большинство состоит в том, чтобы ввести в поиск лучших параметров элемент случайности. Идея проста: вместо того чтобы двигаться на рынке по одному-единственному проходу, разумнее выбрать более хаотичный маршрут; вместо того чтобы позволить мячу для гольфа спокойно катиться вниз по склону, следует придать ему ускорение, тем самым уменьшив вероятность того, что он застрянет в ямке. Иногда алгоритмы стохастического поиска пробуют удаленные и частично случайные настройки: если лучшее решение находится в пределах досягаемости, шансы рано или поздно найти его достаточно велики. На практике ввести некоторую степень случайности можно самыми разными способами: задавая или обновляя параметры хаотичным образом, внося разнообразие в порядок примеров, добавляя шум к данным или используя только случайный набор связей. Все это повышает надежность обучения.

Некоторые алгоритмы машинного обучения черпают вдохновение из дарвиновского алгоритма, который управляет эволюцией видов: в ходе оптимизации параметров они вводят мутации ранее обнаруженных решений. Как и в биологии, скорость этих мутаций должна тщательно контролироваться; это позволяет машине исследовать новые решения, не тратя слишком много времени на разного рода «авантюры».

В основе другого алгоритма лежит отжиг – один из видов термической обработки, которым издавна пользовались кузнецы и ремесленники для оптимизации свойств металла. Метод отжига позволяет получить исключительно прочный клинок и состоит в многократном нагревании сплава при постепенно понижающихся температурах. Это повышает вероятность того, что атомы займут правильное положение. Недавно суть этого процесса была успешно перенесена в информатику: алгоритм имитации отжига вносит случайные изменения в параметры при постепенном понижении виртуальной «температуры». Вероятность случайного события высока в начале, а затем начинает снижаться, пока система не достигает оптимальной конфигурации.

Ученые обнаружили, что все эти приемы чрезвычайно эффективны – а значит, не исключено, что в ходе эволюции некоторые из них были «встроены» в наш мозг. Случайный поиск, стохастическое любопытство и зашумленные нейроны – все это играет важную роль в научении у Homo sapiens. И в игре «камень, ножницы, бумага», и в джазовой импровизации, и в анализе возможных решений математической задачи случайность есть один из важнейших компонентов решения. Как мы увидим ниже, всякий раз, когда дети переходят в режим обучения – то есть когда они играют, – они исследуют десятки возможностей, причем зачастую делают это беспорядочно, наобум. Ночью их мозг продолжает жонглировать идеями, пока не натыкается на ту, которая лучше всего объясняет пережитое в течение дня. В третьей части этой книги мы еще вернемся к полуслучайному алгоритму, который отвечает за ненасытное любопытство детей – и тех счастливых взрослых, которым удалось сохранить ум ребенка.

Научение – это оптимизация функции вознаграждения

Помните систему LeNet Лекуна, которая распознает формы цифр? Чтобы этот тип искусственной нейросети мог учиться, его необходимо обеспечить правильными ответами. Иными словами, сеть должна знать, какой из десяти возможных цифр соответствует каждое введенное изображение. Для исправления ошибок система должна вычислить разницу между своим и правильным ответами. Данная процедура получила название «обучения с учителем»: некто вне системы знает решение и пытается научить машину. Метод достаточно эффективный, однако следует отметить, что ситуация, в которой правильный ответ известен заранее, – большая редкость. Когда дети учатся ходить, никто не говорит им, какие именно мышцы нужно сокращать; их просто поощряют пробовать снова и снова, пока они не перестают падать. Другими словами, малыши учатся исключительно на основе оценки результата: я упал или же мне удалось наконец пересечь комнату.

С той же проблемой «обучения без учителя» сталкивается и искусственный интеллект. Например, когда машина учится играть в видеоигру, перед ней ставят одну-единственную задачу – набрать максимальное количество очков. Никто не говорит ей, какие именно действия необходимо для этого предпринять. Как же быть? Как машине самостоятельно найти эффективный и быстрый способ достичь поставленной цели?

«Очень просто», – сказали ученые и придумали так называемое «обучение с подкреплением», в рамках которого мы не сообщаем системе никаких подробностей о том, что она должна делать (этого никто не знает!), но определяем «награду» – например, в виде количества очков9. Что еще хуже, машина может узнавать это количество с задержкой, уже после совершения тех или иных действий. Обучение на основе отложенного подкрепления – принцип, на базе которого DeepMind, дочерняя компания Google, построила машину, способную играть в шахматы, шашки и го. В конце партии система получает один-единственный сигнал, свидетельствующий о выигрыше или проигрыше. Во время самой игры обратная связь отсутствует – засчитывается лишь окончательная победа над соперником. Как же тогда машине определить, что нужно делать? И, если уж на то пошло, как она может оценить свои действия, если известен только исход игры?

Ученые нашли хитрое решение. Они программируют машину так, чтобы она делала сразу две вещи: действовала и одновременно оценивала собственный прогресс. Одна половина системы, так называемый «критик», учится предсказывать конечный результат. Цель этой сети искусственных нейронов заключается в том, чтобы как можно точнее оценить состояние игры и предсказать ее исход: я выигрываю или проигрываю? Благодаря «внутреннему критику» система способна оценивать свои действия в любой момент времени, а не только в конце. На основании этой оценки другая половина машины, «актор» (собственно, «исполнитель»), корректирует свое поведение: пожалуй, мне не стоит делать то-то и то-то – «критик» считает, что это увеличит мои шансы на проигрыш.

Испытание за испытанием «актор» и «критик» работают в тандеме: один учится выбирать наиболее эффективные действия, другой – как можно точнее оценивать их последствия. Спустя некоторое время – в отличие от того парня из анекдота, который падает с небоскреба и на лету восклицает: «Пока все хорошо!» – сеть «актор – критик» обретает невероятную прозорливость: способность предсказывать, какие партии скорее всего будут выиграны, а какие неизбежно закончатся катастрофой.

Комбинация «актор – критик» – одна из самых эффективных стратегий современного искусственного интеллекта. При поддержке иерархической нейронной сети она буквально творит чудеса. Еще в 1980-х годах эта система выиграла чемпионат мира по нардам, а недавно позволила DeepMind создать многофункциональную нейронную сеть, способную играть в разного рода видеоигры вроде Super Mario или Tetris10. Достаточно задать пиксели изображения в качестве входных данных, возможные действия в качестве выходных данных и очки в качестве функции вознаграждения. Всему остальному машина научится сама. Играя в Tetris, она обнаружит, что на экране отображаются разные фигуры, что падающая фигура важнее остальных, что те или иные действия могут изменить ее ориентацию и положение в пространстве и так далее, – а затем выработает оптимальную тактику. В Super Mario изменения входных данных и вознаграждений учат машину обращать внимание на совершенно иные параметры: какие пиксели образуют тело Марио, как он движется, где находятся враги, как выглядят стены, двери, ловушки, бонусы… и как себя вести рядом с ними. Регулируя свои настройки – то есть миллионы связей, соединяющих слои, – сеть может адаптироваться ко всем типам игр и научиться распознавать формы Tetris, Pac-Man

1 Оскар Рибейру ди Алмейда ди Нимейер Суарис Филью (1907–2012) – латиноамериканский архитектор XX века, один из основателей современной школы бразильской архитектуры. (Прим. перев.)
2 В современной переводной литературе английский термин circuit переводится по-разному – «сеть», «цепь», «связь», «ансамбль», «контур», «комплекс», «система», «путь» и пр., хотя для всех этих структур в английском языке существуют свои термины. В настоящей книге мы будем использовать вариант «нейронная сеть», понимая под ней совокупность живых нейронов, соединенных друг с другом через синапсы и выполняющих общую функцию. (Прим. перев.)
3 Homo docens (лат.) – букв. Человек обучающий. (Прим. перев.)
4 На данный момент в науке нет однозначной точки зрения на этот счет. Ряд авторов предполагает, что активно обучают своих детенышей как минимум некоторые виды млекопитающих; возможно, и другие животные. См., например: Alem, S., Perry, C. J., Zhu, X., Loukola, O. J., Ingraham, T., Søvik, E., & Chittka, L. (2016). Associative mechanisms allow for social learning and cultural transmission of string pulling in an insect. PLoS Biology, 14(10), e1002564. (Прим. научн. ред.)
5 In silico (лат. «в кремнии») – термин, обозначающий компьютерное моделирование эксперимента; создан по аналогии с in vivo и in vitro. (Прим. перев.)
6 In vivo (лат. «внутри живого организма», «внутри клетки») – латинский термин, обозначающий проведение экспериментов на живом организме. (Прим. перев.)
7 Cпор о tabula rasa является одним из старейших споров в философии и связан с представлением о том, рождаются люди с уже заложенными в них индивидуальными различиями или нет. (Прим. научн. ред.)
8 Plastovski – слово с нетипичным для английского языка окончанием; swoon («обморок») и wistful («задумчивый») – типичные английские слова; dragostan – слово, отсутствующее в английском языке, но имеющее допустимый для английского языка фонетический и морфологический состав. (Прим. перев.)
9 Русский язык принадлежит к группе языков с таким же порядком слов, что и английский. Такая группа языков называется SVO (от англ. Subject – Verb – Object). Однако в русском языке – так же как, например, в финском или венгерском – этот порядок не подчиняется столь же жестким правилам, как в английском. (Прим. научн. ред.)
10 Вы можете проверить свой словарный запас (а также внести вклад в науку) с помощью интернет-ресурса – https://myvocab.info/
Скачать книгу