Система искусственного интеллекта впервые поняла, как собирать алмазы в чрезвычайно популярной видеоигре Minecraft. Это сложная задача, требующая нескольких шагов. ИИ-модель никто не учил как искать алмазы. Она научилась этому сама. Создатели модели говорят, что система, называемая Dreamer, является важным шагом к машинам, которые могут обобщать знания, полученные в одной области, чтобы использовать их в другой.
ИИ-модель научилась собирать алмазы в Minecraft

Важно, говорит Хафнер, что не бывает двух одинаковых миров: «Каждый раз, когда вы играете в Minecraft, это новый, случайно сгенерированный мир». Это делает игру очень полезным полигоном для испытания системы искусственного интеллекта, которую исследователи хотят научить обобщению.
Алмазы вечны

Исследователи сосредоточились на поиске алмазов, говорит Хафнер, потому что это требует ряда сложных шагов: надо выбрать деревья, их расколоть, сделать верстак, на нем сделать деревянную кирку, потом каменную, а уже потом железную кирку, только с ее помощью можно добраться до алмаза. Предыдущие попытки научить ИИ собирать алмазы основывались либо на использовании видео человеческой игры — модель смотрела и училась, либо на пошаговом обучении.
Но Dreamer исследует все в игре самостоятельно, используя метод проб и ошибок, так называемое обучение с подкреплением. Он определяет действия, которые, скорее всего, принесут награды, повторяет их и отбрасывает другие, не дающие наград. Обучение с подкреплением лежит в основе некоторых крупных достижений в области ИИ. Но предыдущие программы были специалистами, они не могли применять знания в новых областях, обучаясь с нуля.
Создай свой мир
По словам Хафнера, ключ к успеху модели Dreamer заключается в том, что он создает модель своего окружения и использует эту «модель мира» для «представления» будущих сценариев и руководства принятием решений. Как и наши собственные абстрактные мысли, модель мира не является точной копией окружения. Но она позволяет Dreamer пробовать разные варианты и предсказывать потенциальные награды за различные действия. «Модель мира действительно дает ИИ способность представлять будущее», — говорит Хафнер.
Эта способность может помочь в создании роботов, которые будут учиться ориентироваться и действовать уже реальном мире, где стоимость проб и ошибок намного выше, чем в видеоигре, говорит Хафнер.
Тестирование Dreamer на поиске алмазов не было целью команды. «Мы создали весь этот алгоритм, не думая об этом», — говорит Хафнер. Но команде пришло в голову, что поиск алмазов — идеальный способ проверить, может ли алгоритм работать из коробки на незнакомой задаче.

В Minecraft команда использовала протокол, который давал Dreamer вознаграждение «плюс один» каждый раз, когда он завершал один из 12 последовательных шагов, необходимых для получения алмаза, включая создание печи, добычу железа и ковку железной кирки.
Эти промежуточные награды побудили Dreamer выбирать действия, которые с большей вероятностью приведут к алмазу. Команда сбрасывала игру каждые 30 минут, чтобы Dreamer не привыкал к одной конкретной конфигурации, а изучал общие правила получения наград.
При таком обучении модели Dreamer требуется около девяти дней непрерывной игры, чтобы найти хотя бы один алмаз, говорит Хафнер. Опытный игрок-человек найдет алмаз за 20–30 минут, но новичкам потребуется значительно больше времени.
Кейон Вафа из Гарвардского университета в Бостоне, не принимавший участия в работе, говорит: «Это чрезвычайно сложная задача, и результаты замечательные. Еще более масштабной целью для ИИ является конечная цель игроков Minecraft: убийство Эндер-дракона, самого страшного существа виртуального мира». Этого Dreamer пока не умеет.