ИИ сам научился играть в игры на Atari и победил всех соперников

Новая программа MuZero способна сама разбираться в правилах игр и учиться побеждать в них. Она уже смогла пройти 57 игр на приставке Atari.

Нас уже не удивишь ИИ, который выигрывает у любого человека в шахматы или го. Но теперь, кажется, искусственный интеллект зашел слишком далеко: он может научиться играть в любую игру, даже изначально не зная ее правил

Алгоритм DeepMind от Google уже не один раз показывал свое превосходство над человеком и другими программами. Например, в 2017 году он за четыре часа победил лучшую программу-шахматиста, а за год до этого разгромил чемпиона мира по го. Также эта программа смогла выиграть у всех соперников-людей в Dota2. Но до сих пор алгоритм приходилось настраивать на новую игру заново — обучать и изменять код.

Теперь Google модифицировал свой искусственный интеллект так, что он может сам узнавать правила игры без исходных данных о ней. Новый алгоритм получил название MuZero. Вместо того, чтобы анализировать исходные знания об игре (например, как ходят фигуры в шахматах), эта программа буквально учится на своих ошибках. На каждом этапе MuZero сначала пытается понять свою позицию, затем ищет лучший вариант следующего хода и анализирует последствия предыдущего действия.

Изначально программе дали поиграть в три классические игры, на которых ранее обучали другие программы — шахматы, сёги и го. Подход оказался работающим и MuZero смогла довольно быстро понять правила игры и начать действовать согласно им. Более того, с го новый искусственный интеллект смог даже обойти своего предшественника AlphaGo, «заточенного» под эту игру. Примечательно, что в самом начале программе давалось всего пять возможных вариантов ходов.

Но на достигнутом исследователи не остановились. Они дали MuZero поиграть в 57 различных игр для приставки Atari, среди которых был и Ms. Pac-Man. Программа быстро научилась играть и побеждать в аркадах, даже если на начальном этапе имела всего шесть или семь доступных вариантов ходов. Также MuZero смогла победить разработанный ранее алгоритм R2D2 в 42 из 57 игр.