Новый искусственный интеллект от DeepMind одинаково хорош как в шахматах, так и в покере

DeepMind представила систему искусственного интеллекта Player of Games, которая может играть в самые разные игры — например, в шахматы, го и покер (и не только). В рамках игры ИИ учится предугадывать цели и мотивы других участников, что может быть полезно не только в играх, но и при поиске компромисса.
Новый искусственный интеллект от DeepMind одинаково хорош как в шахматах, так и в покере
Unsplash

Player of Games хорошо играет как в игры, где важна стратегия, (шахматы и го), так и в игры, где важнее другие факторы.

Пусть Player of Games крайне универсален, нельзя сказать, что он может играть в абсолютно любую игру. Система должна учитывать все возможные ходы каждого игрока во взятой игровой ситуации. Тут начинается самое интересное.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

ИИ неплохо показывает себя как в играх с полной информацией (когда игрок знает всё предысторию игры до текущего момента, как в шахматах), так и в играх с неполной информацией (как в покере, когда у игрока есть «белые пятна» в знании позиции других игроков). Правда, Player of Games нуждается в ознакомлении с правилами игры и не создан обучаться им в ходе партии, в отличие от MuZero.

Player of Games обучили с использованием процессоров Google TPUv4 игре в шахматы, го, техасский холдем и стратегической настольной игре Скотленд Ярд. Считается, что обучение другого представителя «игроков» AlphaZero обходится в десятки миллионов долларов — вряд ли обучение Player of Games дешевле.

В разных играх у Player of Games были разные соперники — например, в го он играл только с AlphaZero, а в шахматы — с AlphaZero, GnuGo, Pachi и Stockfish. Соперником по техасскому холдему выступил Slumbot, а в Скотленд Ярд алгоритм играл против бота PimBot.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Player of Games оказался лучшим в покере и Скотленд Ярде. В шахматах и го Player of Games показал преимущество перед Stockfish и Pachi в некоторых случаях и выиграл лишь 0,5% игр у AlphaZero, выступив как «лучший из любителей». Правда, алгоритм работал лучше при наличии большего количества вычислительных ресурсов — только для игры в Скотленд Ярд обучающий набор состоял из 17 млн действий, поэтому в будущем его планируют масштабировать. Пускай игры и не имеют очевидного коммерческого применения — они демонстрируют когнитивные способности искусственного интеллекта.

Оригинальное исследование от DeepMind находится в открытом доступе на сервере препринтов arXiv.org