Искусственный интеллект обыграл в покер команду профессионалов
ИИ уже давно доминитуют в таких играх, как шахматы, а в прошлом году один из них победил профессионального игрока в Го, однако покер до сих пор оставался человеческой привилегией. Для создания DeepStack, исследователи разработали комбинацию из новых алгоритмов и систем машинного обучения, которые в некоторой степени имитируют работу человеческого мозга, позволяя машинам самостоятельно получать и анализировать информацию, делая на ее основе определенные выводы.
Шахматы и Го имеют для ИИ приоритет: они идеально подходят для создания информационных моделей. Обе стороны точно знают правила и могут анализировать как свои шансы, так и шансы противника, располагая для этого полной информацией. Каждое действие можно просчитать наперед, составив карту вероятностей. Texas Hold 'em — совсем другое дело. В этой версии покера, два или больше игроков случайно получают две закрытые карты. При введении в вигру каждого следующего набора открытых карт, игроки могут как продолжить игру, так и отказаться от дальнейшего участия или повысить ставку. Из-за того, что две стартовые карты случайны, игроки могут лишь угадывать то, как поведет себя противник и какие шансы у него на успех. В отличии от тех же шахмат, где математическую стратегию можно вывести из положения фигур на доске, тут куда большую роль играет удача и психологический фактор.
Майкл Боулинг, ученый из Университета Альберты в Эдмонтоне, Канада, говорит, что традиционной стратегией для ИИ будет проведение расчетов возможных результатов игры на каждом этапе, причем информационной базой для этого послужат другие партии, заранее загруженные в систему или сыгранные с живыми игроком. Чем больше информации — тем выше шанс на успех. Недостатком этого метода, впрочем, является то, что алгоритмы и стратегии могут попросту не сработать, ведь у компьютера все еще не будет полной информации о том, какими картами располагает противник.
Чтобы решить проблему, команда DeepStack решила избегать просчета всей игры сразу, позволив системе прогнозировать лишь следующие несколько ходов оппонента и постоянно пересчитывать прогнозы в зависимости от сделанного хода и полученных в руку карт. Таким образом, работают две аналитические системы нейронной сети: одна прогнозирует изменения на столе, другая сравнивает текущую игровую ситуацию со спискам из дата-центра. Для того, чтобы обучить DeepStack играть как следует, ученым пришлось сгенерировать порядка 10 миллионов случайных игровых ситуаций.
В качестве тестового испытания, в прошлом году ИИ выступил против пула из 33 профессиональных игроков в покер, выбранному Международной федерацией покера. В течение 4-х недель, люди провели с программой 44 852 игры в Texas Hold 'em, в версии для двух игроков, где участники могут ставить на кон все, что у них есть. После того, как исследователи исключили из списка все факторы простой удачи, оставив только стратегические ходы, они обнаружили, что итоговая скорость DeepStack 492 mbb/g (milli-big-blind per game). Milli-big-blind — это 1/1000 от ставки, необходимой, чтобы выиграть игру. И эта цифра почти в 10 раз больше, чем показатель, который в профессиональной среде игроков считается «значительным», отмечают исследователи в статье, опубликованной в Science.
Эти результаты во многом совпадают с успехом другого ИИ, Libratus разработанного учеными из Университета Карнеги-Меллона в Питтсбурге, штат Пенсильвания. В 20-дневном состязании в покер, эта программа победила команду из 4 профессиональных игроков в Texas Hold 'Em с итоговым счетом в 120 000 рук. Но несмотря на то, что обе системы показали значительное преимущество, Libtarus требует огромных вычислительных мощностей, в то время как DeepStack может быть запущен на простом ноутбуке.
Что дальше? Конечно, одними только выигрышами в азартные игры дело не ограничится. Обе системы уже проходят курс перепрофилирования для целого ряда задач, начиная от исследования систем безопасности общественного транспорта и заканчивая планированием ставок по ипотечному кредиту. Как бы то ни было, специалисты отмечают, что лишь спустя несколько лет DeepStack и его коллега смогут выполнять сложные социальные задачи, но даже тогда им потребуется внимание целого ряда операторов-людей.