Как боты-мошенники заставляют проиграть сильнейшую программу по игре го. Люди тоже так могут

В работе некоммерческой компании FAR AI, показано, как можно использовать состязательные атаки, чтобы заставить ИИ ошибаться. Разработанные компанией боты сами играют го достаточно слабо, но умеют провоцировать ошибки у сильнейших ИИ, играющих в го.
Как боты-мошенники заставляют проиграть сильнейшую программу по игре го. Люди тоже так могут
Партия в го. Unsplash
Разговоры о сверхчеловеческом искусственном интеллекте набирают обороты. Но исследования выявили слабые места в одной из самых успешных систем ИИ — боте, который играет в настольную игру го и может победить лучших в мире игроков-людей. Оказывается, такое превосходство довольно хрупко.

В работе некоммерческой компании FAR AI, показано, как можно использовать состязательные атаки, чтобы заставить ИИ ошибаться.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В 2022 году исследователи сообщили, что научили состязательных ИИ-ботов побеждать KataGo2, лучшую систему искусственного интеллекта для игры в го с открытым исходным кодом, которая обычно легко побеждает лучших людей-игроков. Боты регулярно побеждали KataGo, хотя играют они довольно слабо, — люди-любители их побеждают. Более того, люди смогли понять уловки ботов и использовать их, чтобы победить KataGo.

Человек тоже может подсмотреть у ботов, как обыгрывать сильнейшие ИИ-программы
Человек тоже может подсмотреть у ботов, как обыгрывать сильнейшие ИИ-программы
DALLE-3
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Победа над KataGo

Была ли такая победа случайностью или работа 2022 года указала на фундаментальную слабость KataGo, и, как следствие, других систем искусственного интеллект? Это исследовали программисты под руководством Адама Глива, исполнительного директора FAR AI, некоммерческой исследовательской организации в Беркли, штат Калифорния.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

После статьи 2022 года разработчики KataGo дополнительно обучили ИИ на примерах партий, участвующих в атаках, чтобы он не ошибался в таких партиях. Но авторы последней статьи обнаружили, что состязательный бот побеждает даже обновленную версию KataGo, выигрывая в 91% случаев.

Другая защитная стратегия, которую опробовала команда Глива, была итеративной: они обучали версии KataGo играть против атакующих ботов, потом боты учились побеждать новую версию, потом на них обучался KataGo и так в течение девяти раундов. Но и это не привело к созданию непобедимой версии KataGo. Злоумышленники продолжали находить эксплойты, и последний вариант атакующего бота обыграл KataGo в 81% случаев.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Третья защитная стратегия была радикальной. Исследователи с нуля обучили новую систему искусственного интеллекта для игры в го. KataGo основан на вычислительной модели, известной как сверточная нейронная сеть (CNN). Исследователи подозревали, что CNN могут слишком сильно фокусироваться на локальных деталях и упускать из виду глобальные закономерности, поэтому они создали игрока в го, используя альтернативную нейронную сеть, так называемый преобразователь зрения (ViT). Но их атакующий бот опять нашел вариант, который помог ему победить поставить систему ViT в 78% случаев.

Слабые противники одерживают победы

ИИ-боты играют не намного сильнее котенка, но они выигрывают
ИИ-боты играют не намного сильнее котенка, но они выигрывают
DALLE-3
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Во всех этих случаях атакующие боты, хотя и были способны победить KataGo и другие ведущие системы игры в го, были обучены именно обнаружению скрытых уязвимостей других ИИ, а сами играли в го довольно слабо. «Мы сами их довольно легко победили», — говорит Глив. Эти боты не были сильнее, но они провоцировали ошибки сильного игрока.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но если люди могут использовать тактику атакующих ботов для победы над экспертными системами го, какой смысл называть эти системы «сверхчеловеческими»? Другое дело, что без помощи атакующих ботов люди практически никогда такую тактику не находят.

Глив говорит, что результаты могут иметь широкие последствия для любых систем искусственного интеллекта, включая большие языковые модели, лежащие в основе таких чат-ботов, как ChatGPT. «Основной вывод для ИИ заключается в том, что эти уязвимости трудно устранить», — говорит Глив. — «Если мы не сможем решить проблему на таком простом, вообще-то, примере как игра го, то в ближайшем будущем у нас мало шансов исправить такие проблемы, как влом ChatGPT». А ведь мы постоянно слышим о подобных провалах чат-ботов.

Что эти результаты означают для создания ИИ, который превосходит человеческие возможности? Хуан Чжан из Университета Иллинойса в Урбане-Шампейне, не принимавший участие в работе говорит: «Хотя на первый взгляд это может означать, что люди могут сохранять важные когнитивные преимущества перед ИИ в течение некоторого времени, я считаю, что самым важным выводом является то, что мы просто недостаточно хорошо понимаем системы искусственного интеллекта, которые сами создаем».