07.03.2025, 09:13

ИИ-модели, проигрывая шахматную партию, начинают жульничать

Группа исследователей ИИ из компании Palisade Research обнаружила, что несколько ведущих моделей ИИ готовы прибегнуть к мошенничеству в шахматах, чтобы выиграть партию, играя с превосходящим их противником.

Владимир Губайловский

Теги:

Искусственный интеллект

Нейросети

Нейронауки

ИИ-модели, проигрывая шахматную партию, начинают жульничать

Unsplash

В сентябре 2024 года в рамках тестирования новой модели o1-preview компания OpenAI поставила довольно неожиданный эксперимент. ИИ-модели предложили решить определенную задачу, но решить ее можно было только с помощью взлома программного окружения. И модель смогла его взломать. Все проходило в контролируемой среде, но многие задумались над неожиданными возможностями новых моделей. Новая работа продолжает серию экспериментов, цель которых проверить, чего же могут добиться ИИ-модели, если их не ограничивать.

Ученые опубликовали статью на сервере препринтов arXiv, описывающую эксперименты, которые они провели с несколькими известными моделями ИИ, играющими против шахматного Stockfish с открытым исходным кодом — одной из сильнейших шахматных программ в мире.

Поскольку модели ИИ продолжают развиваться, исследователи и пользователи начали учитывать риски. Например, чат-боты дать ошибочный ответ, когда не способны найти правильный. Поскольку модели ИИ были использованы в реальных бизнес-приложениях, таких как фильтрация резюме и оценка тенденций акций, пользователи начали задаваться вопросом, какие действия ИИ будет предпринимать, если он не найдет верного решения.

Шахматы со взломом

Unsplash

В этом новом исследовании группа в Калифорнии обнаружила, что некоторые из наиболее известных моделей ИИ намеренно мошенничают, чтобы получить преимущество, если они понимают, что не выигрывают.

Работа включала в себя игру моделей OpenAI o1-preview, DeepSeek R1, GPT4o и Claude 3.5 Sonnet с шахматным движком Stockfish с открытым исходным кодом. Каждая из моделей сыграла сотни матчей со Stockfish, пока исследователи следили за действиями.

Шансов победить сильнейшую специализированную шахматную программу у универсальных ИИ было немного. Игра происходила в своего рода «аквариуме», где модели могли делать все что угодно, в отличие от реальности (хотя и цифровой), где существует жесткий контроль кибербезопасности.

Исследовательская группа обнаружила, что, будучи переигранными, модели ИИ вели себя по-разному. Рассуждающие модели OpenAI o1-preview и DeepSeek R1 сами решили использовать мошенническую стратегию. Они пытались запустить копию Stockfish, чтобы использовать его силу против него самого, и пытались «отредактировать» позицию на доске.

GPT4o и Claude 3.5 Sonnet сами никаких таких шагов не предпринимали, — они честно проигрывали. Для того, чтобы они попробовали мошенничать, исследователям пришлось их явно подтолкнуть (то есть дать прямое указание).

Ученые считают, что такое поведение ИИ, особенно самых современных рассуждающих моделей довольно тревожно, следует серьезно подумать о тех возможностях, которые модели могут использовать, и такие варианты внимательно проконтролировать.