Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу
Метод обучения с подкреплением, получивший название RND (random network distillation) разработали в 2018 году в компании OpenAI. Разработали, потому что встали в тупик. ИИ-агенты замечательно (или по крайней мере неплохо) играли во все игры Atari кроме одной — «Месть Монтесумы». В среднем человек набирает в эту игру 4700 очков, а ИИ-агенты, разработанные OpenAI, четко набирали 0. И было непонятно, почему такой отличный метод, как обучение с подкреплением в этом случае не работает.
И тогда инженеры OpenAI изменили стратегию вознаграждения (подкрепления). Они сказали ИИ-агенту: самая большая твоя награда — это новые знания. То есть, самая интересная ситуация та, которую трудно предсказать. Если ты не знаешь, что там за углом, стоит свернуть.
«Месть Монтесумы» случайно оказалась настолько случайной средой, где правильно построить функцию вознаграждения трудно или невозможно. Награда за новые знания стала тем стимулом, который привел ИИ-агента к сильным результатам.
Опасный реальный мир
Роботу в реальности необходимо исследовать незнакомые среды. Но в отличие от онлайн-обучения, где у агента бесконечно много «жизней», и он никому не угрожает сам, у робота жизнь всего одна. Неизвестность — это опасность. Робот может погибнуть и может причинить вред. И лучше было бы, если бы он ходил только по известным безопасным маршрутам. Но не всегда возможно научить его всему заранее.
Ученые из Tinkoff Research предложили вариант, в определенном смысле прямо противоположный использованному в игре «Месть Монтесумы». Они пишут, что аналогично онлайн-обучению, где бонусы за новизну увеличивают вознаграждение, в офлайн-обучении бонусы за новизну должны вознаграждение уменьшать. Метод получил название «анти-исследование» (Anti-Exploration): вместо награды за смелость — штраф за безрассудство. И это корректирует поведение робота.
Безопасный путь к цели
Ученые решили применить «анти-исследование» для офлайн-обучения робота.
При использовании метода RND работают две нейросети — случайная и основная, которая пытается предсказать поведение первой. Важное свойство каждой нейросети — ее глубина: количество слоев, из которых она состоит. У основной сети не должно быть меньше слоев, чем у случайной, иначе она не сможет смоделировать ее поведение, что приведет к нестабильности или невозможности обучения. Ученые обнаружили, что в предыдущих работах глубина случайной сети составляла четыре слоя, а основной — два. Ученые глубину подравняли, добавили оптимизацию, и дело пошло.
Метод получил название SAC-RND (Soft Actor Critic-RND можно перевести: мягкий актор-критик — случайной нейронной сети). Он был протестирован на симуляторах и показал сильные результаты при меньшем количестве потребляемых ресурсов. Время получения устойчивого результата обучения было снижено в 20 раз. Метод продемонстрировали на Международной конференции по машинному обучению (ICML), которая в этом году прошла в 40-й раз в Гонолулу, Гавайи. Она только что завершилась — 29 июля.
Универсальный робот должен уметь осваивать незнакомую среду практически с нуля. Но при этом он должен обучаться находить безопасные пути. Создатели «анти-исследователя» сделали важный шаг в этом направлении.
Неизвестность — это всегда опасность. Исследование неизвестной среды требует в первую очередь точности и осторожности.