Первая в своем роде: создана открытая среда для контекстного обучения с подкреплением
Что такое контекстное обучение с подкреплением
In-Context RL, оно же контекстное обучение с подкреплением — это инновационный подход в исследованиях ИИ, цель которого заключается в обучении агентов более быстрой адаптации к новым задачам посредством подсказок и контекста.
Для сравнения, в традиционном обучении с подкреплением агент получает сигналы о результатах своих действий в виде награды, представляющей собой скалярную величину (она может быть как положительной, так и отрицательной), и пытается максимизировать суммарное вознаграждение в течение определенного времени; в контекстном же подходе вводится дополнительный уровень сложности: контекст может меняться в зависимости от обстоятельств в виде предшествующих действий, состояния среды или различных внешних факторов. Это значительно увеличивает адаптивность алгоритмов и расширяет их сферу применения.
In-Context RL особенно полезно в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенное приспособление к новым условиям.
До некоторых пор специалисты со всего мира не имели никакого вспомогательного ресурса для контекстного обучения с подкреплением. Нет, среды для этого существовали, но одни из них были корпоративными и не предоставляли доступ простым смертным, а другие в основном предлагали однотипные задачи для обучения, не позволяющие разрабатывать и тестировать сложные алгоритмы.
Отечественный супер-продукт
Наконец, в открытом доступе появилась виртуальная среда, которая позволяет менять условия обучения прямо в процессе работы. XLand-MiniGrid была разработана группой ученых из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Иннополиса; ее задача — создавать легко адаптирующихся к новым сценариям ИИ-моделей без участия узких специалистов, а также генерировать синтетические наборы данных.
Среда создана на базе JAX — технологии машинного обучения для разработки высокопроизводительных программ. Она, в отличие от более медленных аналогов, способна выполнять несколько миллиардов операций в секунду.
За счет высокой вариативности и огромному количеству действий в этой среде можно формировать огромные датасеты: так, в XLand-MiniGrid собрано 100 млрд примеров действий искусственного интеллекта в 30 тысячах задач, что позволяет использовать готовые датасеты для обучения агентов, а не собирать их каждый раз с нуля.
Создание открытой виртуальной среды гарантированно приведет к новым открытиям в области In-Context RL без лишних трат на проведение исследований.