Первая в своем роде: создана открытая среда для контекстного обучения с подкреплением

В последние годы интерес к методам машинного обучения и искусственного интеллекта значительно возрос. А особое внимание исследователей привлекает контекстное обучение с подкреплением, активное использование которого может существенно облегчить жизнь разработчикам ИИ-моделей и ускорить развитие технологий. Только представьте: нейросеть научится самостоятельно принимать решения и размышлять, почти как человек! И это уже совсем скоро станет реальностью.
Первая в своем роде: создана открытая среда для контекстного обучения с подкреплением
Unsplash
На научной арене появилась первая открытая виртуальная среда для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid.

Что такое контекстное обучение с подкреплением

In-Context RL, оно же контекстное обучение с подкреплением — это инновационный подход в исследованиях ИИ, цель которого заключается в обучении агентов более быстрой адаптации к новым задачам посредством подсказок и контекста.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Для сравнения, в традиционном обучении с подкреплением агент получает сигналы о результатах своих действий в виде награды, представляющей собой скалярную величину (она может быть как положительной, так и отрицательной), и пытается максимизировать суммарное вознаграждение в течение определенного времени; в контекстном же подходе вводится дополнительный уровень сложности: контекст может меняться в зависимости от обстоятельств в виде предшествующих действий, состояния среды или различных внешних факторов. Это значительно увеличивает адаптивность алгоритмов и расширяет их сферу применения.

In-Context RL особенно полезно в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенное приспособление к новым условиям.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Искусственный интеллект
Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

До некоторых пор специалисты со всего мира не имели никакого вспомогательного ресурса для контекстного обучения с подкреплением. Нет, среды для этого существовали, но одни из них были корпоративными и не предоставляли доступ простым смертным, а другие в основном предлагали однотипные задачи для обучения, не позволяющие разрабатывать и тестировать сложные алгоритмы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Отечественный супер-продукт

Наконец, в открытом доступе появилась виртуальная среда, которая позволяет менять условия обучения прямо в процессе работы. XLand-MiniGrid была разработана группой ученых из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Иннополиса; ее задача — создавать легко адаптирующихся к новым сценариям ИИ-моделей без участия узких специалистов, а также генерировать синтетические наборы данных.

«Среда, которую мы разработали, позволит значительно ускорить сравнение и создание новых алгоритмов в этой области»
Владислав Куренков
Руководитель научной группы «Адаптивные агенты», Институт AIRI

Среда создана на базе JAX — технологии машинного обучения для разработки высокопроизводительных программ. Она, в отличие от более медленных аналогов, способна выполнять несколько миллиардов операций в секунду.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
XLand-MiniGrid позволяет агентам совершать до 1 трлн взаимодействий со средой за три дня, что ускоряет эксперименты и проверку гипотез.
XLand-MiniGrid позволяет агентам совершать до 1 трлн взаимодействий со средой за три дня, что ускоряет эксперименты и проверку гипотез.
Архивы пресс-службы

За счет высокой вариативности и огромному количеству действий в этой среде можно формировать огромные датасеты: так, в XLand-MiniGrid собрано 100 млрд примеров действий искусственного интеллекта в 30 тысячах задач, что позволяет использовать готовые датасеты для обучения агентов, а не собирать их каждый раз с нуля.

«Мы пришли в область контекстного обучения с подкреплением, когда она еще зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит, она должна быть решена одной из первых»
Вячеслав Синий
исследователь научной группы AI Alignment, лаборатория исследований искусственного интеллекта T-Bank AI Research

Создание открытой виртуальной среды гарантированно приведет к новым открытиям в области In-Context RL без лишних трат на проведение исследований.