ИИ учится учиться, подражая другим ИИ

Команда исследователей искусственного интеллекта Google DeepMind разработала систему ИИ, демонстрирующую возможности социального обучения. В своей работе группа описывает приложение ИИ, которое показало, что оно способно осваивать новые навыки в виртуальном мире, копируя действия встроенного «эксперта».
ИИ учится учиться, подражая другим ИИ
Unsplash
ИИ сегодня обучается на огромном количестве примеров. Люди учатся чаще всего через социальное взаимодействие: человек смотрит как делают другие и старается повторить. А что если также обучать ИИ? Попробовали. Кое-что получилось.

Команда исследователей искусственного интеллекта Google DeepMind разработала систему ИИ, демонстрирующую возможности социального обучения. В своей работе группа описывает приложение ИИ, которое показало, что оно способно осваивать новые навыки в виртуальном мире, копируя действия встроенного «эксперта».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Большинство систем искусственного интеллекта, таких как ChatGPT, получают свои знания, используя огромные объемы данных, например, из репозиториев в Интернете. Однако такой подход, как отмечают представители отрасли, не слишком эффективен. Поэтому многие специалисты в этой области продолжают искать другие способы научить системы ИИ учиться.

Один из самых популярных подходов, используемых исследователями, — попытаться имитировать процесс обучения людей. Как и в традиционных приложениях искусственного интеллекта, люди учатся, знакомясь с известными элементами окружающей среды и следуя примерам других, которые знают, что делают. Но в отличие от приложений искусственного интеллекта люди могут усваивать информацию без огромного количества обучающих примеров.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ребенок может научиться играть в простую настольную игру, всего несколько минут понаблюдав за игрой других, — это пример культурной передачи. В новой работе исследовательская группа попыталась воспроизвести этот процесс, используя ИИ, ограниченный виртуальным миром.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Следуй за экспертом

GoalCycle3D. Трехмерное физическое симулированное пространство задач. Каждая задача содержит процедурно генерируемую местность, препятствия и сферы целей, параметры которых случайно выбираются при создании задачи. Каждый агент получает независимое вознаграждение за посещение целей в определенном циклическом порядке, также случайно выбранном при создании задачи. Правильный порядок не предоставляется агенту, поэтому он должен вывести порядок вознаграждения либо опытным путем, либо через культурную передачу от эксперта. Пространство задач представляет собой навигационные задачи неограниченной сложности, параметрами которых являются размер мира, плотность препятствий, неровность рельефа и количество целей.
GoalCycle3D. Трехмерное физическое симулированное пространство задач. Каждая задача содержит процедурно генерируемую местность, препятствия и сферы целей, параметры которых случайно выбираются при создании задачи. Каждый агент получает независимое вознаграждение за посещение целей в определенном циклическом порядке, также случайно выбранном при создании задачи. Правильный порядок не предоставляется агенту, поэтому он должен вывести порядок вознаграждения либо опытным путем, либо через культурную передачу от эксперта. Пространство задач представляет собой навигационные задачи неограниченной сложности, параметрами которых являются размер мира, плотность препятствий, неровность рельефа и количество целей.
Nature Communications (2023). DOI: 10.1038/s41467-023-42875-2

Работа команды включала сначала создание виртуального мира (под названием GoalCycle3D), состоящего из неровной местности, на которой располагались различные препятствия и разноцветные сферы. Затем они добавили агентов ИИ, которые должны были путешествовать по виртуальному миру, избегая препятствий и проходя через сферы. Агентам были снабжены обучающимися модулями, но никакой другой информации о мире, в котором они будут действовать у них не было.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Виртуальный мир и ИИ-агенты в нем
Виртуальный мир и ИИ-агенты в нем
Nature Communications (2023). DOI: 10.1038/s41467-023-42875-2

Чтобы заставить агентов учиться, им давали награды за успешное преодоление препятствий и позволяли снова и снова проходить через множество похожих виртуальных миров. В конце концов агенты научились пробираться через виртуальный мир к желаемому месту назначения. Затем исследователи добавили в виртуальный мир еще одну особенность: агентов-экспертов, которые уже знали, как лучше всего добраться из одного места в другое, не сталкиваясь с препятствиями. В новом сценарии агенты-неспециалисты вскоре поняли, что самый быстрый способ добраться до желаемого пункта назначения — это учиться у агента-эксперта.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Наблюдая за обучением агентов, исследователи обнаружили, что агенты учились у эксперта гораздо быстрее, чем это они делали сами, и могли лучше ориентироваться в новых похожих виртуальных мирах, имитируя то, чему они научились от эксперта в предыдущих испытаниях. ИИ-агенты также смогли применять такие навыки (благодаря модулям памяти) даже в отсутствие эксперта — это пример, как утверждают исследователи, социального обучения.