Робот учится клеить коллажи из газетных страниц

Исследователи из Сеульского национального университета попытались обучить агента искусственного интеллекта (ИИ) создавать коллажи, то есть произведения искусства, созданные путем склеивания различных частей материалов. «Девушка с жемчужной сережкой» Яна Вермеера получилась у ИИ-агента совсем неплохо.
Владимир Губайловский
Владимир Губайловский
Робот учится клеить коллажи из газетных страниц
«Птица», сделанная из газет, целевое изображение с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453 . Dai et al.
ИИ-агент научился клеить коллажи из кусочков газет. Получилось совсем неплохо. Правда, пока это только симуляция, но уже можно тестировать роборуку. Проблем еще много.

Исследователи из Сеульского национального университета попытались обучить агента искусственного интеллекта (ИИ) создавать коллажи (то есть произведения искусства, созданные путем склеивания различных частей материалов), воспроизводящие в том числе известные произведения искусства.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Искусство создания коллажей требует высокого человеческого мастерства, и мы задавались вопросом, как будут выглядеть коллажи, созданные ИИ», — пишут авторы работы. — «Существующие ИИ-инструменты создания изображений, такие как DALL-E или StableDiffusion, уже могут создавать изображения-коллажи, но это всего лишь "имитация", сложенная из пикселей, а не настоящий коллаж, который собирается из . Мы хотели научить ИИ создавать "настоящие коллажи".

В предыдущем исследовании, посвященном генерации рисунков, исследователи использовали обучение с подкреплением (RL), чтобы научить ИИ рисовать, так как рисуют люди — шаг за шагом, линию за линией. Затем ученые начали работать над генератором коллажей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Обучение с подкреплением

Основная цель последней статьи заключалась в том, чтобы научить агента ИИ создавать коллажи, максимально похожие на целевые изображения (например, картины, фотографии и т. д.), путем разрезания и склеивания.

Поскольку коллажи состоят из фрагментов материалов, для эффективного создания этих произведений агенту сначала необходимо протестировать различные варианты разрезания и склейки, чтобы в конечном итоге определить, из каких материалов получается коллаж, который лучше всего напоминает целевые изображения. Поначалу модель работала очень плохо, однако со временем ее навыки постепенно улучшались.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Агент при обучении с подкреплением учится увеличивать вознаграждение, при этом вознаграждение определяется сходством между тем, что получается у агента и целевым изображением», — говорят авторы. — «Функция вознаграждения тоже меняется: она обучается лучше оценивать сходство между коллажем, созданным агентом, и целевым изображением».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Во время обучения модели исследователей давали случайно назначенное случайное изображение и пытались создать коллаж, воспроизводящий это изображение на белом холсте. На каждом этапе создания коллажа агент выбирает случайный материал среди доступных вариантов и решает, как его вырезать и наклеить на холст.

«Поскольку целевые изображения и материалы задаются случайным образом во время обучения, агент учится работать с любыми целями и материалами на более позднем этапе», — говорят авторы.

«Лицо» из газет, целевое изображение (в левом нижнем углу) с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453.
«Лицо» из газет, целевое изображение (в левом нижнем углу) с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453.
https://arxiv.org/abs/2311.02202 Dai et al.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Важным преимуществом архитектуры команды является то, что она не требует никаких образцов коллажей и демонстрационных данных для обучения. Агент обучался на примерах материалов и целевых изображений.

«Не имея художественных данных и знаний, агент самостоятельно научился делать коллаж», — рассказали авторы. — «Это результат собственных исследований агента, что является примечательным достижением».

«Церковь» из газет, целевое изображение (в левом нижнем углу) с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453.
«Церковь» из газет, целевое изображение (в левом нижнем углу) с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453.
https://arxiv.org/abs/2311.02202 Dai et al.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Обученная модель постепенно освоила процесс создания коллажей и смогла обобщать широкий спектр изображений и сценариев. Пока что это было проверено только в симуляциях. Однако, если применить эту модель к гуманоидному роботу или роботизированной руке, она также может предоставить «чертежи» для создания физических коллажей.

Оценка качества коллажа

«Девушка с жемчужной сережкой» картина Яна Вермеера. Из газет, целевое изображение (в левом нижнем углу) с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453.
«Девушка с жемчужной сережкой» картина Яна Вермеера. Из газет, целевое изображение (в левом нижнем углу) с сайта pixabay.com/photos/kingfisher-bird-close-up-perched-2046453.
https://arxiv.org/abs/2311.02202 Dai et al.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Поскольку искусство очень субъективно, оценить качество коллажей, созданных моделью, непросто. Первоначально исследователи провели исследование среди пользователей, попросив их поделиться своим мнением о коллажах, созданных ИИ.

«Мы провели опрос пользователей, но этого может быть недостаточно», — заявили авторы. — «После долгих размышлений над более объективной оценкой мы решили использовать CLIP, большую предварительно обученную модель визуального языка. Поскольку CLIP обучается примерно на 400 миллионах пар текст-изображение, мы считаем, что он способен оценивать работу нашего агента более объективно, чем люди. И пользователи и CLIP сравнили нашу модель с моделями генерации изображений на основе пикселей, и пришли к схожим и достаточно высоким оценкам».