Исследователи из Сеульского национального университета попытались обучить агента искусственного интеллекта (ИИ) создавать коллажи (то есть произведения искусства, созданные путем склеивания различных частей материалов), воспроизводящие в том числе известные произведения искусства.
Робот учится клеить коллажи из газетных страниц

«Искусство создания коллажей требует высокого человеческого мастерства, и мы задавались вопросом, как будут выглядеть коллажи, созданные ИИ», — пишут авторы работы. — «Существующие ИИ-инструменты создания изображений, такие как DALL-E или StableDiffusion, уже могут создавать изображения-коллажи, но это всего лишь "имитация", сложенная из пикселей, а не настоящий коллаж, который собирается из . Мы хотели научить ИИ создавать "настоящие коллажи".
В предыдущем исследовании, посвященном генерации рисунков, исследователи использовали обучение с подкреплением (RL), чтобы научить ИИ рисовать, так как рисуют люди — шаг за шагом, линию за линией. Затем ученые начали работать над генератором коллажей.
Обучение с подкреплением
Основная цель последней статьи заключалась в том, чтобы научить агента ИИ создавать коллажи, максимально похожие на целевые изображения (например, картины, фотографии и т. д.), путем разрезания и склеивания.
Поскольку коллажи состоят из фрагментов материалов, для эффективного создания этих произведений агенту сначала необходимо протестировать различные варианты разрезания и склейки, чтобы в конечном итоге определить, из каких материалов получается коллаж, который лучше всего напоминает целевые изображения. Поначалу модель работала очень плохо, однако со временем ее навыки постепенно улучшались.
«Агент при обучении с подкреплением учится увеличивать вознаграждение, при этом вознаграждение определяется сходством между тем, что получается у агента и целевым изображением», — говорят авторы. — «Функция вознаграждения тоже меняется: она обучается лучше оценивать сходство между коллажем, созданным агентом, и целевым изображением».
Во время обучения модели исследователей давали случайно назначенное случайное изображение и пытались создать коллаж, воспроизводящий это изображение на белом холсте. На каждом этапе создания коллажа агент выбирает случайный материал среди доступных вариантов и решает, как его вырезать и наклеить на холст.
«Поскольку целевые изображения и материалы задаются случайным образом во время обучения, агент учится работать с любыми целями и материалами на более позднем этапе», — говорят авторы.

Важным преимуществом архитектуры команды является то, что она не требует никаких образцов коллажей и демонстрационных данных для обучения. Агент обучался на примерах материалов и целевых изображений.
«Не имея художественных данных и знаний, агент самостоятельно научился делать коллаж», — рассказали авторы. — «Это результат собственных исследований агента, что является примечательным достижением».

Обученная модель постепенно освоила процесс создания коллажей и смогла обобщать широкий спектр изображений и сценариев. Пока что это было проверено только в симуляциях. Однако, если применить эту модель к гуманоидному роботу или роботизированной руке, она также может предоставить «чертежи» для создания физических коллажей.
Оценка качества коллажа

Поскольку искусство очень субъективно, оценить качество коллажей, созданных моделью, непросто. Первоначально исследователи провели исследование среди пользователей, попросив их поделиться своим мнением о коллажах, созданных ИИ.
«Мы провели опрос пользователей, но этого может быть недостаточно», — заявили авторы. — «После долгих размышлений над более объективной оценкой мы решили использовать CLIP, большую предварительно обученную модель визуального языка. Поскольку CLIP обучается примерно на 400 миллионах пар текст-изображение, мы считаем, что он способен оценивать работу нашего агента более объективно, чем люди. И пользователи и CLIP сравнили нашу модель с моделями генерации изображений на основе пикселей, и пришли к схожим и достаточно высоким оценкам».