ИИ-модель идеально вписывает изображение человека в любую картинку

Исследователи из Стэнфордского университета, Калифорнийского университета в Беркли и компании Adobe Research разработали ИИ-модель, которая может реалистично вставлять конкретных людей в различные сцены. Модель не просто берет готовое изображение и делает копи-паст. Она генерирует изображение человека, чтобы вписать его фигуру в сцену максимально естественно.
ИИ-модель идеально вписывает изображение человека в любую картинку
Вставка фигуры в изображение. https://arxiv.org/abs/2304.14406

ИИ-модель не просто делает копи-паст, но так меняет позу человека, чтобы он вписывался в изображение максимально реалистично

Появление генеративных моделей — вычислительных инструментов, которые могут генерировать новые тексты или изображения на основе данных, на которых они обучены, — открыло новые возможности для творческих индустрий. Например, они позволяют художникам и создателям цифрового контента легко создавать реалистичный медиаконтент, объединяющий элементы различных изображений или видео.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Вдохновленные этими достижениями, исследователи из Стэнфордского университета, Калифорнийского университета в Беркли и компании Adobe Research разработали модель, которая может реалистично вставлять конкретных людей в различные сцены, например, показывать, как они занимаются в спортзале, наблюдают закат на пляже и так далее.

Предложенная учеными архитектура основана на диффузионных моделях. Это тип генеративной модели, которая работает путем своего рода «разрушения» данных, на которых она была обучена: сначала добавляет к данным «шум», а затем восстанавливает исходные данные. Этот шум позволяет немного «покачать» картинку, чтобы найти оптимальное состояние. На диффузионных моделях строятся многие системы создания изображений по описаниям, например, система DALL-E компании OpenAI.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Люди и сцены
Девочка за роялем
https://arxiv.org/abs/2304.14406
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Наши входные данные включают изображение человека и изображение сцены с обозначенной серым областью, а на выходе мы получаем реалистичное изображение сцены, которое теперь включает человека», — объяснил ведущий автор работы Самит Кулал. — «Наша генеративная модель обучена на базе данных, состоящей из миллионов видео. Она готова для обработки новых сцен и людей. С ее помощью можно провести, скажем, виртуальную примерку одежды»

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи оценили свою генеративную модель в серии предварительных тестов, где они подавали ей новые изображения людей и сцен, а затем наблюдали, насколько хорошо она вписывает людей в эти сцены. Ученые обнаружили, что модель работает достаточно хорошо, создавая отредактированные изображения, которые выглядят вполне реалистично.

В будущем модель, разработанная учеными, может быть интегрирована в ряд творческих программных инструментов, чтобы расширить их функциональные возможности по редактированию изображений и в конечном итоге поможет работе художников и создателей медиа.

Кулал говорит: «Мы рассматриваем возможность включения большей управляемости генерируемой позой. Можно также расширить эту систему, чтобы генерировать реалистичные видео с людьми, движущимися в сцене, в отличие от статичных изображений. И ясно, что методы, представленные в нашей работе, не ограничиваются людьми: мы можем обобщить этот подход на любые объекты».