ИИ Microsoft может нарисовать объект по текстовому описанию

Новая ИИ-система, разрабатываемая специалистами из Microsoft, может «представить» объект на основании текстового описания и достаточно точно нарисовать его.

Редакция сайта

Microsoft

Исследователи из Microsoft разрабатывают ИИ-технологию, которая способна нарисовать объект по его детальному текстовому описанию. О разработке сообщает портал Engadget.

Система не пытается найти уже существующее изображение по описанию – она именно создает настоящий рисунок. Например, человек может попросить компьютер нарисовать «желтую птицу с черными крыльями и коротким клювом» – и система самостоятельно, пиксель за пикселем, нарисует заданный объект. «Такие птицы могут и не существовать в реальном мире – просто так их представляет наш компьютер», – отмечает ведущий автор работы Сяодон Хе (Xiaodong He).

Хотя на данный момент технология работает не идеально, нетрудно представить, что в будущем она могла бы пригодиться в качестве, например, ассистента для художников и дизайнеров или использоваться в качестве инструмента для обработки фотографий на основе речевой информации. Более того, Хе предполагает, что когда-нибудь компьютер научится генерировать анимационные фильмы по написанному сценарию.

Научная группа Microsoft начала исследование компьютерного зрения и обработки естественного языка с CaptionBot – ИИ-системы, которая автоматически создает подписи для фотографий; затем ученые разработали систему SeeingAI, способную отвечать на вопросы людей об изображениях. Текущая же технология (научная работа, посвященная ей, опубликована на сайте arXiv) состоит из двух частей: одна из них генерирует изображения и называется Generative Adversarial Network (GAN), другая – оценивает качество сгенерированных картинок. Бот, рисующий объекты, был натренирован на парах, состоящих из изображений и подписей к ним, – так ИИ учится понимать, какие слова относятся к каким изображениям. Исследователи также создали математическую репрезентацию человеческого внимания – как раз того, что мы используем, когда пытаемся нарисовать что-либо на основании сложных описаний.