ИИ Microsoft может нарисовать объект по текстовому описанию
Исследователи из Microsoft разрабатывают ИИ-технологию, которая способна нарисовать объект по его детальному текстовому описанию. О разработке сообщает портал Engadget.
Система не пытается найти уже существующее изображение по описанию – она именно создает настоящий рисунок. Например, человек может попросить компьютер нарисовать «желтую птицу с черными крыльями и коротким клювом» – и система самостоятельно, пиксель за пикселем, нарисует заданный объект. «Такие птицы могут и не существовать в реальном мире – просто так их представляет наш компьютер», – отмечает ведущий автор работы Сяодон Хе (Xiaodong He).
Хотя на данный момент технология работает не идеально, нетрудно представить, что в будущем она могла бы пригодиться в качестве, например, ассистента для художников и дизайнеров или использоваться в качестве инструмента для обработки фотографий на основе речевой информации. Более того, Хе предполагает, что когда-нибудь компьютер научится генерировать анимационные фильмы по написанному сценарию.
Научная группа Microsoft начала исследование компьютерного зрения и обработки естественного языка с CaptionBot – ИИ-системы, которая автоматически создает подписи для фотографий; затем ученые разработали систему SeeingAI, способную отвечать на вопросы людей об изображениях. Текущая же технология (научная работа, посвященная ей, опубликована на сайте arXiv) состоит из двух частей: одна из них генерирует изображения и называется Generative Adversarial Network (GAN), другая – оценивает качество сгенерированных картинок. Бот, рисующий объекты, был натренирован на парах, состоящих из изображений и подписей к ним, – так ИИ учится понимать, какие слова относятся к каким изображениям. Исследователи также создали математическую репрезентацию человеческого внимания – как раз того, что мы используем, когда пытаемся нарисовать что-либо на основании сложных описаний.