OpenAI представила нейросеть Sora для генерации видео: что она умеет
Компания OpenAI хорошо известна своими разработками в сфере искусственного интеллекта. Именно ее стараниями мы познакомились с чат-ботом ChatGPT и DALL-E, умеющими генерировать красивые и реалистичные картинки по текстовому описанию. А недавно компания и вовсе совершила настоящий прорыв в сфере искусственного интеллекта, представив нейросетевую модель Sora, способную генерировать видео по текстовому описанию.
Что умеет Sora
Sora построена на технологиях DALL-E и использует диффузионную модель, по сути превращающую шум в упорядоченный набор данных (изображение) в сочетании с технологией условной генерации изображений и видео. Звучит сложно, но на самом деле это означает лишь способность создания фотореалистичные видео по простому текстовому описанию. При этом длина роликов пока ограничивается одной минутой.
Именно в сочетании технологий DALL-E и GPT и кроется революционность новой нейросетевой модели. Специалисты OpenAI использовали в ней так называемую модель-трансформер, позволяющую эффективно распознавать и генерировать текст. А для того, чтобы она могла работать с видео, как со словами, ролик и даже его отдельные кадры «разрезаются» на множество фрагментов.
Это позволило добиться возможности создавать действительно реалистичные изображения по простому текстовому описанию. И хотя сама модель Sora пока доступна лишь некоторым экспертам, сделанные с ее помощью ролики уже успели заполонить всю сеть. Выглядят они, надо признать, действительно отменно.
При этом Sora умеет создавать и горизонтальные видео с разрешением 1920х1080 пикселей, и вертикальные с 1080x1920, и все, что находится между этими крайностями. Это дает возможность генерировать контент, оптимизированный для разных устройств, начиная от смартфонов, и заканчивая ноутбуками и настольными компьютерами. И все это с использованием одной и той же модели. Есть у нее и возможность сделать небольшое превью в низком разрешении перед генерацией полноценного видео.
Модель прекрасно справляется с генерацией самых разных видео, начиная от ретро времен золотой лихорадки и заканчивая такими чрезвычайно сложными вещами, как реалистичная визуализация движений животных или походки людей.
Почему это важно
Впрочем, несмотря на все наши дифирамбы в сторону удачного сочетания возможностей DALL-E и GPT, главная особенность Sora в другом. Разработанная OpenAI нейросетевая модель – это не просто и даже не столько новое слово в генерации видео. Она прекрасно разбирается в физике, и пользователям Sora не потребуется долго и нудно описывать как падает снег, как течет вода или как выглядит отражение. То, что приходилось раньше программировать, теперь доступно по умолчанию.
Не зря даже сама презентация Sora называется «Модели генерации видео, как симуляторы мира». Саму же нейросетевую модель вполне можно рассматривать, как большой шаг в сторону создания настоящего искусственного интеллекта.
Ее дальнейшее развитие может привести к появлению высокопроизводительных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые в нем живут. Сама же Sora может имитировать действия, которые оказывают влияние на окружающий мир. Например, художник может оставлять новые мазки на холсте, которые останутся там навсегда, а человек может откусить бургер и оставить на нем следы от укусов.
Конечно, судить о реальных возможностях Sora пока рано. По сути, во время ее презентации в OpenAI лишь показали конечный результат работы нейросети, и не дали «заглянуть под ее капот» модели. Поэтому нам еще предстоит разобраться в сильных и слабых сторонах новой модели.
В чем главная проблема Sora
Главная проблема Sora, как бы это странно ни звучало, в чрезвычайно реалистичных видео, которые легко спутать с действительно снятыми на камеру роликами. Поэтому сейчас компания ведут активные консультации со специалистами в сфере Fake news и другими экспертами, которые могут высказать свои опасения по поводу технологии и предложить новые сценарии ее использования.
Не исключено, что после открытия широкого доступа к Sora генерируемые ею видео будут иметь специальные метки, исключающие возможность использования их для фейковых новостей.