17.03.2024, 15:10

Как нейросеть для генерации видео Sora может изменить науку и общество

Журнал Nature попросил экспертов по ИИ прокомментировать выход инструмента Sora компании OpenAI, который может преобразовывать текст в видео. Эксперты выразили сдержанный оптимизм, но тревога преобладает. Главная опасность, которую видят ученые, — возможность массового создания дипфейков, которые могут повлиять и на общество и на искусство.

Владимир Губайловский

Теги:

Искусственный интеллект

Наука

Нейросети

Изобразительное искусство

Как нейросеть для генерации видео Sora может изменить науку и общество

Женщина в красном идет по улице Токио. Внизу приведен промпт, по которому создавалось видео. Sora. OpenAI

Sora многих очень беспокоит. Но если, каждый человек может стать создателем медиаконтента, это — совсем неплохо. Сегодня все стали писателями и фотографами, — и этим творчеством заполнены соцсети. Но профессиональные писатели и фотографы по-прежнему работают и делают свою дело. Может, и актерам Sora не повредит?

Выпуск инструмента искусственного интеллекта Sora от OpenAI в прошлом месяце был встречен многими исследователями со смешанные чувствами. OpenAI продемонстрировала способность Sora создавать фотореалистичные видеоролики по нескольким коротким текстовым подсказками. OpenAI опубликовала примеры использования Sora, в том числе видеоролик, на которых женщина идет по освещенной неоновым светом улице в Токио.

Трейси Харвуд, специалист по цифровой культуре из Университета Де Монфор в Лестере, Великобритания, говорит, что она «шокирована» скоростью развития искусственного интеллекта (ИИ) для преобразования текста в видео. Год назад люди смеялись над созданным искусственным интеллектом видео, на котором американский актер Уилл Смит ест спагетти. Теперь некоторые исследователи обеспокоены тем, что эта технология может перевернуть мировую политику в 2024 году.

OpenAI, которая также разработала ChatGPT и технологию преобразования текста в изображение DALLE, представила Sora 15 февраля, объявив, что делает технологию «доступной для красных команд для оценки критических областей на предмет вреда или рисков». «Красная команда» — это такая группа исследователей, которая должна симулировать атаки на технологию и попытаться использовать ее максимально вредоносно, в данном случае для дипфейков и разжигания расовой ненависти. Вряд ли широкая публика когда-нибудь увидит результаты работы таких команд, но компания OpenAI считает, что такая работа позволит ей оценить риски.

Sora — не первый пример технологии преобразования текста в видео. Это, например, Gen-2, разработанная компанией Runway в Нью-Йорке и выпущенная в прошлом году, и Lumiere, разработанная под руководством Google и анонсированная в январе.

Харвуд говорит, что многие разработки ее «не впечатлили». «Они становятся все более и более примитивными в том, что они вам представляют», — говорит она, и добавляет, что программам требуются очень конкретные подсказки, чтобы заставить их создавать привлекательный контент. И сама разработка таких подсказок оказывается довольно сложным делом.

Дезинформация является серьезной проблемой для таких технологий добавляет Харвуд: «Мы очень быстро достигнем момента, когда нас завалят потоком вполне убедительной информации. Это действительно беспокоит».

Предвыборные страхи

Кадр из деморолика Sora

OpenAI

Это создает особые проблемы и в связи с предстоящими выборами президентскими выборами в США в ноябре и выборами в палату Общин в Великобритании. «Будет распространяться колоссальное количество фейковых видео и фальшивых аудио», — говорит Доминик Лис, который исследует генеративный искусственный интеллект и кинопроизводство в Университете Рединга, Великобритания. Фальшивая аудиозапись лидера Лейбористской партии Великобритании Кира Стармера была выпущена в октябре 2023 года, а фейковая аудиозапись президента США Джо Байдена, призывающего демократов не голосовать за него, была распространена в январе.

Одним из решений может быть требование к ИИ, подобным Sora, обязательно использовать водяные знаки либо в виде видимого знака на видео, обозначающего его как ИИ, либо в виде контрольной искусственной подписи в метаданных, но Лис не уверен, что это сработает: «На данный момент водяные знаки на видео можно удалить», — говорит он, а водяные знаки в метаданных еще нужно захотеть увидеть. Лис говорит: «Я не думаю, что имеет смысл просить любого человека в мире делать это с каждым видео, которое он смотрит. По большому счету, большинство людей в этом совсем не заинтересовано».

У этой технологии есть потенциальные преимущества. Харвуд предполагает, что Sora можно использовать для представления сложного текста, например научной статьи, в формате, который легче понять. «Одна из самых важных целей, для которых его можно использовать, — это донести научные результаты до непрофессиональной аудитории. Технология текст2видео может визуализировать довольно сложные концепции».

Другое потенциальное применение Sora может найти в здравоохранении, где искусственный интеллект, преобразующий текст в видео, сможет разговаривать с пациентами вместо врача-человека. «Некоторых людей это может сбить с толку», — говорит Клэр Мэлоун, консультант по научным коммуникациям в Великобритании. «Другие могут найти это чрезвычайно удобным, если они хотят задавать вопросы медицинскому работнику много раз в день».

Управление данными

Инструменты искусственного интеллекта для преобразования текста в видео, такие как Sora, могут помочь исследователям разобраться с огромными наборами данных. Например, Европейской лабораторией физики элементарных частиц CERN недалеко от Женевы в Швейцарии и другими крупными научными проектами — созданы огромные наборы данных, а работать с ним трудно, говорит Клэр Мэлоун. Генеративный ИИ может «тщательно анализировать код и выполнять повседневные исследовательские задачи».

Обеспокоенность Sora выразили люди, работающие в творческих отраслях. Американский актер Том Хэнкс в прошлом году предположил, что искусственный интеллект позволит ему продолжать сниматься в фильмах «отныне и до Второго пришествия». «Если бы вы были молодым амбициозным актером, думающим о своем будущем, и вам сказали: "Мне очень жаль, Том Хэнкс всегда будет играть главные роли", вам бы понравилось такое будущее?» — говорит Лис.

ИИ текста2видео поставит перед обществом много проблем. «Нам придется научиться оценивать контент, который мы видим, так, как мы этого не делали раньше», — говорит Харвуд. «Но эти инструменты дают каждому возможность стать создателем медиаконтента», — говорит она. «Мы будем иметь дело с последствиями этого. Это фундаментальный сдвиг во всем медиапространстве».