Как нейросеть для генерации видео Sora может изменить науку и общество
Выпуск инструмента искусственного интеллекта Sora от OpenAI в прошлом месяце был встречен многими исследователями со смешанные чувствами. OpenAI продемонстрировала способность Sora создавать фотореалистичные видеоролики по нескольким коротким текстовым подсказками. OpenAI опубликовала примеры использования Sora, в том числе видеоролик, на которых женщина идет по освещенной неоновым светом улице в Токио.
Трейси Харвуд, специалист по цифровой культуре из Университета Де Монфор в Лестере, Великобритания, говорит, что она «шокирована» скоростью развития искусственного интеллекта (ИИ) для преобразования текста в видео. Год назад люди смеялись над созданным искусственным интеллектом видео, на котором американский актер Уилл Смит ест спагетти. Теперь некоторые исследователи обеспокоены тем, что эта технология может перевернуть мировую политику в 2024 году.
OpenAI, которая также разработала ChatGPT и технологию преобразования текста в изображение DALLE, представила Sora 15 февраля, объявив, что делает технологию «доступной для красных команд для оценки критических областей на предмет вреда или рисков». «Красная команда» — это такая группа исследователей, которая должна симулировать атаки на технологию и попытаться использовать ее максимально вредоносно, в данном случае для дипфейков и разжигания расовой ненависти. Вряд ли широкая публика когда-нибудь увидит результаты работы таких команд, но компания OpenAI считает, что такая работа позволит ей оценить риски.
Sora — не первый пример технологии преобразования текста в видео. Это, например, Gen-2, разработанная компанией Runway в Нью-Йорке и выпущенная в прошлом году, и Lumiere, разработанная под руководством Google и анонсированная в январе.
Харвуд говорит, что многие разработки ее «не впечатлили». «Они становятся все более и более примитивными в том, что они вам представляют», — говорит она, и добавляет, что программам требуются очень конкретные подсказки, чтобы заставить их создавать привлекательный контент. И сама разработка таких подсказок оказывается довольно сложным делом.
Дезинформация является серьезной проблемой для таких технологий добавляет Харвуд: «Мы очень быстро достигнем момента, когда нас завалят потоком вполне убедительной информации. Это действительно беспокоит».
Предвыборные страхи
Это создает особые проблемы и в связи с предстоящими выборами президентскими выборами в США в ноябре и выборами в палату Общин в Великобритании. «Будет распространяться колоссальное количество фейковых видео и фальшивых аудио», — говорит Доминик Лис, который исследует генеративный искусственный интеллект и кинопроизводство в Университете Рединга, Великобритания. Фальшивая аудиозапись лидера Лейбористской партии Великобритании Кира Стармера была выпущена в октябре 2023 года, а фейковая аудиозапись президента США Джо Байдена, призывающего демократов не голосовать за него, была распространена в январе.
Одним из решений может быть требование к ИИ, подобным Sora, обязательно использовать водяные знаки либо в виде видимого знака на видео, обозначающего его как ИИ, либо в виде контрольной искусственной подписи в метаданных, но Лис не уверен, что это сработает: «На данный момент водяные знаки на видео можно удалить», — говорит он, а водяные знаки в метаданных еще нужно захотеть увидеть. Лис говорит: «Я не думаю, что имеет смысл просить любого человека в мире делать это с каждым видео, которое он смотрит. По большому счету, большинство людей в этом совсем не заинтересовано».
У этой технологии есть потенциальные преимущества. Харвуд предполагает, что Sora можно использовать для представления сложного текста, например научной статьи, в формате, который легче понять. «Одна из самых важных целей, для которых его можно использовать, — это донести научные результаты до непрофессиональной аудитории. Технология текст2видео может визуализировать довольно сложные концепции».
Другое потенциальное применение Sora может найти в здравоохранении, где искусственный интеллект, преобразующий текст в видео, сможет разговаривать с пациентами вместо врача-человека. «Некоторых людей это может сбить с толку», — говорит Клэр Мэлоун, консультант по научным коммуникациям в Великобритании. «Другие могут найти это чрезвычайно удобным, если они хотят задавать вопросы медицинскому работнику много раз в день».
Управление данными
Инструменты искусственного интеллекта для преобразования текста в видео, такие как Sora, могут помочь исследователям разобраться с огромными наборами данных. Например, Европейской лабораторией физики элементарных частиц CERN недалеко от Женевы в Швейцарии и другими крупными научными проектами — созданы огромные наборы данных, а работать с ним трудно, говорит Клэр Мэлоун. Генеративный ИИ может «тщательно анализировать код и выполнять повседневные исследовательские задачи».
Обеспокоенность Sora выразили люди, работающие в творческих отраслях. Американский актер Том Хэнкс в прошлом году предположил, что искусственный интеллект позволит ему продолжать сниматься в фильмах «отныне и до Второго пришествия». «Если бы вы были молодым амбициозным актером, думающим о своем будущем, и вам сказали: "Мне очень жаль, Том Хэнкс всегда будет играть главные роли", вам бы понравилось такое будущее?» — говорит Лис.
ИИ текста2видео поставит перед обществом много проблем. «Нам придется научиться оценивать контент, который мы видим, так, как мы этого не делали раньше», — говорит Харвуд. «Но эти инструменты дают каждому возможность стать создателем медиаконтента», — говорит она. «Мы будем иметь дело с последствиями этого. Это фундаментальный сдвиг во всем медиапространстве».