ИИ-модель может озвучить немые фильмы, даже если голос актеров не сохранился

Исследователи из Университета науки и технологий Китая разработали модель для синтеза речи, которая распознает речь в режиме реального времени по губам, мимике и внешнему виду человека. Ученые планируют разработать приложение, которое поможет людям с проблемами речи. Система даже позволит озвучивать немые фильмы.
ИИ-модель может озвучить немые фильмы, даже если голос актеров не сохранился
Вера Холодная и Витольд Полонский в фильме «Миражи». Благодаря моделям Lip2Speech мы сможем услышать из голоса. Википедия

Умение читать по губам часто очень нужно, и новая модель дает такую возможность

Для решения задачи Lip2Speech модели машинного обучения учатся распознавать слова по мимике и в первую очередь по движению губ говорящего. Lip2Speech может быть полезна в самых различных случаях. Например, для помощи пациентам, которые не могут воспроизводить звуки речи, для восстановления речи в зашумленных или поврежденных видеозаписях, для определения того, что говорит подозреваемый в преступлении на записи уличной камеры видеонаблюдения, которые чаще всего звук не сохраняют. Модель можно использовать для озвучания немого кино. И мы услышим голос великой русской актрисы Веры Холодной, хотя ее записи не сохранились.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как распознать речь по видео

У существующих моделей Lip2Speech есть несколько проблем. Большинство из них не успевают за речью в режиме реального времени и не готовы к обучению с нулевой выборкой. Это тип обучения, при котором модель тренируется на определенном классе данных, а потом ей предлагают распознавать неизвестный класс, которому ее не обучали. Это требует от модели определенного «воображения» и умения «думать» по аналогии. Для задачи Lip2Speech это важный момент, поскольку входные данные для обучения часто оказываются недоступны. Это видно даже по тем примерам, которые мы только что перечислили: видеозапись подозреваемого с четким голосом у следователей может запросто отсутствовать. А записи голоса актеров немого кино во многих случаях утрачены.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи из Университета науки и технологий Китая разработали новую модель Lip2Speech, которая может воспроизводить персонализированную речь при обучении с нулевой выборкой.

Схема работы системы Lip2Speech
Схема работы системы Lip2Speech
https://arxiv.org/abs/2305.14359

Для эффективного решения задач Lip2Speech обычно требуется информация о дикторах из надежных видеозаписей их речи. Однако, если доступны только беззвучные или неразборчивые видеозаписи, на которых запечатлено лицо говорящего, получить эту информацию невозможно. Модель, созданная группой китайских исследователей, может обойти эту проблему, генерируя речь мимике, внешнему виду и личности диктора без записей его реальной речи.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые тестировали свою модель, и показали, что она работает достаточно надежно, производя синтезированную речь, которая соответствует как движениям губ говорящего, так и его возрасту, полу и внешнему виду.

В будущем новая модель может быть использована для создания широкого спектра приложений, включая приложения для людей с нарушениями речи, инструменты для редактирования видео и программное обеспечение для помощи полицейским расследованиям. И, конечно, ученые попытаются озвучить немые фильмы. Что у них получится, мы пока не знаем.