ИИ-модель может озвучить немые фильмы, даже если голос актеров не сохранился
Для решения задачи Lip2Speech модели машинного обучения учатся распознавать слова по мимике и в первую очередь по движению губ говорящего. Lip2Speech может быть полезна в самых различных случаях. Например, для помощи пациентам, которые не могут воспроизводить звуки речи, для восстановления речи в зашумленных или поврежденных видеозаписях, для определения того, что говорит подозреваемый в преступлении на записи уличной камеры видеонаблюдения, которые чаще всего звук не сохраняют. Модель можно использовать для озвучания немого кино. И мы услышим голос великой русской актрисы Веры Холодной, хотя ее записи не сохранились.
Как распознать речь по видео
У существующих моделей Lip2Speech есть несколько проблем. Большинство из них не успевают за речью в режиме реального времени и не готовы к обучению с нулевой выборкой. Это тип обучения, при котором модель тренируется на определенном классе данных, а потом ей предлагают распознавать неизвестный класс, которому ее не обучали. Это требует от модели определенного «воображения» и умения «думать» по аналогии. Для задачи Lip2Speech это важный момент, поскольку входные данные для обучения часто оказываются недоступны. Это видно даже по тем примерам, которые мы только что перечислили: видеозапись подозреваемого с четким голосом у следователей может запросто отсутствовать. А записи голоса актеров немого кино во многих случаях утрачены.
Исследователи из Университета науки и технологий Китая разработали новую модель Lip2Speech, которая может воспроизводить персонализированную речь при обучении с нулевой выборкой.
Для эффективного решения задач Lip2Speech обычно требуется информация о дикторах из надежных видеозаписей их речи. Однако, если доступны только беззвучные или неразборчивые видеозаписи, на которых запечатлено лицо говорящего, получить эту информацию невозможно. Модель, созданная группой китайских исследователей, может обойти эту проблему, генерируя речь мимике, внешнему виду и личности диктора без записей его реальной речи.
Ученые тестировали свою модель, и показали, что она работает достаточно надежно, производя синтезированную речь, которая соответствует как движениям губ говорящего, так и его возрасту, полу и внешнему виду.
В будущем новая модель может быть использована для создания широкого спектра приложений, включая приложения для людей с нарушениями речи, инструменты для редактирования видео и программное обеспечение для помощи полицейским расследованиям. И, конечно, ученые попытаются озвучить немые фильмы. Что у них получится, мы пока не знаем.
Умение читать по губам часто очень нужно, и новая модель дает такую возможность