Искусственный интеллект научился озвучивать видео

Учёные из Массачусетского технологического института (США) разработали нейронную сеть, которая способна озвучивать любой видеоролик, генерируя вполне реалистичные звуки на основе предположения о свойствах изображённых в нём объектов.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Компьютерный алгоритм на основе нейронной сети анализирует видео, распознавая в нём объекты, их движение и метод взаимодействия. На основе этой информации программа генерирует звук, который является весьма достоверным. Для обучения программы использовано 977 видеороликов со звуком, в которых люди совершают действия с окружающими предметами, состоящими из различных материалов. Исследователи вручную описали каждое из 46577 действий, указав тип материала, место соприкосновения, способ воздействия и реакцию объекта.

Нейронная сеть анализировала характеристики звука, который соответствовал каждому типу взаимодействия с объектами, включая его громкость. При обучении алгоритм раскладывал видео по кадрам, изучал звук в каждом из них и находил соответствие с базой данных. В результате программа научилась предсказывать самые разнообразные звуки со всеми их нюансами, от стука камней до шуршания листьев.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Чтобы проверить эффективность алгоритма, учёные выполнили онлайновое исследование, участникам которого предлагалось сравнить два варианта «саундтрека» видеоролика и определить, какой из них настоящий, а какой является компьютерной имитацией. В итоге респондентов удалось обмануть в 40% случаев. Алгоритм пока способен генерировать звук только на основании реакции объекта на непосредственный физический контакт, а в случае, например, сильного ветра программа не может определить источник воздействия. Разработка может найти широкое применение в производстве кинофильмов и телепередач для создания звуковых эффектов.

Нажми и смотри