Искусственный интеллект научился озвучивать видео

Учёные из Массачусетского технологического института (США) разработали нейронную сеть, которая способна озвучивать любой видеоролик, генерируя вполне реалистичные звуки на основе предположения о свойствах изображённых в нём объектов.

Компьютерный алгоритм на основе нейронной сети анализирует видео, распознавая в нём объекты, их движение и метод взаимодействия. На основе этой информации программа генерирует звук, который является весьма достоверным. Для обучения программы использовано 977 видеороликов со звуком, в которых люди совершают действия с окружающими предметами, состоящими из различных материалов. Исследователи вручную описали каждое из 46577 действий, указав тип материала, место соприкосновения, способ воздействия и реакцию объекта.

Нейронная сеть анализировала характеристики звука, который соответствовал каждому типу взаимодействия с объектами, включая его громкость. При обучении алгоритм раскладывал видео по кадрам, изучал звук в каждом из них и находил соответствие с базой данных. В результате программа научилась предсказывать самые разнообразные звуки со всеми их нюансами, от стука камней до шуршания листьев.

Чтобы проверить эффективность алгоритма, учёные выполнили онлайновое исследование, участникам которого предлагалось сравнить два варианта «саундтрека» видеоролика и определить, какой из них настоящий, а какой является компьютерной имитацией. В итоге респондентов удалось обмануть в 40% случаев. Алгоритм пока способен генерировать звук только на основании реакции объекта на непосредственный физический контакт, а в случае, например, сильного ветра программа не может определить источник воздействия. Разработка может найти широкое применение в производстве кинофильмов и телепередач для создания звуковых эффектов.