Профессор Юхао Кан и его коллеги из Техасского университета в Остине разработали «Модель преобразования звукового ландшафта в изображение» на основе набора данных из 10-секундных аудиовизуальных клипов.
Искусственный интеллект генерирует изображения улиц, слушая их звуки

Эти клипы состояли из неподвижных изображений и окружающего звука, взятых из видеороликов YouTube о городских и сельских улицах Северной Америки, Азии и Европы. Используя алгоритмы глубокого обучения, система не только определяла, какие звуки соответствуют каким предметам на изображениях, но и какие качества звука соответствуют визуальному окружению.
Как прошло само исследование
Как только обучение было завершено, перед системой была поставлена задача генерировать изображения исключительно на основе записанного окружающего звука из 100 других видеороликов с видом на улицу — она создавала по одному изображению на каждое видео.

Жюри, состоящему из людей, впоследствии показали каждое из этих изображений наряду с двумя сгенерированными изображениями других улиц, включив при этом звуковое сопровождение, на основе которого было создано изображение. Когда их попросили определить, какое из трех изображений соответствует звуковому сопровождению, они в среднем с точностью ответили на 80%.
Более того, когда сгенерированные изображения были проанализированы с помощью компьютера, было обнаружено, что их относительные пропорции открытого неба, зелени и зданий «сильно коррелируют» с таковыми в оригинальных видеороликах.

Во многих случаях сгенерированные изображения также отражали условия освещения исходного видео, такие как солнечное, облачное или ночное небо. Возможно, это стало возможным благодаря таким факторам, как снижение шума уличного движения в ночное время или стрекотание ночных насекомых.