Искусственный интеллект генерирует изображения улиц, слушая их звуки

Хотя уже существуют системы искусственного интеллекта, которые генерируют звуковые эффекты, соответствующие изображениям городских улиц (и других мест), новая экспериментальная технология делает прямо противоположное. Этот ИИ создает изображения, которые со сверхъестественной точностью соответствуют аудиозаписям улиц.
Екатерина Бельчикова
Екатерина Бельчикова
Редактор TechInsider
Искусственный интеллект генерирует изображения улиц, слушая их звуки
Unsplash
Удивительно, как звуки могут точно описывать окружение

Профессор Юхао Кан и его коллеги из Техасского университета в Остине разработали «Модель преобразования звукового ландшафта в изображение» на основе набора данных из 10-секундных аудиовизуальных клипов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эти клипы состояли из неподвижных изображений и окружающего звука, взятых из видеороликов YouTube о городских и сельских улицах Северной Америки, Азии и Европы. Используя алгоритмы глубокого обучения, система не только определяла, какие звуки соответствуют каким предметам на изображениях, но и какие качества звука соответствуют визуальному окружению.

А зачем это нужно?

Хотя эта технология может найти применение в криминалистике, например, для получения приблизительного представления о том, где была сделана аудиозапись, исследование в большей степени направлено на изучение того, как звук влияет на наше ощущение места.

Как прошло само исследование

Как только обучение было завершено, перед системой была поставлена задача генерировать изображения исключительно на основе записанного окружающего звука из 100 других видеороликов с видом на улицу — она создавала по одному изображению на каждое видео.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
University of Texas at Austin

Жюри, состоящему из людей, впоследствии показали каждое из этих изображений наряду с двумя сгенерированными изображениями других улиц, включив при этом звуковое сопровождение, на основе которого было создано изображение. Когда их попросили определить, какое из трех изображений соответствует звуковому сопровождению, они в среднем с точностью ответили на 80%.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Более того, когда сгенерированные изображения были проанализированы с помощью компьютера, было обнаружено, что их относительные пропорции открытого неба, зелени и зданий «сильно коррелируют» с таковыми в оригинальных видеороликах.

улица
Unsplash

Во многих случаях сгенерированные изображения также отражали условия освещения исходного видео, такие как солнечное, облачное или ночное небо. Возможно, это стало возможным благодаря таким факторам, как снижение шума уличного движения в ночное время или стрекотание ночных насекомых.