ИИ — бас-гитарист: новые методы создания музыки
Инструменты генеративного искусственного интеллекта (ИИ) становятся все более совершенными и уже используются для создания различного персонализированного контента, включая изображения, видео, логотипы и аудиозаписи. Исследователи из Sony Computer Science Laboratories (CSL) разработали ИИ-инструмент для продюсеров и композиторов, который помогает при создании музыки.
«Генерация музыки в настоящее время является популярной темой исследований, и многие институты, компании и стартапы изучают различные варианты ИИ, способного создавать звук», — говорит соавтор работы Стефан Латтнер. — «В Sony CSL мы стремимся помочь музыкантам и продюсерам в их рабочем процессе, предоставляя инструменты на базе искусственного интеллекта. Мы заметили, что наиболее распространенный подход, — когда инструменты ИИ создают законченные музыкальные произведения с нуля (обычно под управлением тестовых промптов) — так вот, такое творчество ИИ музыкантам не интересно. Скорее, им нужен умелый помощник».
«Музыкантам нужны инструменты, которые можно адаптировать к их уникальному стилю и использовать на любом этапе создания музыки», — говорит Латтнер. — «Поэтому генеративный музыкальный ИИ должен учитывать любое промежуточное состояние музыкального произведения».
Помощник музыканта
В своей работе исследователи представили новую модель, которая может генерировать басовый аккомпанемент, соответствующий стилю и тональности входного музыкального трека, независимо от содержащихся в нем элементов (например, вокала, гитары, ударных и т. д.). Предложенный ими инструмент был разработан для создания басовых партий, которые хорошо дополняют песни, тем самым помогая продюсерам и композиторам в их творческом процессе.
Латтнер объясняет суть работы ИИ-инструмента: «Сначала кодировщик сжимает музыку. Затем сжатое представление используется в качестве входных данных для специально разработанной архитектуры, основанной на современной генеративной технологии, так называемой "скрытой диффузии"».
Латтнер и его коллеги обучили свою модель скрытой диффузии на наборе кодировок бас-гитары, содержащем различные примеры музыкальных треков. И модель научилась создавать басовую партию, которая «подыгрывает» входному музыкальному треку.
«Наша система имеет уникальное преимущество: она может генерировать басовые партии любой длины», — говорит Латтнер. — «Еще мы добавили метод описания стиля, который позволяет пользователям контролировать тембр и задавать стиль игры генерируемого баса по эталонному аудиофайлу. Если вы хотите, что у вас в композиции "сыграл" Пол Маккартни, у вас теперь есть такая возможность».
Инструмент для генерации басовой партии может использоваться музыкантами, продюсерами и композиторами, помогая записывать и улучшать звучание своих треков. Теперь исследователи планируют создать аналогичные модели, которые будут воспроизводить другие инструменты: барабаны, фортепиано, гитару, струнные и различные звуковые эффекты.
«В дальнейшем мы планируем предоставить дополнительные, интуитивно понятные механизмы управления стилем — с помощью текстовых подсказок или стилистических тегов. Мы планируем напрямую сотрудничать с композиторами для доработки ИИ, чтобы наилучшим образом удовлетворить их творческие потребности».