Нейросеть Riffusion: обзор нейросети для создания музыки

Нейросеть Riffusion Аудио

Что такое Riffusion

Riffusion – это нейросеть, способная генерировать музыкальные композиции на основе текстовых подсказок, создавая визуальное представление звука в виде сонограммы (двумерное изображение, показывающее зависимость мощности сигнала от времени) и преобразовывая его в аудио.

Авторы нейросети — программисты Сет Форсгрен и Хайк Мартирос. Так как сонограмма, по факту, является изображением, разработчики составили сонограммы музыкальных композиций и получившимся изображениям дали описание, например, тяжёлый рок на скрипке и тд. На основе таких коллекций изображений Stable Diffusion была обучена сопоставлять музыкальные жанры с видом сонограммы и способностью генерировать собственные изображения по текстовому описанию. И затем изображение, созданное Riffusion, конвертируются в звуковую дорожку при помощи PyTorch от TorchAudio.

Если коротко о работе Riffusion: на входе текстовый запрос, преобразование в изображение, и затем преобразование в звук.

Как пользоваться

Всё очень просто – от Вас требуется только желание и фантазия.

Здесь не требуется авторизация, нужно перейти на https://www.riffusion.com/ и ввести в строке описание нужной вам мелодии на английском, но мы вводили и на русском — и получили результат, после чего нажать Enter. Тут обратим Ваше внимание, что нейросеть уже предлагает несколько «рандомных» композиций для прослушивания и Ваш запрос будет воспроизведён следующим (он указан в строке UP NEXT). Нажмите на UP NEXT и затем — кнопку воспроизведения в правом верхнем углу сайта.

генерация музыки по запросу в Riffusion

Если не смогли придумать описание, то можно воспользоваться «рандомным» описанием – нажав на кубик рядом со строкой ввода.

Riffusion позволяет «поиграться» с настройками. Нажимаем на значок шестерёнки (Settings) в правом верхнем углу сайта, меняем исходное изображение и указываем уровень шумоподавления.

Riffusion настройки

Для сохранения риффа нажимаем на Info и далее либо копируем ссылку (Copy link to current moment) или нажимаем на троеточие и Скачать.

Какие есть лимиты и ограничения

Нейросеть запущена в свободном доступе — пользователи могут присоединиться к тестированию и дальнейшему обучению алгоритма.

Особенности Riffusion

Riffusion беспрерывно генерирует сонограммы в режиме реального времени, поток визуализации которых видим в левой части страницы сайта, таким образом создавая «бесконечные» аудиоклипы, которые довольно-таки плавно перетекают друг в друга.

Уверены, что данный сервис будет развиваться и обучаться, что позволит использовать Riffusion для создания саундтреков для фильмов, видеоигр, рекламы и телевизионных шоу и в других индустриях.

Аналоги этой нейросети

  • AIVA. Отличительной особенностью нейросети является то, что обучалась на гигантской базе классических музыкальных произведений.
  • Amper Music. Нейросеть, предназначенная для упрощения процесса создания саундтреков к фильмам и видеоиграм
  • Jukedeck. Нейросеть, предназначенная для простого создания музыки с определёнными задаваемыми критериями.

С полным списком нейросетей генерирующих музыку, вы можете ознакомиться в статье: Обзор нейросетей создающих музыку.

Выводы

Riffusion способен обрабатывать нестандартные запросы, сочетая элементы разных жанров и стилей для получения нового оригинального звука.

Если Вам нужен оригинальный аудиоклип, свободный от авторских прав и желательно «бесплатно», то использование нейросети — решение Вашей проблемы.

Оцените статью
Neuroseti.ru