Что такое Riffusion
Riffusion – это нейросеть, способная генерировать музыкальные композиции на основе текстовых подсказок, создавая визуальное представление звука в виде сонограммы (двумерное изображение, показывающее зависимость мощности сигнала от времени) и преобразовывая его в аудио.
Авторы нейросети — программисты Сет Форсгрен и Хайк Мартирос. Так как сонограмма, по факту, является изображением, разработчики составили сонограммы музыкальных композиций и получившимся изображениям дали описание, например, тяжёлый рок на скрипке и тд. На основе таких коллекций изображений Stable Diffusion была обучена сопоставлять музыкальные жанры с видом сонограммы и способностью генерировать собственные изображения по текстовому описанию. И затем изображение, созданное Riffusion, конвертируются в звуковую дорожку при помощи PyTorch от TorchAudio.
Если коротко о работе Riffusion: на входе текстовый запрос, преобразование в изображение, и затем преобразование в звук.
Как пользоваться
Всё очень просто – от Вас требуется только желание и фантазия.
Здесь не требуется авторизация, нужно перейти на https://www.riffusion.com/ и ввести в строке описание нужной вам мелодии на английском, но мы вводили и на русском — и получили результат, после чего нажать Enter. Тут обратим Ваше внимание, что нейросеть уже предлагает несколько «рандомных» композиций для прослушивания и Ваш запрос будет воспроизведён следующим (он указан в строке UP NEXT). Нажмите на UP NEXT и затем — кнопку воспроизведения в правом верхнем углу сайта.
Если не смогли придумать описание, то можно воспользоваться «рандомным» описанием – нажав на кубик рядом со строкой ввода.
Riffusion позволяет «поиграться» с настройками. Нажимаем на значок шестерёнки (Settings) в правом верхнем углу сайта, меняем исходное изображение и указываем уровень шумоподавления.
Для сохранения риффа нажимаем на Info и далее либо копируем ссылку (Copy link to current moment) или нажимаем на троеточие и Скачать.
Какие есть лимиты и ограничения
Нейросеть запущена в свободном доступе — пользователи могут присоединиться к тестированию и дальнейшему обучению алгоритма.
Особенности Riffusion
Riffusion беспрерывно генерирует сонограммы в режиме реального времени, поток визуализации которых видим в левой части страницы сайта, таким образом создавая «бесконечные» аудиоклипы, которые довольно-таки плавно перетекают друг в друга.
Уверены, что данный сервис будет развиваться и обучаться, что позволит использовать Riffusion для создания саундтреков для фильмов, видеоигр, рекламы и телевизионных шоу и в других индустриях.
Аналоги этой нейросети
- AIVA. Отличительной особенностью нейросети является то, что обучалась на гигантской базе классических музыкальных произведений.
- Amper Music. Нейросеть, предназначенная для упрощения процесса создания саундтреков к фильмам и видеоиграм
- Jukedeck. Нейросеть, предназначенная для простого создания музыки с определёнными задаваемыми критериями.
С полным списком нейросетей генерирующих музыку, вы можете ознакомиться в статье: Обзор нейросетей создающих музыку.
Выводы
Riffusion способен обрабатывать нестандартные запросы, сочетая элементы разных жанров и стилей для получения нового оригинального звука.
Если Вам нужен оригинальный аудиоклип, свободный от авторских прав и желательно «бесплатно», то использование нейросети — решение Вашей проблемы.