Нейросеть ElevenLabs для создания реалистичных голосовых имитаций

Нейросеть Eleven Labs Аудио

ElevenLabs – это сервис, разработанный для создания реалистичных голосовых имитаций. Он использует передовые технологии глубокого обучения и искусственного интеллекта, чтобы создавать голосовые модели, которые могут имитировать различные голоса и стили речи.

Сервис ElevenLabs обрабатывает аудиозаписи с реальными голосами, чтобы создать уникальные голосовые имитации. Он может быть использован для различных целей, включая развлекательные приложения, аудиокниги, озвучивание видео, ассистенты и многое другое.

ElevenLabs имеет широкий выбор голосовых моделей, которые пользователь может выбрать и настроить в соответствии с задачей. Они включают различные возрастные группы, пол и акценты, что позволяет создавать голосовые имитации разных персонажей и говорящих голов.

Сервис также предоставляет возможность настраивать такие параметры, как скорость речи, интонация и эмоциональность, чтобы создать максимально реалистичную голосовую имитацию.

ElevenLabs предоставляет API, что позволяет разработчикам интегрировать его функциональность в свои приложения и сервисы. Это делает его удобным инструментом для создания голосовых имитаций в широком спектре продуктов и проектов. Однако стоит отметить, что использование голосовых имитаций должно быть согласовано с правилами и законами, касающимися авторских прав и конфиденциальности.

Как зарегистрироваться

Переходим на сайт https://elevenlabs.io/ и нажимаем на «Sign up» в правом верхнем углу.

главная страница ElevenLabs

Регистрируемся в сервисе с помощью Гугл аккаунта или электронной почты – вводим адрес электронной почты и пароль для создания аккаунта. При регистрации через электронную почту, будет направлено письмо с подтверждением регистрации. Нужно открыть письмо и нажать на ссылку для подтверждения регистрации.

Пользователь должен согласиться с условиями и услугами, нажав «I agree to terms of service», и выбрать бесплатный тарифный план.

Как пользоваться

Пользователю доступен следующий функционал:

функционал ElevenLabs
  • Speech Synthesis – синтез речи. Позволяет сгенерировать аудиодорожку для заданного текста. Голос для озвучивания можно выбрать готовый, из сообщества Eleven Labs, или создать собственную голосовую модель.
  • Projects – создание объемного контента, например, аудиокниг. Позволяет загрузить документ или книгу, импортировать веб-страницу. Затем сервис сгенерирует закадровое повествование файла. Дальше скачиваем либо отдельные аудиофайлы каждой главы, либо единый файл. Функционал доступен только при оформлении платной подписки.
  • Dubbing – для дубляжа любого видео.
  • VoiceLab – создание уникального синтетического голоса. Важно, если используется клонированный голос (например, голос артиста), необходимо получить соответствующее разрешение на его коммерческое использование, даже на платном тарифном плане.
  • Voice Library – готовые голоса из сообщества Eleven Labs.
  • History – список сгенерированных пользователем голосов. 

Рассмотрим каждый функционал подробнее.

VoiceLab

Инструмент для создания нового синтетического голоса. Бесплатно можно создать до трёх голосов.

инструмент voicelab

Нажимаем «Add Generative or Cloned Voice» и выбираем тип создаваемого голоса:

выбор типа голоса в ElevenLabs
  • Voice Design – создание совершенно нового голоса. Каждый голос, который вы создаете, генерируется случайным образом и является совершенно уникальным, даже если применяются одни и те же настройки.
  • Instant Voice Cloning – клонирование голоса. Клонировать голос необходимо из чистого образца записи. Сэмплы должны содержать 1 динамик, длиться более 1 минуты и не содержать фонового шума. Функционал теперь доступен только при оформлении платной подписки из-за большого количества случаев неправильного использования, злоупотребления клонированного голоса.
  • Voice Library – создание голоса на основе шаблона из сообщества ElevenLabs.
  • Professional Voice Cloning – создание идеальной цифровой копии своего голоса. Функционал доступен только при оформлении платной подписки.

Мы выбрали «Voice Design». Приступаем к настройкам для будущего голоса.

настройки голоса

В «Gender» выбираем пол, «Age» – возраст, «Accent» – акцент (к сожалению, русский акцент отсутствует), «Accent Strength» – выраженность акцента. В соответствующем поле можем ввести свой текст и нажимаем «Generate». Ждём несколько секунд и прослушиваем аудиозапись.

Сгенерированную аудиозапись можно сохранить, нажав на соответствующую иконку.

сохранение записи

Нажимаем «Use Voice», вводим название и нажимаем «Create Voice». Таким образом мы сгенерировали синтетический голос с нуля.

генерация голоса в Eleven Labs

Теперь мы можем использовать сгенерированный голос для озвучивания.

Speech Synthesis

Здесь приступим к озвучиванию текста голосом, который был сгенерирован ранее.

инструмент speech synthesis

В «Settings» выбираем сгенерированный голос или можно выбрать готовый из предложенных.

настройки Speech Synthesis

В «Voice Settings» также можно поиграться с параметрами. В поле «Text» добавляем текст для озвучивания и нажимаем «Generate». Ждём несколько секунд и прослушиваем аудиозапись. Сгенерированную аудиозапись можно сохранить, нажав на соответствующую иконку.

Хотелось бы отметить, что в ElevenLabs появилась многоязычная модель синтеза речи Eleven Multilingual v2, которая поддерживает русский язык в отличии от предыдущей версии, поэтому сервис может быть использован для озвучивания на русский язык на «любительском» уровне. Но из-за отсутствия поддержки русского акцента, говорить о профессиональной, качественной озвучки текста на русский язык – не стоит.

Voice Library

Здесь представлены готовые голоса из сообщества Eleven Labs.

инструмент Voice Library

Здесь можно отфильтровать список: по полу, возрасту, акценту. Для прослушивания нажимаем «Sample». Для добавления голоса в «VoiceLab» нажимаем «Add to VoiceLab» и дальше этот голос можно выбрать из списка для озвучивания текста.

History

Здесь хранится список сгенерированных пользователем синтетических голосов.

инструмент History

Dubbing

Инструмент для дубляжа любого загруженного видео.

инструмент для дубляжа

Нажимаем «Create new dub».

создание дубляжа в ElevenLabs

Здесь:

  • «Dubbing Project Name» – указываем название проекта;
  • «Source Language» – выбираем исходный язык, на котором говорят в видео;
  • «Target Language» – выбираем язык, на который хотим перевести на дубляж;
  • «Select a Source» – загружаем исходное видео или вставляем ссылку на видео. Загрузить видео можно не больше 100 MB и продолжительностью до 45 минут;
  • «Advanced Settings» – расширенные настройки. Здесь можно указать количество персонажей, которые говорят (Number of speakers), разрешение видео (Video Resolution), определенный временной диапазон для дубляжа (Extract a time range for dubbing), добавить водяной знак (Add watermark).

Как отмечают пользователи результат получается хорошим, но перевод английских слов на русский язык все еще далек от идеала.

Какие есть лимиты и ограничения

Пользователям бесплатно доступно 10 000 символов в месяц, генерация 3 синтетических голосов. Для доступа к функционалу клонирования голоса необходимо оформить подписку «Starter» – 5$/мес. Также сервис предлагает и другие виды подписок, стоимость варьируется от 5 до 330$/мес, в зависимости от предоставляемого функционала и количества генерации голосов.

Аналоги Eleven Labs

Ознакомиться с подборкой популярных сервисов на базе AI для создания реалистичных голосовых имитаций можно здесь.

Выводы

В скором времени снятые видеоролики на иностранном языке нейросети будут дублировать в считанные минуты на любые другие языки.

Оцените статью
Neuroseti.ru