ElevenLabs – это сервис, разработанный для создания реалистичных голосовых имитаций. Он использует передовые технологии глубокого обучения и искусственного интеллекта, чтобы создавать голосовые модели, которые могут имитировать различные голоса и стили речи.
Сервис ElevenLabs обрабатывает аудиозаписи с реальными голосами, чтобы создать уникальные голосовые имитации. Он может быть использован для различных целей, включая развлекательные приложения, аудиокниги, озвучивание видео, ассистенты и многое другое.
ElevenLabs имеет широкий выбор голосовых моделей, которые пользователь может выбрать и настроить в соответствии с задачей. Они включают различные возрастные группы, пол и акценты, что позволяет создавать голосовые имитации разных персонажей и говорящих голов.
Сервис также предоставляет возможность настраивать такие параметры, как скорость речи, интонация и эмоциональность, чтобы создать максимально реалистичную голосовую имитацию.
ElevenLabs предоставляет API, что позволяет разработчикам интегрировать его функциональность в свои приложения и сервисы. Это делает его удобным инструментом для создания голосовых имитаций в широком спектре продуктов и проектов. Однако стоит отметить, что использование голосовых имитаций должно быть согласовано с правилами и законами, касающимися авторских прав и конфиденциальности.
Как зарегистрироваться
Переходим на сайт https://elevenlabs.io/ и нажимаем на «Sign up» в правом верхнем углу.

Регистрируемся в сервисе с помощью Гугл аккаунта или электронной почты – вводим адрес электронной почты и пароль для создания аккаунта. При регистрации через электронную почту, будет направлено письмо с подтверждением регистрации. Нужно открыть письмо и нажать на ссылку для подтверждения регистрации.
Пользователь должен согласиться с условиями и услугами, нажав «I agree to terms of service», и выбрать бесплатный тарифный план.
Как пользоваться
Пользователю доступен следующий функционал:

- Speech Synthesis – синтез речи. Позволяет сгенерировать аудиодорожку для заданного текста. Голос для озвучивания можно выбрать готовый, из сообщества Eleven Labs, или создать собственную голосовую модель.
- Projects – создание объемного контента, например, аудиокниг. Позволяет загрузить документ или книгу, импортировать веб-страницу. Затем сервис сгенерирует закадровое повествование файла. Дальше скачиваем либо отдельные аудиофайлы каждой главы, либо единый файл. Функционал доступен только при оформлении платной подписки.
- Dubbing – для дубляжа любого видео.
- VoiceLab – создание уникального синтетического голоса. Важно, если используется клонированный голос (например, голос артиста), необходимо получить соответствующее разрешение на его коммерческое использование, даже на платном тарифном плане.
- Voice Library – готовые голоса из сообщества Eleven Labs.
- History – список сгенерированных пользователем голосов.
Рассмотрим каждый функционал подробнее.
VoiceLab
Инструмент для создания нового синтетического голоса. Бесплатно можно создать до трёх голосов.

Нажимаем «Add Generative or Cloned Voice» и выбираем тип создаваемого голоса:

- Voice Design – создание совершенно нового голоса. Каждый голос, который вы создаете, генерируется случайным образом и является совершенно уникальным, даже если применяются одни и те же настройки.
- Instant Voice Cloning – клонирование голоса. Клонировать голос необходимо из чистого образца записи. Сэмплы должны содержать 1 динамик, длиться более 1 минуты и не содержать фонового шума. Функционал теперь доступен только при оформлении платной подписки из-за большого количества случаев неправильного использования, злоупотребления клонированного голоса.
- Voice Library – создание голоса на основе шаблона из сообщества ElevenLabs.
- Professional Voice Cloning – создание идеальной цифровой копии своего голоса. Функционал доступен только при оформлении платной подписки.
Мы выбрали «Voice Design». Приступаем к настройкам для будущего голоса.

В «Gender» выбираем пол, «Age» – возраст, «Accent» – акцент (к сожалению, русский акцент отсутствует), «Accent Strength» – выраженность акцента. В соответствующем поле можем ввести свой текст и нажимаем «Generate». Ждём несколько секунд и прослушиваем аудиозапись.
Сгенерированную аудиозапись можно сохранить, нажав на соответствующую иконку.

Нажимаем «Use Voice», вводим название и нажимаем «Create Voice». Таким образом мы сгенерировали синтетический голос с нуля.

Теперь мы можем использовать сгенерированный голос для озвучивания.
Speech Synthesis
Здесь приступим к озвучиванию текста голосом, который был сгенерирован ранее.

В «Settings» выбираем сгенерированный голос или можно выбрать готовый из предложенных.

В «Voice Settings» также можно поиграться с параметрами. В поле «Text» добавляем текст для озвучивания и нажимаем «Generate». Ждём несколько секунд и прослушиваем аудиозапись. Сгенерированную аудиозапись можно сохранить, нажав на соответствующую иконку.
Хотелось бы отметить, что в ElevenLabs появилась многоязычная модель синтеза речи Eleven Multilingual v2, которая поддерживает русский язык в отличии от предыдущей версии, поэтому сервис может быть использован для озвучивания на русский язык на «любительском» уровне. Но из-за отсутствия поддержки русского акцента, говорить о профессиональной, качественной озвучки текста на русский язык – не стоит.
Voice Library
Здесь представлены готовые голоса из сообщества Eleven Labs.

Здесь можно отфильтровать список: по полу, возрасту, акценту. Для прослушивания нажимаем «Sample». Для добавления голоса в «VoiceLab» нажимаем «Add to VoiceLab» и дальше этот голос можно выбрать из списка для озвучивания текста.
History
Здесь хранится список сгенерированных пользователем синтетических голосов.

Dubbing
Инструмент для дубляжа любого загруженного видео.

Нажимаем «Create new dub».

Здесь:
- «Dubbing Project Name» – указываем название проекта;
- «Source Language» – выбираем исходный язык, на котором говорят в видео;
- «Target Language» – выбираем язык, на который хотим перевести на дубляж;
- «Select a Source» – загружаем исходное видео или вставляем ссылку на видео. Загрузить видео можно не больше 100 MB и продолжительностью до 45 минут;
- «Advanced Settings» – расширенные настройки. Здесь можно указать количество персонажей, которые говорят (Number of speakers), разрешение видео (Video Resolution), определенный временной диапазон для дубляжа (Extract a time range for dubbing), добавить водяной знак (Add watermark).
Как отмечают пользователи результат получается хорошим, но перевод английских слов на русский язык все еще далек от идеала.
Какие есть лимиты и ограничения
Пользователям бесплатно доступно 10 000 символов в месяц, генерация 3 синтетических голосов. Для доступа к функционалу клонирования голоса необходимо оформить подписку «Starter» – 5$/мес. Также сервис предлагает и другие виды подписок, стоимость варьируется от 5 до 330$/мес, в зависимости от предоставляемого функционала и количества генерации голосов.
Аналоги Eleven Labs
Ознакомиться с подборкой популярных сервисов на базе AI для создания реалистичных голосовых имитаций можно здесь.
Выводы
В скором времени снятые видеоролики на иностранном языке нейросети будут дублировать в считанные минуты на любые другие языки.