Озвучка

В этом разделе мы рассмотрим все поддерживающиеся в Soul of Waifu движки Text-to-Speech.

Содержание раздела

Character AI
ElevenLabs
Edge TTS
RVC-обработка
XTTSv2
Kokoro 82M

Character AI

Вариант с Character AI работает только если персонаж добавлен с сайта Character AI, а вы подключили API-токен к программе. Для начала нажмите на кнопку выбора TTS, находящуюся на карточке персонажа, чтобы перейти к выбору нужного варианта. В открывшемся окне, выберите Character AI, в поисковой строке введите название голоса и нажмите на поиск. В выпадающем списке выберите нужный голос и прослушайте его. Если голос вам понравился, тогда нажмите на кнопку выбора озвучки.

Демонстрация TTS от Character AI

ElevenLabs

Перейдите на сайт ElevenLabs и возьмите оттуда API-токен, который необходимо вставить в соответствующее поле. Также с сайта необходимо скопировать ID голоса, который вы хотите, чтобы звучал у персонажа. Нажимайте на кнопку сохранения и наслаждайтесь прекрасной озвучкой от ElevenLabs, лимит которой закончится у вас уже через 10 сообщений.

Демонстрация TTS от ElevenLabs

Edge TTS

Всё что вам тут нужно - это выбрать язык, на котором будет происходить озвучка, и голос. При необходимости можете использовать RVC-обработку.

Пример аудиофайла для Edge TTS:

Демонстрация TTS от Edge TTS

RVC-обработка

RVC (Retrieval-Based Voice Conversion) - это технология преобразования голоса, которая позволяет менять тембр и интонации сгенерированной движком TTS озвучки под конкретный голос (например, персонажа из аниме, знаменитости или кастомного персонажа). В отличие от стандартных TTS, где голос «вшит» в модель, RVC добавляет возможность выбирать: сначала генерируется речь через TTS, затем её тембр корректируется с помощью RVC и на выходе мы получаем нужный нам голос, который точно подойдёт вашему персонажу.

Как работает? Процесс состоит из двух этапов: 1. Текст преобразуется в аудио при помощи Text-to-Speech движка. На этом этапе задаются базовые параметры: язык, скорость и эмоции. 2. Полученный аудиофайл подаётся на вход RVC-модели, которую вы ранее скачали и поместили в соответствующую папку. RVC сохраняет текст и интонацию, но заменяет тембр на необходимый нам.

Это особенно полезно, ведь по своей природе TTS-движки ограничены голосами, на которых они были обучены, а благодаря технологии RVC можно динамически менять голос на тот, который подходит персонажу.

Где взять модель RVC?

Взять модель RVC можно на Discord-сервере AI Hub или на сайте Weights.

Discord-сервер AI Hub

Сайт Weights

Куда поместить модель RVC?

RVC-модель с расширением .pth вместе с файлом .index вы должны поместить в одну папку и эту папку потом поместить по директории Soul-of-Waifu/assets/rvc_models. Название папки должно в точности совпадать с названием самой модели, иначе ничего не будет работать.

XTTSv2

Далее идут локальные TTS модели, которые используют мощности вашего компьютера. Начнём с XTTSv2 (eXtended Text-to-Speech версии 2) - это открытая нейросетевая модель от проекта Coqui-TTS, разработанная для генерации речи с поддержкой мультиязычности и голосового клонирования. Поддерживаются английский, испанский, французский, немецкий, итальянский, португальский, польский, русский, японский, китайский, турецкий, арабский, нидерландский языки. Одна модель может обрабатывать ВСЕ эти языки, не нужно переключаться на другую. Soul of Waifu имеет три встроенных голоса - Мужской, Женский и Спокойный Женский. Вы можете на их место поставить свой отрывок голоса того, кого вы хотите клонировать, но имена файлов должны совпадать с теми, которые стоят по умолчанию. XTTSv2 использует архитектуру VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech), которая генерирует плавные переходы между словами, имитирует естественные паузы и акценты, а также подстраивает тон под эмоции. Выбрать эту озвучку вы можете также в специальном окне выбора TTS. Но перед использованием вам придется её скачать. Во время чата при первой генерации в консоли вам напишут, что перед скачиванием модели необходимо принять лицензионное соглашение, напишите в консоли "y" и ожидайте загрузки модели. В случае с XTTSv2 вы также можете выбрать RVC-модель для дальнейшей обработки.

Пример аудиофайла для XTTSv2:

Демонстрация TTS от XTTSv2

Kokoro 82M

Эта озвучка получила хвалебные отзывы от людей за счёт маленького веса модели, качества и скорости генерации. Это действительно серьезный прорыв, ведь теперь можно слушать шикарную озвучку даже на слабых компьютерах с высокой скоростью генерации. Kokoro 82M построена на основе комбинации StyleTTS 2 и ISTFTNet архитектур. Но перед использованием этой модели, вам также необходимо будет дождаться её загрузки, это происходит автоматически. Наблюдать за прогрессом загрузки можно в консоли. Soul of Waifu поддерживает голоса на английском, японском и китайском языках. Идеально поддаётся RVC-обработке, главное поставить нужный голос от Kokoro.

Пример аудиофайла для Kokoro 82M:

Демонстрация TTS от Kokoro 82M

В следующем разделе мы рассмотрим возможность установки персонажу аватара, который будет располагаться справа от чата.

Настройка моделей Аватары персонажей