Озвучка
В этом разделе мы рассмотрим все поддерживающиеся в Soul of Waifu движки Text-to-Speech.
Содержание раздела
Character AI
Вариант с Character AI работает только если персонаж добавлен с сайта Character AI, а вы подключили API-токен к программе. Для начала нажмите на кнопку выбора TTS, находящуюся на карточке персонажа, чтобы перейти к выбору нужного варианта. В открывшемся окне, выберите Character AI, в поисковой строке введите название голоса и нажмите на поиск. В выпадающем списке выберите нужный голос и прослушайте его. Если голос вам понравился, тогда нажмите на кнопку выбора озвучки.

Демонстрация TTS от Character AI
ElevenLabs
Перейдите на сайт ElevenLabs и возьмите оттуда API-токен, который необходимо вставить в соответствующее поле. Также с сайта необходимо скопировать ID голоса, который вы хотите, чтобы звучал у персонажа. Нажимайте на кнопку сохранения и наслаждайтесь прекрасной озвучкой от ElevenLabs, лимит которой закончится у вас уже через 10 сообщений.

Демонстрация TTS от ElevenLabs
Edge TTS
Всё что вам тут нужно - это выбрать язык, на котором будет происходить озвучка, и голос. При необходимости можете использовать RVC-обработку.

Демонстрация TTS от Edge TTS
RVC-обработка
RVC (Retrieval-Based Voice Conversion) - это технология преобразования голоса, которая позволяет менять тембр и интонации сгенерированной движком TTS озвучки под конкретный голос (например, персонажа из аниме, знаменитости или кастомного персонажа). В отличие от стандартных TTS, где голос «вшит» в модель, RVC добавляет возможность выбирать: сначала генерируется речь через TTS, затем её тембр корректируется с помощью RVC и на выходе мы получаем нужный нам голос, который точно подойдёт вашему персонажу.
Как работает? Процесс состоит из двух этапов: 1. Текст преобразуется в аудио при помощи Text-to-Speech движка. На этом этапе задаются базовые параметры: язык, скорость и эмоции. 2. Полученный аудиофайл подаётся на вход RVC-модели, которую вы ранее скачали и поместили в соответствующую папку. RVC сохраняет текст и интонацию, но заменяет тембр на необходимый нам.
Это особенно полезно, ведь по своей природе TTS-движки ограничены голосами, на которых они были обучены, а благодаря технологии RVC можно динамически менять голос на тот, который подходит персонажу.
Где взять модель RVC?
Взять модель RVC можно на Discord-сервере AI Hub или на сайте Weights.

Discord-сервер AI Hub

Сайт Weights
Куда поместить модель RVC?
RVC-модель с расширением .pth вместе с файлом .index вы должны поместить в одну папку и эту папку потом поместить по директории Soul-of-Waifu/assets/rvc_models. Название папки должно в точности совпадать с названием самой модели, иначе ничего не будет работать.

XTTSv2
Далее идут локальные TTS модели, которые используют мощности вашего компьютера. Начнём с XTTSv2 (eXtended Text-to-Speech версии 2) - это открытая нейросетевая модель от проекта Coqui-TTS, разработанная для генерации речи с поддержкой мультиязычности и голосового клонирования. Поддерживаются английский, испанский, французский, немецкий, итальянский, португальский, польский, русский, японский, китайский, турецкий, арабский, нидерландский языки. Одна модель может обрабатывать ВСЕ эти языки, не нужно переключаться на другую. Soul of Waifu имеет три встроенных голоса - Мужской, Женский и Спокойный Женский. Вы можете на их место поставить свой отрывок голоса того, кого вы хотите клонировать, но имена файлов должны совпадать с теми, которые стоят по умолчанию. XTTSv2 использует архитектуру VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech), которая генерирует плавные переходы между словами, имитирует естественные паузы и акценты, а также подстраивает тон под эмоции. Выбрать эту озвучку вы можете также в специальном окне выбора TTS. Но перед использованием вам придется её скачать. Во время чата при первой генерации в консоли вам напишут, что перед скачиванием модели необходимо принять лицензионное соглашение, напишите в консоли "y" и ожидайте загрузки модели. В случае с XTTSv2 вы также можете выбрать RVC-модель для дальнейшей обработки.

Демонстрация TTS от XTTSv2
Kokoro 82M
Эта озвучка получила хвалебные отзывы от людей за счёт маленького веса модели, качества и скорости генерации. Это действительно серьезный прорыв, ведь теперь можно слушать шикарную озвучку даже на слабых компьютерах с высокой скоростью генерации. Kokoro 82M построена на основе комбинации StyleTTS 2 и ISTFTNet архитектур. Но перед использованием этой модели, вам также необходимо будет дождаться её загрузки, это происходит автоматически. Наблюдать за прогрессом загрузки можно в консоли. Soul of Waifu поддерживает голоса на английском, японском и китайском языках. Идеально поддаётся RVC-обработке, главное поставить нужный голос от Kokoro.

Демонстрация TTS от Kokoro 82M
В следующем разделе мы рассмотрим возможность установки персонажу аватара, который будет располагаться справа от чата.