HierSpeech++: новый подход к синтезу речи

Алгоритм использует иерархическую структуру, поэтому отпадает потребность в предварительном обучении.


1 минута чтения
HierSpeech++: новый подход к синтезу речи

HierSpeech++ — модель машинного обучения для озвучивания текста. Инструмент представили сотрудники южнокорейского Университета Корё.

Разработчики заявляют, что распространенная языковая модель LLM ограничена. Медленная скорость вывода, отсутствие надежности и обучение нейросети на массиве данных.

Модель LLM использовалась при создании ChatGPT.

В HierSpeech++ используется модель TTS для конвертации текста в речь и VC для преобразования голоса. Южнокорейские разработчики считают, что иерархические структуры повысят надежность и сделают синтетическую речь выразительной. Озвучивание текстов происходит без предварительного обучения нейросети.

Обновление нейросети Pika 1.0 — новый шаг в генерации видео
Нейросеть Pika достигла отметки в 500 тысяч пользователей и выпустила крупное обновление 1.0. Общий доступ к платформе остается закрытым.

На странице проекта опубликованы примеры преобразования текста в речь. Представлены сравнения с конкурентными моделями.

Демо-версия HierSpeech++ развернута на площадке Hugging Face. Тестирование модели открыто для авторизованных пользователей.

Открытый исходный код размещен в GitHub-репозитории.

Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.

Вверх

🎉 Вы успешно подписались на новости сайта T4S.TECH!
OK