HierSpeech++: новый подход к синтезу речи

Алгоритм использует иерархическую структуру, поэтому отпадает потребность в предварительном обучении.

HierSpeech++ — модель машинного обучения для озвучивания текста. Инструмент представили сотрудники южнокорейского Университета Корё.

Разработчики заявляют, что распространенная языковая модель LLM ограничена. Медленная скорость вывода, отсутствие надежности и обучение нейросети на массиве данных.

Модель LLM использовалась при создании ChatGPT.

В HierSpeech++ используется модель TTS для конвертации текста в речь и VC для преобразования голоса. Южнокорейские разработчики считают, что иерархические структуры повысят надежность и сделают синтетическую речь выразительной. Озвучивание текстов происходит без предварительного обучения нейросети.

На странице проекта опубликованы примеры преобразования текста в речь. Представлены сравнения с конкурентными моделями.

Демо-версия HierSpeech++ развернута на площадке Hugging Face. Тестирование модели открыто для авторизованных пользователей.

Открытый исходный код размещен в GitHub-репозитории.

Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.

HierSpeech++: новый подход к синтезу речи

Где найти нейросети: каталог AI-инструментов AIDive

Pictory AI – нейросеть для создания видео

Ежедневный шифр Hamster Kombat — 14 июня

ChatGPT Edu – нейросеть для образования

Uncrop – нейросеть для дорисовывания фото

Viggle – нейросеть для анимации движений

Вам понравится