HierSpeech++ — модель машинного обучения для озвучивания текста. Инструмент представили сотрудники южнокорейского Университета Корё.
Разработчики заявляют, что распространенная языковая модель LLM ограничена. Медленная скорость вывода, отсутствие надежности и обучение нейросети на массиве данных.
Модель LLM использовалась при создании ChatGPT.
В HierSpeech++ используется модель TTS для конвертации текста в речь и VC для преобразования голоса. Южнокорейские разработчики считают, что иерархические структуры повысят надежность и сделают синтетическую речь выразительной. Озвучивание текстов происходит без предварительного обучения нейросети.
На странице проекта опубликованы примеры преобразования текста в речь. Представлены сравнения с конкурентными моделями.
Демо-версия HierSpeech++ развернута на площадке Hugging Face. Тестирование модели открыто для авторизованных пользователей.
Открытый исходный код размещен в GitHub-репозитории.
Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.