Whisper – нейросеть для расшифровки аудио

Нейросеть расшифровует речь в аудиозаписях и преобразует в текст.


2 мин чтения
Whisper – нейросеть для расшифровки аудио

Whisper – нейросеть для распознавания речи на разных языках. Разработана компанией OpenAI, выпустившей ChatGPT. Позволяет транскрибировать речь в текст. Умеет переводить аудиозаписи с одного языка на другой.

Как работает нейросеть Whisper

Нейросеть Whisper AI обучена на 680 тысячах часов многоязычных и многозадачных данных. ИИ сервис работает по принципу кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуемые в кепструм малой частоты, который передается кодировщику.

Нейросеть Udio для создания музыки
Нейросеть создает музыку и песни с вокалом по описанию.

Декодер обучен предсказывать последующие текстовые подписи. Специальные маркеры используются для выполнения нескольких задач, таких как временные метки на уровне фраз.

При тестировании во многих наборах данных Whisper допустил на 50% меньше ошибок, чем аналоги.

Как установить нейросеть Whisper

Нейросеть Whisper представлена в виде программного обеспечения с открытым исходным кодом. Запустить сервис можно в браузере на компьютере. Для этого необходимо:

  • Создать новый файл Google Colab по ссылке.
  • Нажать на пункт Меню.
  • Выбрать опцию Среда выполнения.
  • Кликнуть по функции Сменить среду выполнения.
  • Указать, чтобы компьютер использовал GPU.
  • Нажать Сохранить.
  • Для установки Whisper необходимо скопировать код ниже, вставить в пустое поле в Google Colab и нажать на кнопку пуска рядом.

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

Установка занимает порядка 1 минуты. Для расшифровки аудио в текст следует открыть панель слева, выбрать раздел Файлы и загрузить запись.

Нейросеть распознает файлы в форматах mp4, mp3, wav, m4a.

Нейросеть MusicLM для музыки
Нейросеть от компании Google для создания музыки и песен с вокалом.

Для запуска расшифровки требуется нажать кнопку Play. Нейросеть преобразует речь в текст. Готовый файл доступен для загрузки в форматах json, srt, tsv, txt и vtt.

Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.

Вверх

🎉 Вы успешно подписались на новости сайта T4S.TECH!
OK