Whisper – нейросеть для распознавания речи на разных языках. Разработана компанией OpenAI, выпустившей ChatGPT. Позволяет транскрибировать речь в текст. Умеет переводить аудиозаписи с одного языка на другой.
Как работает нейросеть Whisper
Нейросеть Whisper AI обучена на 680 тысячах часов многоязычных и многозадачных данных. ИИ сервис работает по принципу кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуемые в кепструм малой частоты, который передается кодировщику.
Декодер обучен предсказывать последующие текстовые подписи. Специальные маркеры используются для выполнения нескольких задач, таких как временные метки на уровне фраз.
При тестировании во многих наборах данных Whisper допустил на 50% меньше ошибок, чем аналоги.
Как установить нейросеть Whisper
Нейросеть Whisper представлена в виде программного обеспечения с открытым исходным кодом. Запустить сервис можно в браузере на компьютере. Для этого необходимо:
- Создать новый файл Google Colab по ссылке.
- Нажать на пункт Меню.
- Выбрать опцию Среда выполнения.
- Кликнуть по функции Сменить среду выполнения.
- Указать, чтобы компьютер использовал GPU.
- Нажать Сохранить.
- Для установки Whisper необходимо скопировать код ниже, вставить в пустое поле в Google Colab и нажать на кнопку пуска рядом.
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
Установка занимает порядка 1 минуты. Для расшифровки аудио в текст следует открыть панель слева, выбрать раздел Файлы и загрузить запись.
Нейросеть распознает файлы в форматах mp4, mp3, wav, m4a.
Для запуска расшифровки требуется нажать кнопку Play. Нейросеть преобразует речь в текст. Готовый файл доступен для загрузки в форматах json, srt, tsv, txt и vtt.