Mozilla разрабатывает функцию локального перевода аудио в текст

от автора

Команда Mozilla Ocho, которая разрабатывает экспериментальные функции браузера Firefox,  сейчас занимается технологией локального перевода аудио в текст. Проект построен на базе Llamafile — другой разработки Mozilla, предназначенной для простого распространения моделей машинного обучения в виде всего одного файла.

Технология получила название Whisperfile, а разработали её на базе модели машинного обучения Whisper от OpenAI. Помимо расшифровки аудио поддерживается и перевод на английский язык. В исполняемый файл Whisperfile упакованы веса нейросети, поэтому её можно без проблем запустить на Linux, MacOS, Windows, FreeBSD, NetBSD (AMD64 и ARM64) и OpenBSD.

Система может обрабатывать аудио в форматах WAV, MP3, OGG или FLAC. На выходе получается транскрибированный текст, который можно использовать далее или сохранить. Также есть возможность использовать для запуска GPU, чтобы разгрузить процессор. Система поставляется вместе с системой проверки соответствия распознанных слов, которая окрашивает их в красный (очень плохо), оранжевый, жёлтый и зелёный (превосходно).

Код проекта, документация и всё необходимое для запуска опубликовано на площадке Hugging Face.


ссылка на оригинал статьи https://habr.com/ru/articles/838162/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *