Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

от автора

Сравнение качества версий v5, v4 и v3.1

Сравнение качества версий v5, v4 и v3.1

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

  • Поддержка 6 000+ языков;

  • Общий рост качества на 5-7%;

  • Существенно повышена устойчивость на шумных данных;

  • TorchScript (*) стал в 3 раза быстрее, а ONNX — на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

  • Качество работы теперь почти не зависит от частоты дискретизации и размера окна, поэтому мы перешли на фиксированный размер окна (256 и 512 семплов для 8 и 16 килогерц, соответственно);

  • Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);

Путь проделан огромный, но почти все изменения умещаются над катом Хабра.

Цитирование и аффилиации

Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать детектор можно следующим образом:

@misc{Silero VAD,   author = {Silero Team},   title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},   year = {2021},   publisher = {GitHub},   journal = {GitHub repository},   howpublished = {\url{https://github.com/snakers4/silero-vad}},   commit = {insert_some_commit_here},   email = {hello@silero.ai} }

Также нами опубликован датасет, в том числе на котором основан данный детектор.

Ссылки

  1. Репозиторийhttps://github.com/snakers4/silero-vad;

  2. Более подробное описание измененийhttps://github.com/snakers4/silero-vad/releases/tag/v5.0;

  3. Метрикиhttps://github.com/snakers4/silero-vad/wiki/Quality-Metrics;


ссылка на оригинал статьи https://habr.com/ru/articles/825208/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *