![Сравнение качества версий v5, v4 и v3.1 Сравнение качества версий v5, v4 и v3.1](https://habrastorage.org/getpro/habr/upload_files/a9e/41c/4e8/a9e41c4e837f5bf721363cf0be33dd99.png)
Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тут. Кратко опишу, что стало лучше в этот раз:
-
Поддержка 6 000+ языков;
-
Общий рост качества на 5-7%;
-
Существенно повышена устойчивость на шумных данных;
-
TorchScript (*) стал в 3 раза быстрее, а ONNX — на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);
-
Качество работы теперь почти не зависит от частоты дискретизации и размера окна, поэтому мы перешли на фиксированный размер окна (256 и 512 семплов для 8 и 16 килогерц, соответственно);
-
Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);
Путь проделан огромный, но почти все изменения умещаются над катом Хабра.
Цитирование и аффилиации
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD, author = {Silero Team}, title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier}, year = {2021}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/snakers4/silero-vad}}, commit = {insert_some_commit_here}, email = {hello@silero.ai} }
Также нами опубликован датасет, в том числе на котором основан данный детектор.
Ссылки
-
Репозиторий — https://github.com/snakers4/silero-vad;
-
Более подробное описание изменений — https://github.com/snakers4/silero-vad/releases/tag/v5.0;
-
Метрики — https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;
ссылка на оригинал статьи https://habr.com/ru/articles/825208/
Добавить комментарий