На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:
-
Все прошлые фишки и улучшения были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);
-
Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);
-
Был изменён принцип тренировки, что сделало детектор более устойчивым;
-
Общее число ошибок на мульти-доменной валидации было снижено на 11%;
-
На шумных данных число ошибок было снижено на 16%;
-
Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.
Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.
Сравнение с аналогами
Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка — портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:
Больше всего проблем с шумными данными (методология по ссылке):
|
Модель |
ESC-50 |
Приватный шум |
|---|---|---|
|
Webrtc |
0 |
0.15 |
|
Silero v4 |
0.51 |
0.24 |
|
Silero v3 |
0.51 |
0.06 |
|
Unnamed commercial VAD |
0.53 |
0.18 |
|
Silero v5 |
0.61 |
0.44 |
|
TenVad |
0.42 |
0.47 |
|
Silero v6 |
0.65 |
0.53 |
Цитирование и аффилиации
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD, author = {Silero Team}, title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier}, year = {2021}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/snakers4/silero-vad}}, commit = {insert_some_commit_here}, email = {hello@silero.ai} }
Ссылки
-
Репозиторий — https://github.com/snakers4/silero-vad;
-
Более подробное описание изменений — https://github.com/snakers4/silero-vad/releases/tag/v6.0;
-
Метрики — https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;
ссылка на оригинал статьи https://habr.com/ru/articles/940750/
Добавить комментарий