Исследователи Яндекса опубликовали научную статью с подробным описанием нейросетевой технологии, которая позволяет распознавать голосовые команды даже на фоне шума. Статью приняли на крупнейшую международную конференцию по речевым технологиям Interspeech 2025, которая пройдёт в этом году в Нидерландах. На конференции будут представлены также работы Microsoft, Google DeepMind, Google AR и других технологических компаний и научных центров.
Технология, описанная в научной работе, применяется в умных колонках и ТВ Станциях Яндекса и давно доказала свою эффективность на практике. С её помощью устройства с Алисой распознают команды даже при наличии посторонних шумов: музыки, льющейся воды, вечеринки или стройки за окном. Например, пользователю не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным.
Обычно в умных устройствах и ассистентах используют алгоритмы эхоподавления, которые помогают распознать голос на фоне музыки. Уменьшить другие фоновые звуки помогают алгоритмы шумоподавления, но они ухудшают и человеческую речь. Для решения этой проблемы Яндекс разработал нейросетевой attention‑механизм, который получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее чёткий сигнал, что и позволяет распознавать команды на фоне самых разных звуков.
Теперь эта технология станет доступна разработчикам со всего мира. Она поможет компаниям быстрее создавать собственных голосовых ассистентов и умные устройства, а также уменьшит количество ошибочных срабатываний. В результате пользователи смогут пользоваться продуктами с более комфортным голосовым управлением.
Многие компании и исследователи сталкиваются с похожими проблемами, но у них нет доступа к промышленным решениям, поэтому им приходится тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества удобных и надёжных голосовых устройств.
ссылка на оригинал статьи https://habr.com/ru/articles/932124/
Добавить комментарий