Риски использования распознавания речи от Google в своих бизнес проектах

от автора

Всем привет.

По мотивам статьи «Самообслуживание клиентов с помощью google ASR»
Хотел бы вам рассказать, какие есть риски для бизнеса при использовании распознавания речи от Google для своего call-центра.

Я представляю компанию «Центр речевых технологий» (ЦРТ) и мы занимаемся технологиями синтеза и распознавания русской речи и в первую очередь, как раз делаем решения по автоматизации call-центров.
Речевыми технологиями мы занимаемся уже на протяжении 20 лет. Сейчас над этим трудится порядка 70-80 ученых и программистов, плюс нам помогают речевые кафедры ведущих ВУЗов страны, плюс у нас есть собственная кафедра речевых технологий в ИТМО — растим своих молодых ученых.

И в этом посте я проведу параллели между распознаванием речи от ЦРТ и Google, относительно применения его в корпоративном секторе (call — центры).

Наши технологии (ЦРТ и Google) неоднократно сравнивают на разных встречах и выступлениях, задают провокационные вопросы об этом, и у нас на них уже выработались заготовленные ответы.

Но сперва я бы хотел признать, что распознавание речи от Google работает очень хорошо. Но это не значит, что распознавание от ЦРТ работает хуже. Можете убедиться в этом сами: видео.

Еще важный момент: в корпоративном секторе качество распознавания речи играет не самую главную роль, есть множество других факторов, которые необходимо принимать в расчет. О них я и расскажу ниже.

На чем основана технология распознавание речи?
Это статистика — обработка тысяч, миллионов, а в случае с Google, и миллиардов реальных слов и выражений, которые люди употребляют при построении своих фраз.
Где Google берет базу для своего распознавания? Все очень просто – это поисковая строка Google, т.е. они могут распознавать все, что когда-либо люди писали в поисковой строке.
Это называется распознавание по общей языковой модели, т.е. разговор обо всем сразу на любую тему и использование стандартных разговорных слов и выражений.
Например, Google легко и без ошибок распознает такие фразы, как: «Какая сейчас погода?», «Где находится Берингов пролив», «Какой курс валюты» — все это когда-то и много раз люди спрашивали у Google.

Отличие первое — Качество распознавания.
Google не сможет распознать речь, относящуюся к узкой специфической тематике.
Распознавание Google вообще специально не обучаемо под ваши словари. Например, фраза «37 см выше Z-линии по отношению к Х-оси» — это реальная фраза из проекта, которую Google не распознает правильно, потому что люди такое в повседневной речи не используют, а здесь еще и смешанные алфавиты.

Мы (ЦРТ) сами создаем свое распознавание речи, и мы можем его обучать на любые темы, вносить всевозможные правки и настройки. У нас и у клиента, при создании голосовых меню, есть все инструменты, что бы распознавание работало так, как надо, а не так как это кем-то сделано, без возможности на это влиять.

Простой пример: слова «банк» и «панк» очень похожи, но при звонке в call-центр банка, вероятность того, что кто-то скажет слово «панк» очень мала. Поэтому этого слова даже нет в базе, что существенно повышает качество распознавания. Когда человека слышно плохо (большие шумы, плохая дикция, помехи связи и т.д.) то система должна угадывать, что именно говорит абонент. В этом случае использование ограниченной словарной базы существенно повышает качество распознавания. Это более надежно чем гадать, какое из 1000 похожих слов имел в виду абонент. Ведь наша задача — решить вопрос клиента, а не продемонстрировать крутизну распознавания. Если что-то можно сделать проще – надо делать проще, это всегда надежней.

Еще два момента, один важный, другой не очень в контексте применения в call-центрах.

Важный.
Google за качество своего распознавания не отвечает, т.е. если он распознает не верно, то в этом никто не виноват. Он вам ничего не должен и ничего вам не гарантировал. Хотите – пользуйтесь, хотите – нет.

ЦРТ за качество своего распознавания отвечает по договору. Именно за это платят деньги клиенты – за результат. Если что либо не распознается, значит, мы это будем допиливать до тех пор, пока это не будет распознаваться – помните, у нас есть целый научный департамент.

Не очень важный момент в данном случае.
Google распознает отрезки по 15 сек речи.
В ЦРТ работает потоковое слитное распознавание без ограничений на время зачитывания – хоть всю книжку зачитайте сразу.

Отличие второе — Каналы связи.
Все распознавание Google работает через Интернет. Нет интернета – нет распознавания – ваша система не работает. Бизнес встал. Это реальный риск проекта.
Сюда же можно отнести и поломку сетевого оборудования, потери пакетов, отключение интернета за неуплату и все, что с этим связано.
Решения ЦРТ работают локально, на сервере, который стоит рядом и жужжит. Все такое свое и родное – многие меня поймут.

Отличие третье — Договорные отношения.
С Google нельзя заключить юридический договор на предоставление услуг по распознаванию речи. Они вообще распознавание не предоставляют официально. Официально его можно прикрутить только к мобильным приложениям. Любые попытки его прикрутить к своему call-центру – это риск для бизнеса, работа через «черный ход».
В любой момент они могут прикрыть эту лазейку, что неоднократно уже было с другими проектами.
Скажу даже больше – делать коммерческие проекты на основе распознавания Google в call-центровой теме не законно (если быть до конца честным).

Отличие четвертое – Техническая поддержка.
В Google вы не получите техническую поддержку по распознаванию речи, которое прикручено к вашему call-центру. Если что-то будет не работать, вы вообще никуда не сможете позвонить и пожаловаться. Особенно, если это Asterisk и вы все смастерили сами (как бы я сам лично к Asterisk хорошо не относился).
В ЦРТ техническая поддержка работает 24Х7Х365 с выездом к заказчику. В договоре вы можете прописать любые условия SLA (разумные, конечно).

Отличие пятое – Безопасность.
Все, что распознает Google, распознается на серверах в другой стране мира. Здесь и несоблюдение защиты персональных данных, и все остальное связанное с этой темой. Ни один банк или медицинское учреждение не пойдут на это.
Решение от ЦРТ – локально и работает в том сегменте сети, где вы указали. В Интернете ему делать нечего.

К чему я это все написал?
Многие заказчики, кто к нам обращались, неоднократно ссылались на то, что Google отлично распознает и вообще бесплатный. Это действительно так.
Но самое ли это важное для надежной работы бизнеса?
Это ваш выбор и это ваши риски.
Ну, может быть, конечно, не именно лично ваши, но вашего руководителя точно.

P.S. Кстати, не могу сказать, что наше распознавание очень дорогое. Оно на 30% меньше стоимости аналогичных предложений зарубежных разработчиков.
+ у нас есть специальные цены для Asterisk-разработчиков.
+ у нас есть облачные технологии, т.е. аренда ресурсов ASR и TTS (удаленный доступ).

В свое время мы активно занимались как раз сотрудничеством с Asterisk-разработчиками и ориентировались на малый и средний бизнес КЦ.
По поводу интеграции с Asterisk нами было написано немало инструкций/документации: здесь.

ссылка на оригинал статьи http://habrahabr.ru/company/speechpro/blog/189134/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *