
Мы расширили наш Foundation Models Catalog — добавили в него модели для транскрибации аудио (Speech-to-Text), включая легендарное семейство Whisper и GLM-ASR-Nano — новую передовую модель для распознавания речи. Они умеют конвертировать живую речь в связный структурированный текст: отлично справляются с шумом, распознают сложные термины, понимают разные акценты и автоматически расставляют знаки препинания.
Главные фишки новых моделей:
-
мультиязычность — точечное распознавание десятков языков мира;
-
высокая точность — уверенно разбирают даже тихую или быструю речь;
-
широкий спектр задач — от расшифровки звонков до создания субтитров к видео.
Сферы применения:
-
голосовые ассистенты и умные боты;
-
транскрибация интервью, лекций и созвонов;
-
аналитика работы колл-центров.
Новые модели уже доступны в Foundation Models Catalog — можете протестировать их и подключить к вашим сервисам через API.
ссылка на оригинал статьи https://habr.com/ru/articles/1040688/