xAI выпустила флагманскую голосовую модель для реального общения

от автора

Компания xAI открыла API-доступ к новой модели grok-voice-think-fast-1.0, ориентированной на клиентский сервис и телемаркетинг.

Ключевая особенность — полноценный дуплексный режим: модель умеет вести разговор в реальном времени, обрабатывая перебивания, акценты и фоновый шум без ощутимых задержек.

По результатам бенчмарка τ-Voice Bench:

• 67,3% у grok-voice-think-fast-1.0

• 35,3% у gpt-realtime-1.5

• 43,8% у gemini-3.1-flash-live-preview-thinking-high

То есть разрыв с конкурентами почти в два раза.

Технически модель поддерживает фоновый инференс и работает на 25+ языках, включая русский. Это позволяет использовать её в сценариях живого общения без пауз и «задумчивости», характерной для ранних голосовых ИИ. Интересный момент — разработка велась совместно с Starlink, и провайдер уже применяет модель в своей службе поддержки. Протестировать grok-voice-think-fast-1.0 можно через xAI Playground.

Фактически это ещё один шаг к замене классических колл-центров: голосовые ИИ начинают не просто отвечать, а полноценно вести диалог на уровне человека.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

ссылка на оригинал статьи https://habr.com/ru/articles/1027470/