Google анонсировала новую модель синтеза речи — Gemini 3.1 Flash TTS. Основной акцент — на управляемости генерации и более естественном звучании. Модель уже доступна в превью для разработчиков и бизнеса через API и облачные сервисы.
Что изменилось в качестве и управлении
В новой версии улучшили общее качество речи — модель звучит более естественно и вариативно по сравнению с предыдущими версиями. По данным бенчмарка Artificial Analysis, она получила высокий рейтинг по субъективной оценке слушателей.
При этом важнее не столько само качество, сколько контроль над генерацией. В модели появилась возможность задавать параметры речи прямо в тексте — без сложных конфигураций или отдельных настроек.

Audio tags — управление речью через текст
Ключевое нововведение — так называемые audio tags. Это текстовые инструкции, которые встраиваются прямо в исходный текст и позволяют управлять: тоном и интонацией, темпом речи, акцентом и манерой подачи.
Фактически это попытка сделать TTS ближе к сценарию: разработчик задаёт не просто текст, а «режиссуру» озвучки.
Дополнительно поддерживаются диалоги с несколькими голосами, настройка параметров для каждого «персонажа» и изменение стиля речи внутри одной реплики.
Сценарии использования
С учётом новых возможностей модель ориентирована на более сложные сценарии, чем классический TTS:
-
голосовые интерфейсы и ассистенты
-
генерация диалогов (например, для обучения или игр)
-
озвучка видео и контента
-
автоматизация колл-центров и IVR
За счёт управления через текст можно быстрее прототипировать голосовые сценарии без отдельной настройки аудио-пайплайна.
Масштабирование и языки
Модель поддерживает более 70 языков. Отдельно отмечается возможность контролировать акцент и стиль речи, что важно для локализации.
Это делает модель применимой не только для прототипов, но и для продакшн-сценариев с международной аудиторией.
Доступность
На момент анонса Gemini 3.1 Flash TTS доступна:
-
через Gemini API и Google AI Studio — для разработчиков
-
в Vertex AI — для корпоративного использования
-
в Google Vids — как часть пользовательских инструментов
Пока это превью-версия.
Маркировка AI-аудио
Все сгенерированные аудио автоматически маркируются с помощью SynthID — невидимого водяного знака, встроенного в звук. Это позволяет определять, что запись была создана моделью.
Основное отличие Gemini 3.1 Flash TTS — не столько в качестве речи, сколько в уровне контроля. Возможность управлять подачей через текст упрощает создание сложных голосовых сценариев и снижает порог входа для разработки таких решений.
Посмотрим, как это покажет себя в реальных задачах — особенно с учётом многоязычности и работы с диалогами.
Источник: blog.google
Если хотите посмотреть, как такие подходы к работе с ИИ применяются на практике — можно заглянуть на открытые уроки от практикующих экспертов, где разбирают реальные сценарии и инструменты.
-
22 апреля, 20:00. «Создание нейро-сотрудника на базе Telegram-бота и GPT: от регистрации до рабочего прототипа». Записаться
-
30 апреля, 20:00. «Поиск в базе знаний: где векторы ошибаются, а графы помогают». Записаться
-
6 мая, 20:00. «LangGraph + MCP в Cursor IDE: создаем автономного агента для глубокого анализа Google Trends». Записаться
ссылка на оригинал статьи https://habr.com/ru/articles/1024252/