Gemini 3.1 Flash TTS: Google представила новую модель синтеза речи с управлением через текст

Google анонсировала новую модель синтеза речи — Gemini 3.1 Flash TTS. Основной акцент — на управляемости генерации и более естественном звучании. Модель уже доступна в превью для разработчиков и бизнеса через API и облачные сервисы.

Что изменилось в качестве и управлении

В новой версии улучшили общее качество речи — модель звучит более естественно и вариативно по сравнению с предыдущими версиями. По данным бенчмарка Artificial Analysis, она получила высокий рейтинг по субъективной оценке слушателей.

При этом важнее не столько само качество, сколько контроль над генерацией. В модели появилась возможность задавать параметры речи прямо в тексте — без сложных конфигураций или отдельных настроек.

Audio tags — управление речью через текст

Ключевое нововведение — так называемые audio tags. Это текстовые инструкции, которые встраиваются прямо в исходный текст и позволяют управлять: тоном и интонацией, темпом речи, акцентом и манерой подачи.

Фактически это попытка сделать TTS ближе к сценарию: разработчик задаёт не просто текст, а «режиссуру» озвучки.

Дополнительно поддерживаются диалоги с несколькими голосами, настройка параметров для каждого «персонажа» и изменение стиля речи внутри одной реплики.

Сценарии использования

С учётом новых возможностей модель ориентирована на более сложные сценарии, чем классический TTS:

голосовые интерфейсы и ассистенты
генерация диалогов (например, для обучения или игр)
озвучка видео и контента
автоматизация колл-центров и IVR

За счёт управления через текст можно быстрее прототипировать голосовые сценарии без отдельной настройки аудио-пайплайна.

Масштабирование и языки

Модель поддерживает более 70 языков. Отдельно отмечается возможность контролировать акцент и стиль речи, что важно для локализации.

Это делает модель применимой не только для прототипов, но и для продакшн-сценариев с международной аудиторией.

Доступность

На момент анонса Gemini 3.1 Flash TTS доступна:

через Gemini API и Google AI Studio — для разработчиков
в Vertex AI — для корпоративного использования
в Google Vids — как часть пользовательских инструментов

Пока это превью-версия.

Маркировка AI-аудио

Все сгенерированные аудио автоматически маркируются с помощью SynthID — невидимого водяного знака, встроенного в звук. Это позволяет определять, что запись была создана моделью.

Основное отличие Gemini 3.1 Flash TTS — не столько в качестве речи, сколько в уровне контроля. Возможность управлять подачей через текст упрощает создание сложных голосовых сценариев и снижает порог входа для разработки таких решений.

Посмотрим, как это покажет себя в реальных задачах — особенно с учётом многоязычности и работы с диалогами.

^{Источник:}^blog.google

Если хотите посмотреть, как такие подходы к работе с ИИ применяются на практике — можно заглянуть на открытые уроки от практикующих экспертов, где разбирают реальные сценарии и инструменты.

22 апреля, 20:00. «Создание нейро-сотрудника на базе Telegram-бота и GPT: от регистрации до рабочего прототипа». Записаться
30 апреля, 20:00. «Поиск в базе знаний: где векторы ошибаются, а графы помогают». Записаться
6 мая, 20:00. «LangGraph + MCP в Cursor IDE: создаем автономного агента для глубокого анализа Google Trends». Записаться

ссылка на оригинал статьи https://habr.com/ru/articles/1024252/