Gemini 3.1 Flash TTS: Google представила новую модель синтеза речи с управлением через текст

от автора

Google анонсировала новую модель синтеза речи — Gemini 3.1 Flash TTS. Основной акцент — на управляемости генерации и более естественном звучании. Модель уже доступна в превью для разработчиков и бизнеса через API и облачные сервисы.

Что изменилось в качестве и управлении

В новой версии улучшили общее качество речи — модель звучит более естественно и вариативно по сравнению с предыдущими версиями. По данным бенчмарка Artificial Analysis, она получила высокий рейтинг по субъективной оценке слушателей.

При этом важнее не столько само качество, сколько контроль над генерацией. В модели появилась возможность задавать параметры речи прямо в тексте — без сложных конфигураций или отдельных настроек.

Audio tags — управление речью через текст

Ключевое нововведение — так называемые audio tags. Это текстовые инструкции, которые встраиваются прямо в исходный текст и позволяют управлять: тоном и интонацией, темпом речи, акцентом и манерой подачи.

Фактически это попытка сделать TTS ближе к сценарию: разработчик задаёт не просто текст, а «режиссуру» озвучки.

Дополнительно поддерживаются диалоги с несколькими голосами, настройка параметров для каждого «персонажа» и изменение стиля речи внутри одной реплики.

Сценарии использования

С учётом новых возможностей модель ориентирована на более сложные сценарии, чем классический TTS:

  • голосовые интерфейсы и ассистенты

  • генерация диалогов (например, для обучения или игр)

  • озвучка видео и контента

  • автоматизация колл-центров и IVR

За счёт управления через текст можно быстрее прототипировать голосовые сценарии без отдельной настройки аудио-пайплайна.

Масштабирование и языки

Модель поддерживает более 70 языков. Отдельно отмечается возможность контролировать акцент и стиль речи, что важно для локализации.

Это делает модель применимой не только для прототипов, но и для продакшн-сценариев с международной аудиторией.

Доступность

На момент анонса Gemini 3.1 Flash TTS доступна:

  • через Gemini API и Google AI Studio — для разработчиков

  • в Vertex AI — для корпоративного использования

  • в Google Vids — как часть пользовательских инструментов

Пока это превью-версия.

Маркировка AI-аудио

Все сгенерированные аудио автоматически маркируются с помощью SynthID — невидимого водяного знака, встроенного в звук. Это позволяет определять, что запись была создана моделью.


Основное отличие Gemini 3.1 Flash TTS — не столько в качестве речи, сколько в уровне контроля. Возможность управлять подачей через текст упрощает создание сложных голосовых сценариев и снижает порог входа для разработки таких решений.

Посмотрим, как это покажет себя в реальных задачах — особенно с учётом многоязычности и работы с диалогами.

Источник: blog.google

Если хотите посмотреть, как такие подходы к работе с ИИ применяются на практике — можно заглянуть на открытые уроки от практикующих экспертов, где разбирают реальные сценарии и инструменты.

  • 22 апреля, 20:00. «Создание нейро-сотрудника на базе Telegram-бота и GPT: от регистрации до рабочего прототипа». Записаться

  • 30 апреля, 20:00. «Поиск в базе знаний: где векторы ошибаются, а графы помогают». Записаться

  • 6 мая, 20:00. «LangGraph + MCP в Cursor IDE: создаем автономного агента для глубокого анализа Google Trends». Записаться

ссылка на оригинал статьи https://habr.com/ru/articles/1024252/