ИИ-стартап Thinking Machines Lab, основанный бывшим техническим директором OpenAI Мирой Мурати, анонсировал выпуск моделей взаимодействия. Они будут способны как слушать, так и говорить.
Все современные модели работают по одинаковому принципу: они выслушивают запрос, а потом отвечают. Thinking Machines пытается изменить это, создав модель, которая обрабатывает пользовательский ввод и одновременно генерирует ответ, так что это больше напоминает диалог.
Включение интерактивности в модель открывает множество возможностей, как обещает компания, в том числе:
-
бесперебойного управления диалогом. Модель неявно отслеживает, думает ли говорящий, уступает ли он, корректирует ли свою речь или приглашает к ответу;
-
вербальных и визуальных вставок. Модель вмешивается по мере необходимости в зависимости от контекста, а не только когда пользователь заканчивает говорить;
-
одновременной речи. Пользователь и модель могут говорить одновременно (например, перевод в реальном времени);
-
осведомлённости о времени. Модель напрямую ощущает прошедшее время;
-
одновременного вызова инструментов, поиска и генерации пользовательского интерфейса. Во время разговора и прослушивания пользователя модель может одновременно искать информацию, просматривать веб-страницы или генерировать пользовательский интерфейс, вплетая результаты в разговор по мере необходимости.
Компания называет подход «полнодуплексным», и компания утверждает, что её модель TML-Interaction-Small отвечает за 0,40 секунды, что примерно соответствует скорости естественного человеческого разговора и значительно быстрее, чем скорость ответа сопоставимых моделей от OpenAI и Google.
Пока это предварительная версия для исследований, а не готовый продукт, и компания не собирается выпускать её в открытый доступ. «Ограниченная предварительная версия для исследований» появится в ближайшие несколько месяцев, а более широкий релиз запланирован на конец этого года.
Для измерения качества взаимодействия модели исследователи использовали FD-bench, один из немногих существующих бенчмарков, предназначенных для измерения интерактивности. В FD-bench версии 1.5 модели предоставляется предварительно записанный аудиоматериал, и она должна реагировать в определённые моменты времени. Этот бенчмарк измеряет поведение модели в нескольких сценариях: прерывание со стороны пользователя, обратный канал связи с пользователем, разговор с другими и фоновая речь. Отмечается, что TML-Interaction-Small показала хорошие результаты во всех этих областях. Для количественной оценки ИИ они применили Audio MultiChallenge, распространённый тест, отслеживающий способность следовать инструкциям.
Осенью 2025 года Thinking Machines Lab представил свой первый продукт — инструмент Tinker, который автоматизирует создание пользовательских передовых моделей искусственного интеллекта. Он позволяет тонко настраивать ряд больших и малых моделей с открытыми весами, включая такие как Qwen-235B-A22B.
ссылка на оригинал статьи https://habr.com/ru/articles/1034302/