
Thinking Machines Lab, стартап бывшего технического директора OpenAI Миры Мурати, показал первое демо новой модели, которая работает с пользователем в режиме живого разговора — слышит, видит и говорит одновременно, без классической схемы «сначала вопрос, потом ответ». Задержка между репликой пользователя и реакцией модели — 0,4 секунды против 1,18 у GPT-realtime-2.0 и 0,57 у Gemini-3.1-flash-live.
В блог-посте команда объясняет, почему стандартные модели плохо подходят для живого диалога. Обычный чатбот работает по очереди: пока пользователь не закончил печатать или говорить, модель ждет — никакого восприятия, что вообще происходит. Пока модель отвечает, она ничего не слышит и не видит сама. Аналогия из самого поста: будто решать серьезный конфликт по электронной почте, а не лицом к лицу. Пользователи к этому подстроились — стали формулировать запросы как письма и батчить мысли, потому что прерывания и угуканье («ага», «понял») живого разговора чатбот не тянет.
Архитектурно Thinking Machines выкинула турн-режим (вопрос-ответ) и заменила его на потоковую обработку. Модель режет вход и выход на куски по 200 миллисекунд — и параллельно слушает входящие 200 мс аудио или видео и генерирует следующие 200 мс собственного ответа. Эти куски авторы называют «микро-турнами». Параллельно убрали тяжелые отдельные энкодеры — обычно аудио прогоняют через модель типа Whisper, видео через свой энкодер, и только потом скармливают результат основной модели. Здесь сырой сигнал идет прямо в трансформер через легкий слой векторных представлений (embedding), что заметно срезает задержку.
Сама модель устроена как связка из двух частей. TML-Interaction-Small держит реальное время — слышит, отвечает, реагирует на жесты и интонации. Если задача требует долгого размышления (например, что-то найти в интернете или сгенерировать сложный UI), она передает запрос более мощной фоновой модели (background model) — это второй компонент, который думает асинхронно и отдает результат, когда готов. TML-Interaction-Small — это разреженная MoE-архитектура (mixture of experts, «смесь экспертов» — когда из общего пула параметров на каждом шаге задействуется только часть) на 276 миллиардов параметров, из которых на каждом шаге активны 12 миллиардов. Технические характеристики background model пока не раскрываются.
Ситуация в бенчмарках следующая. На FD-bench V1.5 — это тест на качество живого взаимодействия, который проверяет работу с прерываниями, фоновой речью и репликами в сторону — TML-Interaction-Small набрал 77,8 балла против 46,8 у GPT-realtime-2.0 (minimal) и 54,3 у Gemini-3.1-flash-live. Еще интереснее на тестах визуальной проактивности, которые Thinking Machines адаптировала специально. На RepCount-A (модель по видео должна вслух считать отжимания или приседания) TML дал 35,4, GPT-realtime-2.0 — 1,3. На CueSpeak (модель должна сама заговорить в нужный момент, реагируя на словесный триггер пользователя) — 81,7 против 2,9. Конкуренты на этих задачах фактически молчат.
Сейчас доступ к моделям есть только у избранных партнеров — Thinking Machines планирует в ближайшие месяцы открыть ограниченное превью для сбора обратной связи, а полноценный релиз запланирован до конца года. Для самой Мурати это второй публичный продукт после Tinker, инструмента для исследователей, который запустили в октябре 2025-го.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1034006/