Mistral Medium 3.5: новая открытая модель и облачные агенты Vibe

от автора

Французская Mistral представила Medium 3.5 — плотную (не MoE) модель на 128 млрд параметров с контекстом 256k токенов и открытыми весами под модифицированной MIT-лицензией. Одновременно компания запустила облачных агентов в Vibe и режим Work mode в Le Chat. На SWE-bench Verified модель набирает 77,6%, на агентном τ³-Telecom — 91,4%. Веса уже выложены на Hugging Face.

Medium 3.5 — первая «объединенная» модель Mistral: она заменяет сразу три предыдущих. Medium 3.1 отвечала за чат, Magistral — за рассуждения, Devstral 2 — за код. Теперь все три задачи решает один набор весов, причем уровень глубины рассуждений переключается под запрос — от быстрого ответа до длинного агентного прогона. Модель мультимодальная, vision-энкодер обучен с нуля под изображения произвольных размеров и пропорций. Для запуска потребуется 4 GPU. Цена API — $1,5 за миллион входных токенов и $7,5 за миллион выходных, примерно вдвое дешевле Claude Sonnet 4.6.

Параллельно с моделью запущены Vibe Remote Agents. Это облачные сессии кодинг-агентов, которые работают в изолированных песочницах: запускаешь задачу из CLI или прямо из Le Chat, агент сам правит код, ставит зависимости, гоняет тесты и в конце открывает pull request на GitHub. Локальную CLI-сессию можно «телепортировать» в облако вместе с историей и состоянием — освободить ноут и забрать готовую ветку позже. Vibe интегрируется с GitHub, Linear, Jira, Sentry, Slack и Teams. Плюс Mistral открыла превью Work mode в Le Chat — тот же подход, но уже не про код: почта, календарь, документы, мультишаговые задачи с обязательным подтверждением чувствительных действий.

С бенчмарками картина неоднозначная. 77,6% на SWE-bench Verified — это близко к прошлогоднему Claude Sonnet 4.5 (77,2%), но заметно ниже актуального рейтинга. Claude Opus 4.7, вышедший 16 апреля, показывает 87,6%, прошлое поколение Opus 4.6 — 80,8%. От текущего лидера Medium 3.5 отстает примерно на 10 п.п. и проигрывает даже прошлому поколению Opus, а среди открытых моделей не догоняет DeepSeek V4-Pro. Но важно понимать, что размер модели и требования для запуска значительно ниже.

Ставка Mistral, судя по всему, не на верхнюю строчку рейтинга, а на операционную точку «открытые веса + dense-архитектура + локальный запуск от 4 GPU + готовая агентская инфраструктура». На фоне MoE-консенсуса (DeepSeek, Qwen, последние релизы Llama) Mistral идет против тренда: для команд, которые запускают модель у себя, dense проще — предсказуемая память и латентность, файнтюн без коллапса экспертов, никакой возни с маршрутизацией при инференсе. На SWE-bench среди открытых моделей результат все еще конкурентный, а связка с Vibe и интеграциями превращает релиз в готовый продукт, а не просто набор весов на Hugging Face.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1031740/