1 июня вышла MiniMax M3 — и это первая open-weight модель, которая одновременно тянет агентный кодинг на уровне фронтира, держит миллион токенов контекста и работает с изображениями и видео нативно, а не через костыли поверх языковой базы. Разбираемся, что внутри и зачем это вообще нужно.

Что за модель MiniMax M3
MiniMax M3 — флагман китайской лаборатории MiniMax, заточенный под два сценария: длинные автономные агентные сессии и кодинг. API доступен с сегодняшнего дня, веса и технический отчёт обещают выложить на HuggingFace и GitHub в течение десяти дней.
Главное, чем M3 отличается от большинства конкурентов с открытыми весами: мультимодальность заложена в архитектуру с самого начала обучения. Обучающая выборка — 100 триллионов токенов смешанных данных (текст + изображения + видео).
Бенчмарки
На SWE-Bench Pro — тесте на реальные задачи из GitHub-репозиториев — M3 набрала 59,0%. Это выше GPT-5.5 и Gemini 3.1 Pro, хотя и чуть ниже Claude Opus 4.7. На Terminal Bench 2.1 (работа в терминале) — 66,0%. На BrowseComp, где модель должна автономно искать информацию в интернете, — 83,5%, обогнав Claude Opus 4.7 с его 79,3%.
На KernelBench Hard модель пока уступает закрытым конкурентам — это честная картина без приукрашиваний.
Но самая показательная история — не бенчмарки, а демонстрации долгих прогонов. В одном тесте M3 поручили самостоятельно воспроизвести научную статью с ICLR 2025: модель работала почти 12 часов без вмешательства человека, сделала 18 коммитов и построила 23 экспериментальных графика.
В другой проверке нейросеть оптимизировала вычислительное ядро для GPU NVIDIA: за ~24 часа выполнила 147 итераций и около двух тысяч вызовов инструментов, подняв загрузку оборудования с 7,6% до 71,3%, то есть ускорив работу в 9,4 раза.
Архитектура: почему миллион токенов не убивает скорость
Главная техническая новинка — MiniMax Sparse Attention (MSA). Обычный attention при длинном контексте растёт квадратично по памяти и вычислениям. MSA решает это через двухшаговую схему: сначала быстрый индексный проход определяет, какие блоки контекста важны, затем attention считается только по отобранным блокам.
Результат на практике: при контексте в миллион токенов модель тратит в 20 раз меньше вычислений на токен по сравнению с предыдущим поколением. Prefill ускорился примерно в 9 раз, decode — в 15 раз. Это не маркетинговые цифры, а то, что позволяет загружать целые репозитории или большие базы знаний без построения внешних систем поиска.
Computer use
Через агентную среду MiniMax Code модель умеет управлять десктопным интерфейсом по текстовым командам: открывать программы, работать с файлами, кликать по элементам интерфейса. Это не демонстрационная фича — агентный продукт доступен уже сейчас.
Как попробовать MiniMax M3
API MiniMax M3 доступен через API SpeShu.AI без VPN. Оплата проходит в рублях, есть закрывающие документы для юрлиц. Один ключ даёт доступ к M3 и ещё 300+ моделям: можно сразу сравнить M3 с Qwen3.7-Max или Grok Build 0.1 на своих задачах без отдельных аккаунтов у каждого провайдера.
Кроме того, модель доступна и напрямую через интерфейс SpeShu.AI. Попробуйте новинку с выгодной — промокод HABRTSNIS15 даст бонус 15% к пополнению
M3 закрывает дыру, которая была в open-weight сегменте: долгий автономный агентный прогон с большим контекстом за разумные деньги. Закрытые весы — всегда риск зависимости от вендора и непредсказуемых изменений API. Открытые веса через десять дней — это возможность развернуть модель у себя и не зависеть ни от кого.
ссылка на оригинал статьи https://habr.com/ru/articles/1042248/