MiniMax M3: открытая модель с миллионом токенов контекста обошла GPT-5.5 на SWE-Bench Pro

1 июня вышла MiniMax M3 — и это первая open-weight модель, которая одновременно тянет агентный кодинг на уровне фронтира, держит миллион токенов контекста и работает с изображениями и видео нативно, а не через костыли поверх языковой базы. Разбираемся, что внутри и зачем это вообще нужно.

Что за модель MiniMax M3

MiniMax M3 — флагман китайской лаборатории MiniMax, заточенный под два сценария: длинные автономные агентные сессии и кодинг. API доступен с сегодняшнего дня, веса и технический отчёт обещают выложить на HuggingFace и GitHub в течение десяти дней.

Главное, чем M3 отличается от большинства конкурентов с открытыми весами: мультимодальность заложена в архитектуру с самого начала обучения. Обучающая выборка — 100 триллионов токенов смешанных данных (текст + изображения + видео).

Бенчмарки

На SWE-Bench Pro — тесте на реальные задачи из GitHub-репозиториев — M3 набрала 59,0%. Это выше GPT-5.5 и Gemini 3.1 Pro, хотя и чуть ниже Claude Opus 4.7. На Terminal Bench 2.1 (работа в терминале) — 66,0%. На BrowseComp, где модель должна автономно искать информацию в интернете, — 83,5%, обогнав Claude Opus 4.7 с его 79,3%.

Источник в заблокированной в России соцсети X: https://x.com/MiniMax_AI/status/2061266317815296322/photo/1

На KernelBench Hard модель пока уступает закрытым конкурентам — это честная картина без приукрашиваний.

Но самая показательная история — не бенчмарки, а демонстрации долгих прогонов. В одном тесте M3 поручили самостоятельно воспроизвести научную статью с ICLR 2025: модель работала почти 12 часов без вмешательства человека, сделала 18 коммитов и построила 23 экспериментальных графика.

В другой проверке нейросеть оптимизировала вычислительное ядро для GPU NVIDIA: за ~24 часа выполнила 147 итераций и около двух тысяч вызовов инструментов, подняв загрузку оборудования с 7,6% до 71,3%, то есть ускорив работу в 9,4 раза.

Архитектура: почему миллион токенов не убивает скорость

Главная техническая новинка — MiniMax Sparse Attention (MSA). Обычный attention при длинном контексте растёт квадратично по памяти и вычислениям. MSA решает это через двухшаговую схему: сначала быстрый индексный проход определяет, какие блоки контекста важны, затем attention считается только по отобранным блокам.

Результат на практике: при контексте в миллион токенов модель тратит в 20 раз меньше вычислений на токен по сравнению с предыдущим поколением. Prefill ускорился примерно в 9 раз, decode — в 15 раз. Это не маркетинговые цифры, а то, что позволяет загружать целые репозитории или большие базы знаний без построения внешних систем поиска.

Computer use

Через агентную среду MiniMax Code модель умеет управлять десктопным интерфейсом по текстовым командам: открывать программы, работать с файлами, кликать по элементам интерфейса. Это не демонстрационная фича — агентный продукт доступен уже сейчас.

Как попробовать MiniMax M3

API MiniMax M3 доступен через API SpeShu.AI без VPN. Оплата проходит в рублях, есть закрывающие документы для юрлиц. Один ключ даёт доступ к M3 и ещё 300+ моделям: можно сразу сравнить M3 с Qwen3.7-Max или Grok Build 0.1 на своих задачах без отдельных аккаунтов у каждого провайдера.

Кроме того, модель доступна и напрямую через интерфейс SpeShu.AI. Попробуйте новинку с выгодной — промокод HABRTSNIS15 даст бонус 15% к пополнению

M3 закрывает дыру, которая была в open-weight сегменте: долгий автономный агентный прогон с большим контекстом за разумные деньги. Закрытые весы — всегда риск зависимости от вендора и непредсказуемых изменений API. Открытые веса через десять дней — это возможность развернуть модель у себя и не зависеть ни от кого.

ссылка на оригинал статьи https://habr.com/ru/articles/1042248/