Утечка: DeepSeek V4 обходит Gemini 3.1 Pro, GPT-5.3 и Claude Opus 4.6 по всем 12 бенчмаркам

В сети появились предполагаемые данные технического отчёта DeepSeek V4 – таблица с результатами на 12 популярных бенчмарках. Автор твита под ником @xiangxiang103 опубликовал скриншоты, на которых свежий флагман китайской компании сравнивается с Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Если цифры не подделка (а авторы утечки сами предупреждают, что официального подтверждения пока нет), то DeepSeek V4 уверенно забирает state-of-the-art по всем без исключения направлениям.

На MMLU-Pro (тест на междисциплинарные экспертные знания) DeepSeek V4 набирает 91,2 балла. Из конкурентов до 90 добрался только Gemini 3.1 Pro Preview – у него 90,0. GPT-5.3 остаётся на 88,4, а Claude Opus 4.6 – на 86,7. Разрыв в несколько пунктов означает, что отставание уже измеряется не “поколениями”, а конкретными цифрами – и догонять будет непросто.

Ещё плотнее ситуация на математическом олимпиадном бенчмарке AIME 2025:

DeepSeek V4 – 96,4
Gemini 3.1 Pro Preview – 95,0
GPT-5.3 – 94,6

Разница между лидером и бронзовым призёром – меньше двух задач. Математика перестала быть слабым местом для топ-моделей и больше не служит дифференциатором – теперь это поле битвы, где каждый процент выгрызается с трудом.

На платформе Codeforces (соревновательное программирование) DeepSeek V4 показывает 2767 рейтинговых баллов. Это уровень сильного человеческого гроссмейстера – модель пишет алгоритмический код почти как топовый спортсмен от мира спортивного программирования.

Однако как только дело доходит до починки реальных ошибок в настоящих репозиториях (бенчмарк SWE-bench Verified), потолок оказывается гораздо ниже: 59,6% у DeepSeek V4, у остальных ещё меньше. “Писать алгоритмы легко, чинить чужой код – трудно” – это правило пока не отменяли даже для самых сильных LLM.

Самый низкий столбец в таблице – WebArena, где модель должна самостоятельно бродить по сайтам и выполнять многошаговые действия (заполнять формы, переходить по ссылкам, сравнивать данные). Абсолютный лидер DeepSeek V4 набирает лишь 58,7%, а GPT-4.1 отстаёт до 44,8%.

Если верить утекшим данным (а официального техотчёта DeepSeek ещё не публиковала), то:

DeepSeek V4 – абсолютный лидер по всем 12 тестам.
Gemini 3.1 Pro Preview – находится на втором месте, особенно близок в математике и общих знаниях.
GPT-5.3 и Claude Opus 4.6 сохраняют высокий уровень, но отстают по большинству метрик.
Агентные задачи – ключевой вызов для всей индустрии на ближайшие год-два.

Остаётся дождаться официального анонса от DeepSeek. Но если эти цифры подтвердятся, расклад на рынке больших языковых моделей меняется очень серьёзно – и “китайский дракон” вырывается в явные лидеры.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

ссылка на оригинал статьи https://habr.com/ru/articles/1024848/