DeepSeek-V4: Тихий гигант

от автора

Привет, Хабр! 👋 Сегодня разбираем, что принесла новая версия: прорыв или эволюция? Действительно ли «триллион параметров» — это не маркетинг? И главное — стоит ли переключаться с Claude или GPT?

Ключевые характеристики

Параметр

DeepSeek-V4 Flash

DeepSeek-V4 Pro

Общее количество параметров

~400 млрд

~1.6 трлн

Активные параметры на токен

~12 млрд

~49 млрд

Экспертов на слой (MoE)

96

384

Активных экспертов на токен

3

6

Контекстное окно

1 000 000 токенов

1 000 000 токенов

KV Cache (при 1M контексте)

~8% от V3.2

~10% от V3.2

Вычислительные затраты (FLOPs)

~22% от V3.2

~27% от V3.2

Модальности

Текст

Текст

Лицензия

MIT

MIT

Цена API (вход/выход)

$0.14 / $0.28 за 1M токенов

$1.74 / $3.48 за 1M токенов

Архитектура: почему «триллион» больше не пугает

MoE 3.0: библиотека экспертов, которая не шумит

Главная инновация — эволюция Mixture-of-Experts. Если в V3 было 256 экспертов на слой, то в V4-Pro их уже 384, но для генерации одного токена активируется лишь 6 из них.

Входной токен

[Роутинг-механизм] → выбирает 6 наиболее релевантных экспертов

Параллельная обработка в выбранных экспертах

Агрегация результатов → выходной токен

Что это даёт:

  • Знания модели масштаба триллиона параметров

  • Стоимость инференса как у модели на ~50 млрд параметров

  • Возможность локального запуска: INT4-квантование помещается в 1×RTX 4090 для Flash-версии

DSA2: как читать миллион токенов, не утонув в памяти

Проблема длинных контекстов известна: квадратичная сложность внимания убивает производительность. DeepSeek решила её через гибридный механизм внимания DSA2 (DeepSeek Sparse Attention 2), сочетающий:

Компонент

За что отвечает

CSA (Clustered Sparse Attention)

Группировка токенов в семантические кластеры

HCA (Hierarchical Context Aggregation)

Иерархическое сжатие дальних зависимостей

Локальное окно

Точная работа с ближайшим контекстом

Результат: при работе с 1 000 000 токенов:

  • Потребление памяти (KV Cache) — всего 10% от уровня V3.2

  • Вычислительные затраты — 27% от базовой архитектуры

  • Точность извлечения (Needle-in-a-Haystack) — 97.3%

Аппаратная независимость: жизнь после CUDA?

Один из самых животрепещущих вопросов: удалось ли обойтись без экосистемы NVIDIA?

Ответ: частично — и это уже прорыв.

DeepSeek официально подтвердила: ✅ Валидация тонкозернистой параллелизации экспертов на NVIDIA H100/A100✅ Полная поддержка Huawei Ascend 910B и Cambricon MLU370✅ Оптимизация под будущие Ascend 950 (ожидается Q3 2026) — с прогнозируемым снижением стоимости инференса на 40-60%.

Почему это важно:

  • Доказана жизнеспособность обучения триллионных моделей без A100/H100

  • Китайская AI-индустрия демонстрирует готовность к «пост-CUDA» миру

  • Для разработчиков из регионов с ограничениями на импорт железа — это альтернатива


Бенчмарки: догнали, но не перегнали?

Самый честный раздел. Сравним с лидерами (данные на апрель 2026):

Бенчмарк

V4-Pro

V4-Flash

Claude Opus 4.6

GPT-5.5

V3 (для сравнения)

Apex Shortlist (рассуждения)

90.2%

84.1%

92.8%

91.5%

78.3%

Codeforces (Elo)

3206

2987

3312

3289

2741

HumanEval

89.7%

85.2%

91.3%

90.8%

82.1%

SWE-bench Verified

78.4%

68.9%

82.1%

81.3%

49.2%

MATH

91.8%

87.3%

93.1%

92.4%

84.6%

Needle-in-a-Haystack (1M)

97.3%

95.1%

84.2%

Критический разбор:

Где V4 сияет:

  • 🏆 Агентные сценарии: в бенчмарке Agentic Coding — SOTA среди открытых моделей

  • 🏆 Работа с длинным контекстом: 97%+ точность извлечения на 1M токенов

  • 🏆 Цена/качество: 5-10% от стоимости закрытых аналогов при 90% качества

Где ещё есть отставание:

  • ⚠️ Long CoT (длинные цепочки рассуждений): в сложных многошаговых задачах V4 всё ещё уступает Opus 4.6 в режиме «размышления»

  • ⚠️ Креативность и стиль: модель склонна к «сухому», формальному изложению — не лучший выбор для копирайтинга или поэзии

  • ⚠️ Мультимодальность: текст-онли. Нет нативной поддержки изображений, схем, скриншотов — серьёзное ограничение в 2026 году

💡 Вывод: если вам нужен надёжный «рабочий конь» для кода, аналитики и работы с документами — V4 идеален. Если же вы создаёте контент, работаете с визуальными данными или нуждаетесь в «человеческом» стиле — пока присмотритесь к Gemini 3.1 или GPT-5.5.


💰 Экономика: почему это меняет правила игры

Цены на API остаются низкими — и это стратегическое оружие DeepSeek:

DeepSeek-V4 Flash: • Входные токены: $0.14 / 1M • Выходные токены: $0.28 / 1M

DeepSeek-V4 Pro: • Входные токены: $1.74 / 1M
• Выходные токены: $3.48 / 1M

Для сравнения (апрель 2026): • GPT-5.5: ~15 / 1M вход, ~30 / 1M выход • Claude Opus 4.6: ~12 / 1M вход, ~25 / 1M выход

Что это значит на практике:

  • Проект с 10 млн токенов в месяц обойдётся в $3.48 на V4-Pro против $300+ на GPT-5.5

  • Возможность массового внедрения AI-агентов в стартапах и малом бизнесе

  • Стимул к самохостингу: веса под лицензией MIT на Hugging Face

    Практика: как начать работать с V4 уже сегодня

    Вариант 1: Через API (быстрый старт)

Пример запроса к DeepSeek API
import requests
response = requests.post (
https://api.deepseek.com/v1/chat/completions”,
headers={“Authorization”: “Bearer YOUR_KEY”},
json={
“model”: “deepseek-v4-pro”,
“messages”: [{“role”: “user”, “content”: “Проанализируй этот код…”}],
“max_tokens”: 4096,
“temperature”: 0.2 } )

Вариант 2: Локальное развёртывание (для контроля и приватности)

Требования для V4-Flash (INT4):
• GPU: 1×RTX 4090 (24 ГБ) или 2×3090
• RAM: 32 ГБ
• Диск: 50 ГБ SSD

Вариант 3: Гибридный (RAG + V4)
Документы

[Векторизация + фильтрация]

Топ-50 релевантных фрагментов

[DeepSeek-V4 с контекстом 32K]

Точный ответ + цитирование источников

Что дальше? Стратегия и слухи

Официально:

  • Фокус на демократизации доступа к длинному контексту

  • Развитие агентных фреймворков (интеграция с OpenClaw и другими)

  • Подготовка Ascend-оптимизированных версий к выходу Ascend 950

В кулуарах (неподтверждённо):

  • 🤫 DeepSeek R2: модель, обученная с акцентом на Long CoT и RLAIF — возможный ответ на o1 и Claude «reasoning»-режимы

  • 🤫 V4.5-Multimodal: работа над нативной поддержкой изображений и схем, релиз ожидается Q4 2026

  • 🤫 Edge-версии: квантованные модели для мобильных устройств и браузерного инференса


✅ Чек-лист: стоит ли переходить на DeepSeek-V4?

Да, если вы:

  • Разрабатываете AI-агентов для работы с кодом или документами

  • Нуждаетесь в обработке контекста >128K токенов

  • Ограничены бюджетом на API-вызовы

  • Предпочитаете самохостинг и контроль над данными

  • Работаете в регионе с ограничениями на доступ к западным моделям

Пока нет, если вы:

  • Создаёте креативный контент (поэзия, маркетинг, сторителлинг)

  • Нуждаетесь в нативной работе с изображениями/видео

  • Требуете максимальной точности в сложных многошаговых рассуждениях

  • Уже инвестировали в пайплайны под GPT/Claude и не готовы к миграции


Вместо заключения: эволюция, которая меняет правила

DeepSeek-V4 — это не революция в стиле «шоковый релиз» 2025 года. Это зрелая, сфокусированная эволюция, которая закрепляет открытые модели в мейнстриме.

🏆 Главное достижение: 90% возможностей лучших закрытых моделей — за 5-10% их стоимости, с открытыми весами и возможностью локального запуска.

Да, есть ограничения. Да, мультимодальность ещё впереди. Да, в креативе пока не догнали. Но для подавляющего большинства практических задач — код, аналитика, документооборот, агентные сценарии — V4 уже сегодня является оптимальным выбором.

И самое важное: выход этой модели доказывает, что конкуренция в ИИ жива. Что открытые сообщества и независимые лаборатории могут бросать вызов технологическим гигантам. Что «доступный ИИ» — не лозунг, а инженерная реальность.


Что думаете? Уже тестируете V4? Или ждёте мультимодальную версию? Делитесь в комментариях — обсудим кейсы, баги и инсайты. 👇

ссылка на оригинал статьи https://habr.com/ru/articles/1027614/