NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) — свою самую сильную open-weight модель на сегодня

от автора

Главный фокус на эффективность инференса в реальных long-context agentic сценариях, где модель долго держит контекст, работает с инструментами и выполняет многошаговые задачи.

Открыли почти всё:

• base-модель

• post-trained версии

• reward checkpoints

• NVFP4-квантованные версии

• тренировочные данные

• рецепты обучения

Технически внутри тоже интересно:

• 550B параметров всего, 55B активных

• гибридная архитектура Mamba2 + Transformer

• примерно 4:1 в пользу Mamba относительно Attention

• претрейн в NVFP4 на 20T токенов

• LatentMoE-архитектура

• двухэтапный MOPD post-training

• нативная поддержка MTP

🤗BF16 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16

🤗NVFP4 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

📜Technical Report: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf

ссылка на оригинал статьи https://habr.com/ru/articles/1043732/