Главный фокус на эффективность инференса в реальных long-context agentic сценариях, где модель долго держит контекст, работает с инструментами и выполняет многошаговые задачи.
Открыли почти всё:
• base-модель
• post-trained версии
• reward checkpoints
• NVFP4-квантованные версии
• тренировочные данные
• рецепты обучения
Технически внутри тоже интересно:
• 550B параметров всего, 55B активных
• гибридная архитектура Mamba2 + Transformer
• примерно 4:1 в пользу Mamba относительно Attention
• претрейн в NVFP4 на 20T токенов
• LatentMoE-архитектура
• двухэтапный MOPD post-training
• нативная поддержка MTP
🤗BF16 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16
🤗NVFP4 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
📜Technical Report: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf
ссылка на оригинал статьи https://habr.com/ru/articles/1043732/