Контакты и о нас

NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) — свою самую сильную open-weight модель на сегодня

Июн 4, 2026

—

от автора

Главный фокус на эффективность инференса в реальных long-context agentic сценариях, где модель долго держит контекст, работает с инструментами и выполняет многошаговые задачи.

Открыли почти всё:

• base-модель

• post-trained версии

• reward checkpoints

• NVFP4-квантованные версии

• тренировочные данные

• рецепты обучения

Технически внутри тоже интересно:

• 550B параметров всего, 55B активных

• гибридная архитектура Mamba2 + Transformer

• примерно 4:1 в пользу Mamba относительно Attention

• претрейн в NVFP4 на 20T токенов