
NVIDIA выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет работу с видео, аудио, изображениями и текстом в одной архитектуре. По заявлению компании, ее пропускная способность в 9 раз выше, чем у других открытых omni-моделей при той же интерактивности, а предназначена она в первую очередь для агентных систем. Модель доступна на Hugging Face, OpenRouter и build.nvidia.com (в виде NIM-микросервиса), а также на fal.ai.
В основе — гибридная схема Mamba-Transformer с MoE-архитектурой («смесь экспертов»): из 30 млрд параметров активны только около 3 млрд, модель подключает нужного эксперта под конкретную задачу и модальность. Контекст — до 256 тысяч токенов, чего хватает для длинных агентных циклов и работы с видео или несколькими документами без дробления на фрагменты. Поддерживаются квантование FP8 и NVFP4, движки vLLM и TensorRT-LLM; есть оптимизация под архитектуры Ampere, Hopper и Blackwell.
Главный аргумент NVIDIA — агентные системы сегодня собирают стек восприятия из отдельных компонентов: одна модель для зрения, другая для звука, третья для текста. Это дает лишние вычислительные шаги, усложняет оркестрацию и повышает стоимость. Omni сводит весь этот конвейер в одну модель. «Чтобы строить полезных агентов, нельзя ждать секунды, пока модель интерпретирует экран», — комментирует глава H Company Готье Клуа, чьи агенты на Omni научились разбирать запись экрана в Full HD в реальном времени. На графиках NVIDIA видно, что по сравнению с предыдущей Nemotron Nano VL V2 у Omni также выросла точность на ряде отраслевых мультимодальных бенчмарков.
Omni позиционируется не как самостоятельная флагманская модель, а как субагент восприятия в составе более крупных агентных архитектур — рядом с Nemotron 3 Super (быстрое исполнение) и Nemotron 3 Ultra (сложное планирование). Это укладывается в общую идею NVIDIA: модульные системы, где специализированные модели делят между собой задачи, а не одна универсальная. Если заявленный 9-кратный выигрыш по пропускной способности подтвердится в реальных нагрузках, у разработчиков открытых агентов появится сильный аргумент против стека из отдельных моделей восприятия.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1029396/