38% ускорения: ИИ-агенты Cursor оптимизировали CUDA-ядра NVIDIA

Cursor и NVIDIA рассказали о совместном эксперименте: мультиагентная система за три недели автономно оптимизировала 235 CUDA-ядер под архитектуру Blackwell B200 и в среднем ускорила их на 38% относительно базовой линии. Это не привычная для Cursor задача из IDE, а низкоуровневая работа с GPU-кодом, на которую у kernel-инженеров обычно уходят месяцы и годы.

Быстрые ядра матричного умножения (GEMM) приходится писать на встроенном PTX — фактически ассемблере NVIDIA — с ручной конвейеризацией и поэтапной подачей данных через несколько уровней памяти. Эта экспертиза исторически сосредоточена в небольшой группе специалистов NVIDIA и крупных AI-лабораторий. Cursor отдал задачу связке из агента-планировщика и автономных исполнителей: планировщик распределяет 235 задач между ними, перебалансирует нагрузку по метрикам производительности и держит весь координационный протокол в одном markdown-файле с правилами и тестами.

Тестирование шло на 27 NVIDIA B200 через бенчмарк SOL-ExecBench: он сравнивает производительность ядер с эталонными библиотеками и теоретическим пределом железа, а если агент пытается жульничать с кэшированием и выдает результат выше физических возможностей B200, прогон признается недействительным. В итоге мультиагент решил все 235 задач за один заход. Тестировали два режима: CUDA C со встроенным PTX (прямой доступ к регистрам и инструкциям ISA) и CuTe DSL — свежее API NVIDIA, которое почти не встречается в обучающих данных и потому проверяет, способен ли агент учиться по документации.

Отдельный показательный результат — самописное GEMM-ядро на CUDA C++. Мультиагент сгенерировал его с нуля и подобрался к 86% производительности эталона из библиотеки cuBLAS, которую инженеры NVIDIA вручную оптимизируют годами; на ряде небольших матриц он даже обошел cuBLAS на 9%. GEMM — это базовая операция линейной алгебры, на которой держится почти любой прогон обучения или инференса нейросети, а cuBLAS — отраслевой эталон производительности на GPU NVIDIA.

Цифра в 38% — это геометрическое среднее по всем 235 задачам относительно PyTorch-базы, оптимизированной одним агентом. Реально обогнать эту базу удалось в 149 случаях из 235, то есть в 63%. Для Cursor это уже вторая работа над kernel-оптимизацией под Blackwell — летом 2025 года она с нуля переписала MoE-слой собственного обучения и получила полуторакратное сквозное ускорение.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1025528/