Composer тренирует Composer: Cursor использовал старую модель для обучения новой

от автора

Cursor рассказал в блоге о механизме autoinstall, который помог поднять собственную модель Composer 2 на бенчмарке Terminal-Bench с 47,9% до 61,7%. Главная идея: предыдущая версия модели, Composer 1.5, автоматически готовила рабочие окружения, на которых потом обучалась Composer 2.

Чтобы тренировать модель для программирования через обучение с подкреплением (RL), нужны рабочие программные проекты: репозиторий должен запускаться, зависимости — устанавливаться, тесты — проходить. Если окружение сломано на старте, модель тратит токены и вычисления не на решение задачи, а на отладку установки. Иногда задача и вовсе становится нерешаемой, и обучающий сигнал теряется. То есть проблема не в том, чтобы научить модель писать код, а в том, чтобы каждая учебная задача была корректной и работающей.

Autoinstall устроен в две стадии. На первой стадии агент получает голую копию репозитория, изучает README, makefile, документацию проекта и предлагает десять команд, которые должны успешно выполниться при правильной настройке: установка пакетов, тесты, запуск исполняемых частей. На второй стадии — еще один экземпляр Composer берет три команды из этого списка и доводит проект до состояния, в котором они успешно выполняются. Если итоговая проверка не срабатывает, стадию перезапускают; после пяти неудачных попыток окружение отбрасывают.

Объем работы шире обычного «поставь пакет — запусти тест». По описанию Cursor, autoinstall может создавать недостающие файлы и изображения-заглушки, мокать таблицы базы данных и S3-папки, поднимать конфигурации MinIO и контейнеры Docker, писать стартовые скрипты для долгоживущих процессов. В качестве иллюстрации компания приводит работу с celo-org/celo-monorepo — большим блокчейн-проектом с неполной документацией. Агент изучал внешнюю документацию через веб-поиск, обнаружил необходимость в Foundry и связанном репозитории, со второй попытки создал мок-пользователя и сумел запустить демонстрационную программу локально.

Cursor осторожен в выводах. Это не история о том, как модель создала следующую модель — Composer 1.5 не разрабатывала Composer 2, она только автоматизировала часть инфраструктурного конвейера. Но компания пишет, что в будущих тренировочных циклах предыдущие версии Composer могут взять на себя и другие части обучения: управление запусками, препроцессинг данных, настройку архитектуры. Постепенный сдвиг к конвейеру, где старшее поколение моделей обслуживает производство младшего.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1032314/