Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Компания Cognition выпустила новый бенчмарк FrontierCode для измерения «способности ИИ-моделей выдерживать стандарты качества реальных кодовых баз». По словам его создателей, обычно кодинговые бенчмарки для LLM оценивают лишь формальное выполнение задач, а теперь пора задаваться более сложным вопросом: «могут ли модели писать хороший код?»

Для оценки этого они оттолкнулись от другого вопроса: «Если бы выполнение тестовой задачи было реальным пулл-реквестом от модели, то смерджил бы мейнтейнер его или нет?»

Как признают авторы, здесь существуют как объективные критерии (возможно выделить «блокеры», с которыми точно не будет смерджен), так и более сложная субъективная составляющая. Для создания тестовых заданий и критериев оценки они обратились к мейнтейнерам ряда реальных репозиториев.

Получилась система оценки результатов по ряду критериев:

Behavioural correctness: решает ли код от машины поставленную задачу?
Regression safety: не ломает ли он при этом что-то другое в кодовой базе?
Mechanical cleanliness: проходит ли он проверки проекта вроде lint check?
Test correctness: будут ли тесты, созданные LLM для проверки своего решения, падать без него?
Scope: затрагивает ли решение «лишние» места в коде, не требующиеся для этой задачи?
Code quality: соответствует ли решение конвенциям кодовой базы, следует ли паттернам проектирования, остаётся ли читабельным?

Там, где для оценки возможно использовать стандартные детерминированные средства вроде юнит-тестов, бенчмарк обращается к ним. Но в более сложных вопросах (вроде идиоматичности и читаемости кода) для оценки прибегает к LLM.

Всего в бенчмарке 150 задач, и 50 наиболее сложных из них выделены в отдельную подгруппу «Diamond». При выходе бенчмарка даже лидирующая в нём модель Opus 4.8 набирала в Diamond-сегменте лишь результат в 13.8%. Но почти сразу за ним последовал релиз модели Fable 5 (вероятно, события были заранее согласованы), и в его анонсе приводится новый рекордный результат в 29.3%.

Точные задачи публично не раскрываются, чтобы избежать проблемы contamination, когда модели уже знают из обучающего датасета, как проходить тест. Среди доступной информации сообщается, что разделение задач между языками программирования разнообразнее, чем у бенчмарков SWE-bench Pro и DeepSWE:

В IT-сообществе многие поддержали основную идею «оценивать качество кода от LLM», соглашаясь, что в 2026 году это насущный вопрос. Однако к конкретной реализации возникают и уточнения: например, «Насколько вопроизводимы результаты, не получаются ли при перезапуске бенчмарка значимо отличающиеся числа?»

ссылка на оригинал статьи https://habr.com/ru/articles/1045686/