Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в том числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью.
При этом условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет (хотя живой разработчик при аналогичной задаче наверняка активно обращался бы к интернету). Поэтому результаты могут отличаться от применения LLM в реальных проектах.
Авторы ProgramBench обращают внимание, что обычно известные бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах: например, «исправить конкретный баг». Однако в реальности люди применяют ИИ и для полного создания проекта с нуля, порой почти безнадзорного, когда архитектурные решения оказываются за моделью. И способности в подобной всесторонней деятельности ранее почти не измерялись систематически.
Сейчас результаты оказались следующими. Ни одна текущая модель не справляется с задачами целиком (так, чтобы получившееся приложение проходило 100% тестов). Во многих случаях проходит часть тестов, этот результат выше при воссоздании простых CLI-приложений вроде утилиты fzf, но низкий у сложных вроде FFmpeg:

В бенчмарке решили ввести отдельную оценку «почти получилось» для случаев, когда проходят 95% тестов. И сейчас у лидера, Opus 4.7, получилось набрать это в 3% из всех заданий. А общий лидерборд выглядит так:
|
# |
|
Model |
Agent |
Resolved help_outline |
Almost resolved help_outline |
|---|---|---|---|---|---|
|
1 |
Anthropic |
Claude Opus 4.7 Anthropic |
mini-SWE-agent |
0% |
3.0% |
|
2 |
Anthropic |
Claude Opus 4.6 Anthropic |
mini-SWE-agent |
0% |
2.5% |
|
3 |
Anthropic |
Claude Sonnet 4.6 Anthropic |
mini-SWE-agent |
0% |
1.0% |
|
4 |
OpenAI |
GPT 5.4 OpenAI |
mini-SWE-agent |
0% |
0.0% |
|
5 |
|
Gemini 3.1 Pro Google |
mini-SWE-agent |
0% |
0.0% |
|
6 |
|
Gemini 3 Flash Google |
mini-SWE-agent |
0% |
0.0% |
|
7 |
Anthropic |
Claude Haiku 4.5 Anthropic |
mini-SWE-agent |
0% |
0.0% |
|
8 |
OpenAI |
GPT 5.4 mini OpenAI |
mini-SWE-agent |
0% |
0.0% |
|
9 |
OpenAI |
GPT 5 mini OpenAI |
mini-SWE-agent |
0% |
0.0% |
Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы околонулевыми. И порой возникает вопрос, считать ли такой бенчмарк решаемым в принципе. Авторы отвечают, что он намеренно сделан очень сложным, однако решаемым.
В этом контексте полезно вспомнить, что с рядом других бенчмарков ранее происходила сатурация. При их создании модели показывали невысокие результаты, но позже новые модели начинали справляться с задачами, которые ранее считались сложными. Когда это происходило массово, бенчмарк переставал отражать различия моделей. В ответ на сатурацию периодически создаются более сложные бенчмарки, поднимающие планку выше, и ProgramBench — один из подобных шагов.
ссылка на оригинал статьи https://habr.com/ru/articles/1031866/