
В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче «собрать приложение с нуля» она показала 87,8%, обойдя GPT-5.5 от OpenAI (86,5%). Бенчмарк ведет команда из платформы вайб-кодинга Replit вместе с Georgian AI Lab и Университетом Карнеги — Меллона.
ViBench отличается от привычных тестов вроде SWE-bench тем, что измеряет не умение дописать код или починить баг, а способность агента собрать работающее приложение целиком — с базой данных, авторизацией и интерфейсом. Проверяет результат не набор юнит-тестов, а отдельный ИI-агент, который открывает готовое приложение в браузере и кликает по нему так, как это делал бы живой пользователь. Метрика Pass@1 показывает долю приложений, которые с первой попытки работают идеально, без единого бага и пропущенной функции. ViBench был представлен на конференции CAIS ’26 и стал первым открытым бенчмарком такого рода.
В свежем прогоне Opus 4.8 и GPT-5.5 образуют отдельную лигу: между ними меньше двух процентных пунктов, а дальше идет резкий обрыв. Третье место с большим отставанием у GLM 5.1 (66,2%), за ним кучно расположились GPT-5.4 Mini, Gemini 3.5 Flash, Kimi K2.6 и DeepSeek V4 Pro — все в районе 60%. Замыкает список MiniMax M2.7 с 17,6%, но эта же модель оказалась в разы дешевле всех остальных: один прогон обходится в 14 центов против двух долларов у лидеров.
Важная оговорка: этот снапшот покрывает только задачу создания с нуля (Zero-to-One) и прогнан на расширенном наборе из 24 приложений, тогда как в исходной статье их было 15. Часть новых приложений авторы сами называли относительно простыми, а две другие задачи бенчмарка — доработка фич поверх готового кода — в этом прогоне еще не выложены. В первой версии бенчмарка даже лидеры — Opus 4.6 и GPT-5.2 — не дотягивали до 50% Pass@1 на всех задачах сразу, а ни одна открытая модель не брала и 12%. Отдельно авторы отмечали, что модели накапливают ошибки, когда дорабатывают собственный сгенерированный код. Насколько быстро новое поколение закрывает эти провалы, станет видно, когда на лидерборд подъедут остальные срезы.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1043386/