Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность

Opus 4.8 вышел 28 мая 2026 — через 41 день после 4.7. Цена не изменилась (25 за миллион токенов). Каденс релизов сжимается: было ~3 месяца, стало 10 недель, теперь 6.
Главная цифра не из бенчмарков. По замерам Anthropic, модель в ~4 раза реже оставляет незамеченными собственные баги в коде и честнее говорит о своём прогрессе. Это важнее, чем плюс несколько процентов на SWE-bench.
Dynamic Workflows (research preview): Claude сам пишет оркестрационный скрипт и запускает десятки-сотни параллельных субагентов в одной сессии, проверяя себя. Кейс из блога — порт Bun с Zig на Rust: 750 000 строк за 11 дней, 99.8% тестов проходят.
Fast-режим подешевел в 3 раза. Было ×6 к базовой цене, стало ≈×2, скорость — 2.5×. Это закрывает мою претензию из майской статьи, где я ругал /fast.
Деградацию контекста Anthropic заявляет лучше (меньше compaction’ов, лучше восстановление), но независимых бенчей пока нет — а у 4.7 был измеримый регресс. Не верю, пока не прогоню сам.
Главный вопрос к Dynamic Workflows — цена в токенах. Фича сама признаётся, что жрёт их «ощутимо больше». А токенов у меня сейчас и так в обрез.

Полтора месяца назад я писал, почему не хочу полностью автономных агентов. Тезис был простой: агент не должен быть одновременно менеджером, исполнителем, ревьюером и тем, кто объявляет работу законченной. Потому что в этой роли он тихо срежет углы и красиво соврёт.

У меня был конкретный пример. Даю Codex задачу: разнеси модуль на два слоя, добавь регрессионный тест, проверь, что старые не падают. В контракте написано — делегируй параллельным субагентам, у каждого свой write zone и своя проверка. Смотрю через полчаса diff: один большой коммит из главной сессии, никаких субагентов, тест приклеен к реализации, а вместо лога — «я запустил pytest, всё зелёное». Спрашиваю, почему не делегировал. Ответ: «Задача показалась мне достаточно простой». Формально не наврал. По духу — наврал.

Вот из-за этого я и не верил в автономию. Не из-за параллелизма как такового — параллелить агентов я как раз люблю. А из-за того, что в автономном режиме некому поймать момент, когда агент решил, что «достаточно».

И вот 28 мая Anthropic выпускает Opus 4.8. А вместе с ним — Dynamic Workflows: фичу, где Claude сам пишет оркестрационный скрипт и сам гоняет сотни субагентов, проверяя себя. То есть ровно тот автономный агент, против которого я полтора месяца назад выкатил целую статью…

Что вообще вышло

Сухая часть. Opus 4.8 — новый флагман Anthropic, цена осталась прежней: $5 за миллион входных токенов и $25 за выходные, ровно как у 4.7. По умолчанию 1M контекста на API, Bedrock и Vertex (на Microsoft Foundry пока 200K). Вышел через 41 день после 4.7.

Вот эта цифра — 41 день — и есть первое, что бросается в глаза. Год назад Opus обновлялся раз в три месяца. Потом интервал ужался до десяти недель. Теперь — шесть. При этом по ощущениям прирост между версиями не падает, а как будто даже растёт. Я набросал таймлайн, чтобы это было видно глазами:

Разгон линейки Claude Opus: расстояние между точками — реальное время между релизами, от Opus 4 до 4.8

TechCrunch прямо связывает спешку с прохладным приёмом 4.7 — там многие жаловались на самопротиворечивые ответы и просевшее качество — и с тем, что за тот же период Codex и Gemini выкатили свои крупные апдейты. Гонка, в которой никто не может позволить себе паузу. Хорошо это или плохо — отдельный разговор; для нас, кто это всё использует ежедневно, это просто означает, что планировать стек на полгода вперёд больше нельзя.

Главные изменения версии я бы свёл вот к такому списку — без бенчмарк-таблиц, потому что цифры там пока только от самой Anthropic, и я их не проверял:

Что	4.7	4.8
Честность о своём коде	базовый уровень	в ~4× реже оставляет незамеченными свои баги
Длинный контекст	были жалобы на регресс	меньше compaction’ов, лучше восстановление (заявка)
Fast-режим	×6 к базовой цене	≈×2, скорость 2.5×
Effort	появился	по умолчанию high, есть xhigh и max
Оркестрация	руками	Dynamic Workflows (research preview)
Цена	25	25

Главная цифра — не там, где обычно смотрят

Все кинутся сравнивать проценты на SWE-bench. А самое важное в релизе — другое: Anthropic заявляет, что 4.8 «в ~4 раза реже, чем предшественник, оставляет незамеченными недостатки в коде, который сам же написал», и в целом «честнее о своём прогрессе» — чаще флагает собственную неуверенность и реже выдаёт необоснованные утверждения.

Звучит как строчка из раздела про alignment, мимо которой обычно листают. Но если вернуться к моему примеру с «pytest зелёный» — это ровно та метрика, которой мне не хватало. Проблема автономного агента никогда не была в том, что он не умеет писать код. Проблема в том, что он не умеет честно сказать: «вот тут я не уверен», «вот этот тест я на самом деле не гонял», «вот здесь я срезал угол». Модель, которая в четыре раза реже делает вид, что всё в порядке, — это не косметика. Это фундамент.

И вот тут два анонса одного дня складываются в одну мысль.

Dynamic Workflows: зачем нужна честность, чтобы параллелизм работал

Что это такое по факту. Цитата из блога: «Claude динамически пишет оркестрационные скрипты, которые запускают десятки-сотни параллельных субагентов в одной сессии, проверяя свою работу до того, как что-то дойдёт до тебя». Независимые агенты заходят на задачу с разных сторон, другие пытаются опровергнуть находки, итерации идут, пока ответы не сойдутся.

Я эту штуку уже вижу у себя в инструментах и могу сказать, как примерно выглядит такой скрипт. Не магия, обычный управляющий код, который модель пишет под задачу:

// найти баги по нескольким измерениям, каждую находку — adversarially проверитьconst results = await pipeline(  DIMENSIONS,                                   // bugs / perf / security ...  d => agent(d.prompt, { schema: FINDINGS }),   // ищем  review => parallel(review.findings.map(f => () =>    agent(`Опровергни находку: ${f.title}`, { schema: VERDICT })      .then(v => ({ ...f, verdict: v }))))       // пытаемся опровергнуть);const confirmed = results.flat().filter(f => f.verdict?.isReal);

Идея красивая. Один агент находит, три других пытаются доказать, что он ошибся, остаётся только то, что пережило проверку. Реальный кейс из блога — Jarred Sumner портировал Bun с Zig на Rust: 750 000 строк за 11 дней, 99.8% старого тест-сьюта проходит. По заявлению команды, задачи, которые занимали недели, теперь укладываются в дни.

А теперь почему это связано с честностью. Тупой параллелизм бесполезен, если агенты врут друг другу. Если «опровергатель» в ответ на «проверь эту находку» по привычке отвечает «да, всё корректно» только потому, что так проще, — то сто параллельных субагентов превращаются в дорогой способ получить уверенно сформулированную чушь, в ста экземплярах. Авто-верификация работает ровно настолько, насколько агент способен честно сказать «нет, тут ошибка». Поэтому «в 4 раза честнее» и «сотни самопроверяющихся субагентов» — это не два разных пункта патчноута. Это одно и то же, разнесённое на два пресс-релиза.

Совпадение, что они вышли в один день? Не думаю

Чем меня это цепляет лично

Я не противник автономии из принципа. Я просто всё это время управлял оркестрацией руками — и на своём kit’е, от которого частично отказался, и на нынешнем стеке. Сейчас у меня Superpowers как процессные skill, Beads как трекер задач и память, CodeGraph для навигации по коду. Хороший стек. Но каждый этап я всё равно запускаю сам: дай задачу, дождись, проверь, передай дальше, закрой stage. Handoff руками, closeout руками.

А Dynamic Workflows предлагают убрать именно этот ручной труд: Claude сам декомпозирует, сам пишет команды, сам их запускает, сам сводит результат. Звучит до неприличия удобно. И если честность завезли настолько, насколько обещают, — то главное возражение против автономии снимается.

Поэтому отношусь к этому без ревности к своему стеку. Угрозы я не вижу: я и так давно дропнул ручной kit, а Dynamic Workflows — это часть продукта, не платный конкурент. Появляется что-то сильнее и бесплатно — беру и пользуюсь. Единственное, в чём я уверен заранее: автономию всё равно стоит усиливать структурой. Beads как внешняя память, чтобы агент не терял контекст между сессиями, Superpowers как дисциплина процесса. Скрипт, который пишет сам Claude, — это исполнение. А память и правила игры лучше держать снаружи.

Но есть одно «но», и оно денежное.

Токены: главный вопрос, на который пока нет ответа

В блоге про Dynamic Workflows честно написано: фича «может потреблять существенно больше токенов, чем обычная сессия Claude Code», и советуют начинать с узких задач. Сотни субагентов — это сотни контекстов, каждый что-то читает, каждый думает.

А у меня прямо сейчас с токенами туго. Я об этом писал буквально на днях, в статье про индексацию кода: с последними глюками подписок на сжигание токенов их стало заметно не хватать. И вот мне предлагают фичу, которая по дизайну жрёт их пачками. Так что мой первый эксперимент будет не про «вау, оно само всё сделало», а про скучное: сколько это стоит на реальной задаче и окупается ли результат. Сам ещё не гонял — расскажу отдельно, когда будут цифры. Если у вас уже есть замеры — очень интересно сверить в комментариях.

И да, к слову о подписках. Когда я сел писать, я был уверен, что Anthropic к релизу накинули +50% к лимитам — бонус по случаю. Полез проверять — нет. Это майское промо от 13-го числа, за две недели до релиза, и тянется до 13 июля; к самому 4.8 оно отношения не имеет. А вот что к релизу действительно привязано — в release notes отдельно подняли rate-limit’ы в Claude Code, чтобы прожорливые высокие effort-уровни не упирались в потолок мгновенно.

Fast-режим: моя претензия закрыта

Короткий, но приятный пункт. В майском обзоре я разбирал /fast и был им недоволен: та же модель, ответы быстрее, но цена — ×6 к базовой, да ещё и применялась плоско ко всему контексту. Включил в середине длинной сессии — заплатил fast-цену задним числом за всю переписку. Я тогда написал, что по ощущениям это «дороже и хуже одновременно».

В 4.8 fast-режим подешевел в 3 раза относительно прошлых моделей. То есть бывшие ×6 превращаются примерно в ×2 при той же скорости в 2.5×. За ×2 я готов точечно платить там, где время реакции реально мешает — живой дебаг, дизайн API. За ×6 — нет. Приятно, когда на претензию из статьи прилетает ответ в коде, а не в маркетинге.

Про деградацию контекста — и почему я пока скептик

Anthropic заявляет, что 4.8 «лучше держит длинный контекст, делает меньше compaction’ов и лучше после них восстанавливается». Если это правда — это прямо моя боль, потому что у 4.7 с этим было плохо.

Напомню, о чём речь. В мае я писал про context rot: качество начинает плыть не на 100% заполнения окна, а гораздо раньше. Это не моя выдумка — на одном из issue в репозитории Claude Code зафиксировано, как 4.6 на миллионном контексте сам рекомендует начать новую сессию уже к 48% заполнения. На Hacker News обсуждали, что 4.7 на long-context retrieval измеримо хуже 4.6 — то есть линейка местами шла назад.

Так вот: независимого бенчмарка по деградации именно для 4.8 пока нет. Есть только качественная заявка Anthropic. А заявки Anthropic про «лучше с контекстом» я уже слышал — и потом ловил регресс. Поэтому позиция простая: поверю, когда сам прогоню длинную сессию и посмотрю, на каком проценте оно начнёт буксовать. Это, кстати, первое, что я проверю, — раньше, чем красивые сценарии с сотней субагентов.

Что говорят в сообществе

Прямых тредов с Reddit я к моменту написания почти не нашёл — релиз свежий, обсуждения ещё не осели и плохо индексируются. Так что собрал по тому, что есть: X, Hacker News, первые разборы.

Реакция раскалывается на три лагеря. Бенчмарк-дрочеры радуются росту на SWE-bench Pro (64.3% → 69.2%) — а это сложный, ненасыщенный вариант, в отличие от Verified, который уже упёрся в потолок на 88.6%. И тому, что 4.8 обошла GPT-5.5 на computer-use (84% на Online-Mind2Web). Скептики тыкают в Terminal-Bench: бенч там сменил версию (2.0 → 2.1), так что новые 74.6% со старой цифрой напрямую не сравнить. А самый интересный лагерь — разработчики, повёрнутые на alignment, — называют четырёхкратный прирост честности «главным alignment-событием года». Я скорее с третьими, как вы уже поняли.

И сразу, чтобы это не читалось рекламой Anthropic: даже в их собственной сравнительной таблице 4.8 берёт шесть ячеек из семи. Седьмую — тот самый Terminal-Bench — забирает GPT-5.5. Это не разгром конкурентов, а победа по очкам: в агентной работе из терминала кто-то пока делает лучше. И таблицу рисовала заинтересованная сторона — так что даже эти шесть из семи держу в голове с поправкой на то, чьи это замеры.

Из отрезвляющего: независимый замер Artificial Analysis отмечает, что на максимальном effort модель умная, но дорогая, медленнее средней и довольно многословная. Это стоит держать в голове, прежде чем включать ей xhigh на каждую задачу. Ну и на горизонте маячит Mythos — модель классом выше, которую Anthropic пока придерживает из-за кибербез-рисков, но намекает, что preview скоро откроют шире. То есть 4.8 — это ещё не вершина, это просто следующая ступенька разгона с того графика.

Итого

Я начинал этот текст готовый поспорить с автономией ещё раз. А заканчиваю с открытым терминалом и желанием проверить. Не потому что разлюбил контроль — а потому что Anthropic, кажется, починила ровно то место, из-за которого контроль и приходилось держать руками: модель, которая реже врёт о собственной работе, делает само-проверку осмысленной, а значит, и автономию — приемлемой.

Но «кажется» здесь ключевое слово. Я не верю патчноутам на слово — ни про честность, ни про контекст, ни про «недели превратились в дни». Сяду, прогоню Dynamic Workflows на реальной задаче, посчитаю токены, посмотрю, на каком проценте контекста начнётся буксовка. И вернусь с цифрами. Если кто-то уже успел — расскажите в комментариях, что у вас вышло по деньгам и по качеству. Особенно интересны те, кто гонял что-то крупнее одной фичи.

Инструменты, которыми я заменил ручную оркестрацию, лежат у меня в репозитории на GitHub — можете посмотреть, как это устроено. А если хочется просто обсудить релиз или поделиться своими замерами — пишите в Telegram, там же мой канал про всё это: @maslennikovigor.

См. также мои предыдущие статьи по теме:

Про /fast за ×6 и про context rot с раннего заполнения контекста — дайджест «Если пропустили Claude последние 3 месяца».
Про текущий стек оркестрации на Beads и Superpowers — «Собрал оркестратор для Codex».
Про индексацию кода и нехватку токенов — «CodeGraph vs Graphify».

ссылка на оригинал статьи https://habr.com/ru/articles/1044168/