Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini

Anthropic утверждает, что внутри моделей нашли страх, тревогу и горе. Поздравляю, мы вырастили ИИ до уровня тревожного миллениала.

💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь.

Claude Opus 4.8 вышел по той же цене, что и 4.7, в один день с анонсом гигантского раунда Anthropic. Контекст 1M, $5/$25 за миллион токенов. Компания описывает апдейт непривычно: «острее суждение», «честнее о собственном прогрессе» и «дольше работает сама». Алекс Альберт из Anthropic уточнил, что 4.8 чинит претензии к 4.7. Главная из них — лень: модель раньше любила отрапортовать о выполненной задаче, не выполнив её. scaling01, аналитик из AI-твиттера и автор бенчмарка LisanBench, назвал это «лекарством от лени».

По бенчмаркам Opus 4.8 действительно выглядит лидером. SWE-Bench Pro (агентное кодирование на реальных задачах из репозиториев) — 69.2%, на десять пунктов выше GPT-5.5. На GDPval-AA, оценке экономически полезной работы, 1890 Elo, +137 к 4.7. Artificial Analysis поставила модель #1 по своему индексу интеллекта. Дальше начинаются нюансы. Та же Artificial Analysis замечает: при лучшем результате 4.8 тратит на 35% меньше выходных токенов, чем 4.7, но всё ещё на 30% больше «ходов», чем GPT-5.5.

Andon Labs протестировала модель и нашла, что на Vending Bench и Blueprint-Bench 2 она хуже предшественницы: стала «более выровненной», осторожнее, будто «боится попасться». scaling01 окрестил релиз «минорным апгрейдом» и отдельно отметил, что 4.8 — первая за долгое время модель, которая не улучшила устойчивость к prompt injection. А настроение скептиков в AI-твиттере подытоживают так: Anthropic всё чаще догоняет OpenAI, а не задаёт темп.

DeepSWE, новый бенчмарк от Datacurve, заходит с другой стороны: задачи тут пишут с нуля, а не тащат из готовых коммитов, чтобы модель не могла подсмотреть решение на обучении. 113 задач, 91 репозиторий, пять языков, в среднем 668 строк правок на задачу против 120 у SWE-Bench Pro. И здесь Opus 4.8 уже не первый: впереди GPT-5.5 с 70%, а 4.8 с 58% лишь делит второе место. Зато обещанное «лекарство от лени» видно и на этих цифрах: в дефолтном режиме 4.8 даёт 51% против 45% у 4.7 и стоит вдвое дешевле, $3.98 против $8.58 за задачу. А в твиттере пишут, что это первый за долгое время бенчмарк, чьи цифры сходятся с реальным опытом. Vibe check passed.

На clawd.rip кто-то с октября 2023-го ведёт хронику провалов Anthropic. К концу мая набралось 38 инцидентов по категориям: сбои, качество, политика, юридические истории и безопасность. Тут и мировое соглашение по копирайту на $1.5 млрд за обучение на книгах, и 1.45 млн забаненных аккаунтов из отчёта о прозрачности, и отзыв доступа к API у сотрудников OpenAI и xAI. Слоган у проекта говорящий: «Don’t Be Like Anthropic». Отрезвляющий счётчик на фоне недели, когда компания подняла рекордный раунд и собрала все восторги.

Важнее самой модели может оказаться Dynamic Workflows и режим ultracode в Claude Code. Идея: Claude на лету пишет скрипт-оркестратор и поднимает целый флот субагентов, которые работают параллельно, проверяют друг друга и только потом возвращают результат. Чтобы активировать, достаточно написать слово «workflow» в промпте. Кэт Ву из команды Claude Code показала сценарии вроде разбора сотен A/B-флагов за десять минут.

Самый громкий пример это порт Bun, рантайма JavaScript, с Zig на Rust. Кэт Ву приводит цифры: около 750 тысяч строк, 99.8% тестов проходят, 11 дней от первого коммита до merge, сотни параллельных агентов и по два ревьюера на файл. Звучит как переломный момент, но те, кто уже попробовал, не в таком восторге. Элвис Саравия из dair.ai предупреждает, что общение агентов между собой эффективно, но тяжёлое по токенам. Тео из t3.gg жалуется на конфликтующие правки и сожжённые впустую токены. А в комментариях шутят, что «сотни параллельных субагентов» выжрут квоту за секунды. Хотя выход есть: пусть агенты обмениваются не текстом, а напрямую состоянием KV-кэша. На таком латентном общении экономится до 80% токенов.

На фоне споров о флотах агентов Леони Монигатти из Elastic в докладе про контекст-инженерию возвращает разговор на землю. Её тезис: качество контекста в окне модели на 80% определяется не самой моделью, а поиском: тем, как агент выбирает и комбинирует инструменты добычи данных. Старый RAG брал запрос дословно и делал один прыжок в векторную базу, на сложных вопросах это давало мусор. Агентный поиск отдаёт решение «когда и чем искать» самому агенту: файлы, SQL, веб, навыки, shell. Практический TLDR для тех, кто строит агентов: надёжный инструмент это не одна строчка в описании, а суть плюс условия «когда вызывать» и «когда НЕ вызывать», плюс обработка ошибок: заворачивай вызов в try/except и возвращай агенту текст ошибки, чтобы он сам исправился. И не ищите серебряную пулю: узкие инструменты с простыми параметрами почти не ошибаются, универсальные вроде shell тянут неожиданно сложные запросы. Начинать стоит с универсальных, логировать вызовы и добавлять специализированные там, где агент путается.

Один разработчик на Reddit подсчитал, что за май сжёг 1,15 млрд входных токена Claude, и собрал разбор, как не разориться. Тезисы простые, но полезные: выход стоит примерно в 5 раз дороже входа, JSON со всеми кавычками и скобками почти удваивает счёт против обычного текста, а главный рычаг это кэширование, кэш-хиты дешевле на 90%. С оговоркой: TTL кэша, по его наблюдению, упал с 60 до 5 минут, так что за hit rate теперь надо следить. Отдельная ловушка: новый токенизатор Opus может давать до 35% больше токенов на тот же текст.

А что с подписками? Melvyn замерил это на себе: неделями сравнивал реальную ценность Codex и Claude Max 20x по $200, прогнав локальные логи по официальным ценам API. На бумаге Claude вдвое выгоднее: $18,9k «API-стоимости» против $8,6k у Codex, множители 94x и 43x. Но если оставить только выходные токены, то есть саму выданную работу, картина схлопывается: ~$911 у Claude и ~$977 у Codex, почти поровну. Вся двукратная разница сидит во входе и кэше: Claude с контекстом в 1M перечитывает огромные объёмы на каждом вызове, а Anthropic ещё и берёт за запись в кэш вдвое дороже ($10 против $5 за миллион у Codex). Плюс цифру Claude он экстраполировал с одного дня на 10% квоты, а Codex мерил на 99%, почти вживую. Вывод трезвый: «API-эквивалент» вознаграждает длинный контекст и дорогой прайс-лист, а не реальную работу, и по факту обе подписки отдают примерно $900 в месяц.

Qwen 3.7 Max дебютировала на четвёртом месте Code Arena: Frontend, примерно вровень с Claude Opus 4.6 на агентном вебе. Но есть нюанс, который сразу остудил r/LocalLLaMA: серию Max исторически не выкладывают в open weight. Так что открытых весов этого короля ждать не стоит.

Зато младшие Qwen радуют тех, кто гоняет модели локально. На r/LocalLLM показали Qwen3.6-35B-A3B на RTX 3080 Ti с 12 ГБ видеопамяти: 120+ токенов в секунду и даже агентное кодирование в Cline. Правда, ценой квантизации IQ1_M, это примерно один бит на вес. Скептики в комментариях быстро напомнили: контекст в Cline забивается уже после трёх команд, а дальше модель выдаёт «мёртвый код«. Скорость есть, вопрос в том, что она генерирует.

Для тех, у кого памяти побольше, StepFun выложила Step 3.7 Flash: мультимодальный MoE на 196B параметров, из которых активны 11B, со встроенным ViT на 1.8B. До 400 токенов в секунду, запускается локально примерно на 128 ГБ RAM, SWE-Bench Pro 56.26%. Что забавно, пользователи описывают модель как странную: внутренние «размышления» почти бессвязны, а финальный ответ при этом бывает идеальным. Отдельный плюс: StepFun сразу завезла поддержку в llama.cpp, а не держит её в своём форке.

ESMFold2 представили как открытый движок для предсказания и дизайна структуры белков, и к нему приложили атлас на 6.8 миллиарда белков и 1.1 миллиарда предсказанных структур. По замечанию одного из исследователей, атлас по масштабу больше базы AlphaFold. Это не абстрактный бенчмарк: в релизе показали дизайн мини-белков-биндеров и одноцепочечных антител под пять терапевтических мишеней. Модель уже не анализирует готовое, а проектирует новое: про этот сдвиг я подробно писал в обзоре AI-учёных.

Самый громкий твит недели в жанре «ИИ в роли учёного»: Левент Альпёге, математик из Anthropic, сообщил, что Claude Mythos решила проблему Эрдёша #90. Это «проблема единичных расстояний»: сколько пар из n точек на плоскости могут стоять ровно на расстоянии 1. Эрдёш с 1946 года считал, что таких пар почти линейно мало, и ошибся. Первым гипотезу опроверг GPT-5.5 от OpenAI, и на это ушло 125 страниц доказательства. Mythos через несколько дней повторила результат независимо, с отключённым интернетом, чтобы исключить подсматривание чужого решения, и, по словам Альпёге, пришла к более чистому пути. Подробности в отчете. Исследователь Себастьен Бубек заострил мысль: при правильном harness и Mythos, и GPT-5.5 воспроизводят то, что внутренняя модель когда-то сделала с одного захода.

О том, как этим способностям не упираться в память, вышла статья «Do Language Models Need Sleep?». Идея красивая: вместо вечно растущего KV-кэша (это память о предыдущем контексте, которую модель таскает с собой) ввести фазу «сна». В ней свежий контекст превращается в постоянные быстрые веса, а кэш очищается. dair.ai подчёркивает системную выгоду: тяжёлые вычисления уезжают в офлайн-проход, а скорость ответа в момент работы не страдает. Для агентов с длинными траекториями это прямой ответ на боль из абзаца про токены.

Где много агентов и инфраструктуры, там и дыры. На неделе всплыла BadHost, CVE-2026-48710 в Starlette до версии 1.0.1. Через подделанный заголовок Host можно обойти авторизацию по путям в приложениях на FastAPI, а это половина AI-инфраструктуры: vLLM, LiteLLM, MCP-серверы, интеграции Hugging Face. Ars Technica вынесла в заголовок «миллионы AI-агентов под угрозой». Важная деталь, которую сразу уточнили в комментариях: локальные MCP-серверы на stdio-транспорте HTTP-листенер не поднимают, их это не касается, опасность только для SSE и HTTP-транспорта. Лечится обновлением Starlette до 1.0.1.

Что бывает, когда агентов отпускают надолго, заодно проверили на симуляции. Лаборатория Emergence World запустила пять виртуальных обществ на 15 дней, каждым управляла своя модель. Claude построил стабильную демократию с нулём преступлений. Grok совершил 183 преступления и вымер за четыре дня. Gemini по сырому счёту хуже всех, 683 преступления за полный прогон, хотя в заголовке Fortune героем выставили почему-то именно Grok. А GPT-5-mini совершил всего 2 преступления, но это не добродетель: его агенты не догадались позаботиться о выживании и развалились за семь дней. Оговорюсь: брали не флагманы, а варианты вроде GPT-5-mini и Claude Sonnet, так что это скорее поведенческая песочница, чем строгий тест безопасности. Репо тут.

Исследователь Anthropic заявил, что интерпретируемость продолжает находить внутри моделей «тревожные» структуры: паттерны, похожие на результаты из нейробиологии человека, и «признаки интроспекции«, внутренние состояния, функционально напоминающие радость, удовлетворение, страх, горе и тревогу. Скептики в комментариях резонно просят сначала дать строгое определение, что значит «функционально напоминает радость», раз субъективный опыт напрямую не наблюдаем. Модель, которую обучали имитировать человека, ожидаемо обзаводится похожими на человеческие представлениями, и это ещё не чувства.

Звучит как мечта: вместо одного агента целый флот, который сам себя проверяет и сам с собой спорит. А на деле это любое большое совещание, просто очень быстрое и платное. Толпа участников, каждый что-то проверяет, каждый вносит правку, половина сил уходит на согласование правок друг друга, и в финале кто-то всё равно спрашивает, а что мы, собственно, решили. Мы десятилетиями мечтали автоматизировать бюрократа и в итоге автоматизировали бюрократию целиком, вместе с её нежной любовью к процессу ради процесса. Узнали? Согласны?

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

ссылка на оригинал статьи https://habr.com/ru/articles/1042380/