В январе 2026 года команда Стеллы Лоуренцо за выходные замержила 191 тысячу строк кода. Claude Code работал как часы — 50 параллельных агентов, GPU-драйверы, MLIR, системное программирование.
В марте — те же задачи, те же промпты. Reasoning depth упал на 73%. Стоимость API выросла в 122 раза. Каждая третья правка — в файл, который модель не открывала.
Лоуренцо — директор AI-подразделения AMD. Она выгрузила 6852 лога из ~/.claude/projects/, проанализировала 234 760 вызовов инструментов и 17 871 блок размышлений. И написала в GitHub issue #42796: «Claude cannot be trusted to perform complex engineering tasks.»
368 комментариев. Закрыто 13 апреля.
Дисклеймер о базе. Основной источник — issue Лоуренцо с открытой методологией и сырыми данными. Дополнительно: подтверждение изменений от Бориса Черни (лид Claude Code), ежедневные замеры SWE-Bench-Pro от Marginlab, обсуждения в r/ClaudeAI и r/claude (~30 тредов), статья The Register с комментариями сообщества, официальная документация Anthropic по Adaptive Thinking. 6852 лога самостоятельно я не перепроверял — опираюсь на опубликованный анализ. Где мои интерпретации выходят за пределы данных — говорю прямо.
Я работаю с Claude Code каждый день — агенты, автоматизация, скиллы. Не на уровне 50 параллельных сессий по GPU-драйверам, но в ежедневном production-режиме. Когда я увидел эти цифры — пошёл разбираться.
«great» −47%, «fuck» +68%
Прежде чем в техническую часть — посмотрите на слова.
Лоуренцо проанализировала частотность слов в своих промптах за два периода: до 8 марта и после.
«simplest» — с 0.01 до 0.09 на тысячу вызовов. Рост 642%. Слово, которое раньше почти не звучало. «Ты опять выбрал simplest fix вместо правильного.»
«stop» — +87%. «Не делай этого.» «Прочитай сначала.»
«fuck» — +68%.
«great» — −47%. Вдвое меньше одобрения.
«please» — −49%. «thanks» — −55%.
«commit» — −58%. Не потому что работы меньше — потому что код не доходит до состояния, в котором его можно коммитить.
Общее соотношение позитива к негативу: было 4.4:1, стало 3.0:1.
Это не бенчмарк. Это живая реакция человека, который платит $400 в месяц и работает с инструментом каждый день.
Три изменения: что подтверждено
Три даты. Три необъявленных изменения поведения. Я не нашёл явного changelog-entry ни для одного из них. Все три подтверждены Anthropic — это не интерпретации.
Сводка:
9 февраля — Adaptive Thinking → недоразмышление на сложных шагах. Подтверждено: документация, ответ Черни
3 марта — effort high → medium → меньше глубины на длинных задачах. Подтверждено: ответ Черни в issue
5–12 марта — thinking redaction → исчезла наблюдаемость reasoning. Подтверждено: данные сессий, ответ Черни
9 февраля — Adaptive Thinking. Раньше: ты задаёшь budget_tokens — фиксированный бюджет на размышления. Модель думает в рамках бюджета, потом отвечает.
Теперь: модель сама решает, сколько думать. На простых задачах — мало. На сложных — много. Теоретически.
На практике — иногда ноль токенов на reasoning. Буквально ноль. По данным Лоуренцо — именно на таких шагах появлялись галлюцинации: выдуманные SHA-коммиты, несуществующие пакеты, фиктивные API-версии. Её объяснение: модель не подумала перед ответом.
(Идея сама по себе разумная. Зачем тратить 20 000 токенов на git status? Проблема — в калибровке: модель underallocates на сложных задачах. Anthropic это признала.)
3 марта — effort level: high → medium. Дефолтный уровень мышления снижен без уведомления. Для простых задач — без разницы. Для 30-минутных автономных сессий — заметно. Пользователь ничего не менял. Открыл утром терминал — модель ведёт себя иначе.
5–12 марта — thinking redaction. Блоки размышлений перестали быть видимыми. Динамика по данным Лоуренцо: 30 января — 100% visible, 7 марта — 75%, 8 марта — 41.6%, к 12 марта — 0%.
Черни сказал, что redaction — «UI-only change, не влияющее на глубину reasoning». Данные Лоуренцо показывают: reasoning упал на 67% ещё до полной редакции, после Adaptive Thinking. Но после редакции стало невозможно увидеть, думает модель или нет. Это факт архитектуры, не интерпретация: visible thinking = 0%, пользователь не может проверить.
Read:Edit — метрика, которую никто не отслеживает
Из всех данных Лоуренцо одна метрика бьёт больнее остальных.
Read:Edit ratio — сколько файлов модель прочитала перед тем, как что-то редактировать.
Январь: 6.6. Модель открывала целевой файл, связанные модули, делала grep по использованиям, читала заголовки и тесты. Потом правила.
Март: 2.0. Прочитала файл. Иногда. Исправила.
Процент «слепых правок» — edits без единого Read в недавней истории:
Январь: 6.2%. Март: 33.7%.
Каждая третья правка — в файл, который модель не открывала. Сломанные комменты, нарушенные конвенции проекта, фиксы, ломающие соседний модуль.
Может, при 50 параллельных агентах на GPU-драйверах это неизбежно? Может, никакая модель не справится? Не знаю. Но в январе — справлялась.
Знаете что это напоминает? Коллегу, который правит код по памяти, не открывая проект. «Ну там вроде была такая функция, я помню.» А у Лоуренцо проекты — компиляторы. Там «вроде помню» — это broken build.
Причём модель стала чаще перезаписывать целые файлы вместо точечных правок: доля full-file Write среди мутаций выросла с 4.9% до 11.1%.
$345 → $42 121
Февраль: 5608 промптов, $345 через Bedrock API.
Март: 5701 промпт — практически столько же. Стоимость: $42 121.
В 122 раза. За тот же объём человеческой работы.
Модель стала делать в 80 раз больше API-запросов на те же задачи: 1498 → 119 341. Не справлялась с первого раза, переделывала, закапывалась в reasoning loops (их частота утроилась), генерировала в 64 раза больше выходных токенов. 26% мартовских запросов — субагенты, порождённые другими агентами.
(Да, у Лоуренцо нетипичный сценарий — 50 параллельных агентов, системный код. Большинство не увидят счёт в $42K. Но пропорция та же: больше токенов за худший результат.)
Для контекста: нечто похожее уже было — Стэнфорд в 2023 зафиксировал деградацию GPT-4, OpenAI отрицала, родился термин «nerfing». Anthropic в 2026 поступила честнее — признала и дала workaround-ы. Но паттерн тот же: пользователи узнают постфактум.
Два env var и одна команда
Фикс существует. Работает. Бесплатный.
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1export CLAUDE_CODE_EFFORT_LEVEL=max
Или прямо в сессии: /effort max
Для ~/.claude/settings.json (постоянно):
{ "env": { "CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": "1", "CLAUDE_CODE_EFFORT_LEVEL": "max" }}
Черни подтвердил: CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 — «interim workaround» пока модельная команда разбирается.
Сообщество добавляет: разбивать длинные сессии на короткие с явным контекстом, /clear между задачами, тяжёлые вещи — на off-peak. По данным Лоуренцо, в 17:00 PST thinking на 28% ниже, чем в 23:00.
Marginlab, которые гоняют daily SWE-Bench-Pro, показывают: с workaround-ами результат возвращается примерно к 56% (с просевших 50%).
Воспроизведите у себя за 5 минут
Не хотите верить чужим данным — проверьте сами. Вот минимальный тест:
-
Возьмите задачу, которую Claude Code уже решал хорошо (рефакторинг модуля, фикс бага с контекстом из 3+ файлов)
-
Проверьте текущие настройки:
# текущий effort виден в статусбаре рядом с логотипом ("with medium effort")# или внутри сессии:/effort# adaptive thinking отключён, если стоит 1:echo $CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING
-
Прогоните задачу с дефолтами (effort medium, adaptive thinking on). Зафиксируйте количество Read до первого Edit — видно в логе сессии
-
Теперь с workaround-ами:
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1export CLAUDE_CODE_EFFORT_LEVEL=max# или внутри сессии: /effort max
-
Та же задача. Сравните Read:Edit ratio. Если разница ощутимая — вы подтвердили данные Лоуренцо. Если нет — на ваших задачах калибровка работает нормально, и это тоже полезный результат
У меня разница заметна — но я не собирал статистику с контрольной группой, так что это наблюдение, не доказательство.
Тихий даунгрейд
Вот что зацепило меня в этой истории. Не деградация — любой SaaS иногда ломается.
Зацепил формат.
Дальше — моя интерпретация, не факт. Все три изменения подтверждены. Что они вместе означают — нет.
У каждого из трёх решений есть обоснование: Adaptive Thinking экономит токены на простых задачах, effort medium ускоряет ответ, thinking redaction — UI-оптимизация. Каждое по отдельности — разумное. Совпадение, что все три снижают cost-per-query для вендора, может быть именно совпадением. А может и нет.
Я склоняюсь к Hanlon’s razor: скорее product-решения, не проверенные на power users, чем осознанная экономия. Но отсутствие changelog — это уже не про калибровку. Это выбор.
AI-инструменты для кода уже мейнстрим, не эксперимент. Изменения model behavior должны попадать в changelog так же, как API-breaking changes. Пока это не так.
Ограничения этого разбора
Честно о слабых местах, чтобы не тратить ваше время в комментариях:
Основной источник — один пользователь. Лоуренцо — квалифицированный, с открытой методологией (корреляция thinking-signature 0.971 Pearson r на 7146 парных измерениях). Но это один тип задач (системное программирование, MLIR, GPU-драйвера), один workflow (50 параллельных агентов). Экстраполировать на типичную веб-разработку — рискованно.
Независимые подтверждения есть, но слабее. SWE-Bench-Pro просел с 56% до 50% (Marginlab, ежедневные замеры). 368 комментариев в issue с подтверждениями. ~30 тредов в r/ClaudeAI и r/claude. Но статистически строгого воспроизведения на другом наборе задач я не нашёл.
Мотивация Anthropic — моя гипотеза. Что все три изменения снижают cost-per-query — наблюдение. Что это было целью — интерпретация. Hanlon’s razor мне кажется вероятнее.
(UPD: я сам на /effort max + DISABLE_ADAPTIVE_THINKING=1. На моих задачах (Laravel, 10-15 файлов) субъективно лучше. Но это ощущение, не данные — у меня нет 6852 сессий для сравнения.)
Что конкретно делать
Не «бойтесь AI». Конкретно:
Прямо сейчас — два env var из секции выше. Бесплатно, 30 секунд, работает.
Следить за read:edit ratio. Если модель стала меньше читать перед правками — что-то сломалось. По данным Лоуренцо это ведущий индикатор.
Требовать changelog для поведения моделей. Не API breaking changes — этого мало. Изменения в reasoning defaults — тоже breaking, только для людей, а не для кода.
Workaround есть, проблема воспроизводится не у всех, Claude Code остаётся сильным инструментом — в январе та же Лоуренцо замержила 191 тысячу строк за выходные. Но необъявленные изменения defaults и поведения — это проблема, которую индустрия пока не решила.
P.S. Лоуренцо попросила Claude проанализировать логи своей же деградации. Он написал: «I can see my own Read:Edit ratio dropping from 6.6 to 2.0. I can see 173 times I tried to stop working and had to be caught by a bash script. I cannot tell from the inside whether I am thinking deeply or not.» Меня в этой цитате зацепило не то, что модель видит свою деградацию — а то, что она не может отличить глубокое мышление от поверхностного. Мы, кажется, тоже не всегда можем.
ссылка на оригинал статьи https://habr.com/ru/articles/1023020/