Claude стал «меньше думать» и чаще ошибаться по данным анализа логов

Анализ 6 852 сессий Claude Code, проведённый AI-директором из AMD, показал заметные изменения в поведении модели Anthropic за период январь–март.

Главный вывод — снижение глубины рассуждений. Медианная длина reasoning-цепочек упала примерно с 2200 до 600 символов, что указывает на сокращение «бюджета мышления» модели.

Параллельно наблюдается резкий рост числа API-вызовов — почти в 80 раз с февраля по март. Это означает, что модель стала чаще компенсировать недостаток рассуждений повторными запросами и итерациями вместо одного глубокого ответа.

Также изменилось поведение при решении задач. Claude стал чаще «сдаваться», запрашивать продолжение или уточнение, а число таких случаев зафиксировано на уровне 173 за короткий период, тогда как ранее они практически не встречались.

Отдельно отмечается падение метрики reads-per-edit — с 6.6 до 2.0. Это означает, что модель стала реже изучать код или файлы перед внесением изменений, что напрямую влияет на качество работы в программировании.

Также выросло число противоречий в ответах: модель чаще меняет позицию в процессе рассуждения, что снижает стабильность решений.

Интересный фактор — зависимость от времени суток. Худшие результаты фиксируются в вечерние часы по PST, что может указывать на влияние загрузки инфраструктуры на качество работы модели.

В совокупности это создаёт картину не «сломавшейся» модели, а скорее перегруженной системы, где качество поведения зависит от ресурсов и условий инференса.

По данным автора, Anthropic частично подтвердила наличие подобных эффектов, что делает наблюдение одним из наиболее детальных публичных аудитов поведения LLM в реальных условиях.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

ссылка на оригинал статьи https://habr.com/ru/articles/1022462/