
Анализ 6 852 сессий Claude Code, проведённый AI-директором из AMD, показал заметные изменения в поведении модели Anthropic за период январь–март.
Главный вывод — снижение глубины рассуждений. Медианная длина reasoning-цепочек упала примерно с 2200 до 600 символов, что указывает на сокращение «бюджета мышления» модели.
Параллельно наблюдается резкий рост числа API-вызовов — почти в 80 раз с февраля по март. Это означает, что модель стала чаще компенсировать недостаток рассуждений повторными запросами и итерациями вместо одного глубокого ответа.
Также изменилось поведение при решении задач. Claude стал чаще «сдаваться», запрашивать продолжение или уточнение, а число таких случаев зафиксировано на уровне 173 за короткий период, тогда как ранее они практически не встречались.
Отдельно отмечается падение метрики reads-per-edit — с 6.6 до 2.0. Это означает, что модель стала реже изучать код или файлы перед внесением изменений, что напрямую влияет на качество работы в программировании.
Также выросло число противоречий в ответах: модель чаще меняет позицию в процессе рассуждения, что снижает стабильность решений.
Интересный фактор — зависимость от времени суток. Худшие результаты фиксируются в вечерние часы по PST, что может указывать на влияние загрузки инфраструктуры на качество работы модели.
В совокупности это создаёт картину не «сломавшейся» модели, а скорее перегруженной системы, где качество поведения зависит от ресурсов и условий инференса.
По данным автора, Anthropic частично подтвердила наличие подобных эффектов, что делает наблюдение одним из наиболее детальных публичных аудитов поведения LLM в реальных условиях.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
ссылка на оригинал статьи https://habr.com/ru/articles/1022462/