Упс, они сделали это снова? Почему ваш ИИ тупеет ровно перед выходом новой модели

от автора

Ничего криминального, просто плановое обслуживание

Ничего криминального, просто плановое обслуживание

Доброго времени суток, друзья! Второго июля у меня сломался рабочий день. Сижу, раздаю задачи своему Claude Opus 4.8 — те же самые, что и вчера, и позавчера, и последние несколько недель. Рутина, отработаная до автоматизма: модель их щёлкала без вопросов. А тут — не щёлкает. Забывает, о чём мы говорили два сообщения назад. Лезет не в те файлы. Выдаёт результат, который приходится переделывать по три раза. Я сначала грешил на себя — может, устал, может, промпт кривой написал. Перечитал промпты. Нормальные промпты. Те же, что неделю назад работали.

И тут я вспомнил, какая на дворе неделя.

30 июня Anthropic выпустила Sonnet 5 — новую модель, которая «почти догнала флагманский Opus», стоит в два с половиной раза дешевле и уже назначена моделью по умолчанию для всех. 1 июля из‑под правительственной блокировки вернули Fable 5 — самую мощную модель компании, которую сначала дали, потом отобрали, теперь снова дали. Два громких релиза за два дня. И аккурат между ними мой Opus вдруг разучился делать свою работу. Тут надо уточнить: я не халявщик на бесплатном тарифе, которому что‑то там урезали. Я уже больше полугода сижу на максимальной подписке за $200 в месяц — дороже у Anthropic просто нет. И вот на этом максимуме модель внезапно перестаёт вывозить рутину, которую вывозила неделями.

Нёрф — слово из онлайн‑игр, а вообще Nerf — американский бренд игрушечных бластеров с мягкими поролоновыми пульками. Когда в конце девяностых разработчики Ultima Online патчем ослабили слишком сильные мечи, игроки описали ощущение точно: как будто вместо стали тебе в руки сунули поролоновую игрушку. «Занёрфили». С тех пор нёрфом называют любой случай, когда разработчик тихо ослабляет то, за что ты его продукт любил, — персонажа, пушку, способность. Обычно ради баланса, и обычно об этом пишут в патчноутах.

Меня зовут Илья, я блогер, основатель сервиса генерации изображений ArtGeneration.me и просто фанат ИИ. Нейросети — мой основной рабочий инструмент, я провожу в них большую часть дня. И эта тема у меня давняя: год назад в статье «Кто убил интеллект?» я уже разбирался, почему GPT-4, Claude и Gemini глупеют со временем, и пришёл тогда к успокаивающему выводу: никакого заговора, просто экономика — модели ужимают, дистиллируют и удешевляют, чтобы они окупались.

Похоже, вывод придётся пересматривать. Потому что в этот раз у меня есть то, чего не было год назад: гитхаб, заваленный жалобами людей, которые описывают моё состояние слово в слово. Независимые замеры, поймавшие деградацию модели за неделю до релиза её замены. И история, в которой Anthropic сама признала, что тайно ухудшала ответы — правда, «не для всех». Обо всём по порядку.

❯ Что вообще случилось в июне

Прежде чем жаловатся на жизнь — разложу события месяца по датам. Это факты, с ними не поспоришь.

Корпоративный газлайтинг уже норма

Корпоративный газлайтинг уже норма

28 мая — выходит Opus 4.8, спустя каких‑то шесть недель после предыдущей версии — быстрее Anthropic свой флагман ещё не обновляла. В тот же день компания закрывает инвестраунд на $65 миллиардов при оценке $965 миллиардов.

1 июня — Anthropic конфиденциально подаёт документы на IPO (Fortune). Размещение планируется осенью.

9 июня — релиз Fable 5. Новая линейка выше Опуса, $10/$50 за миллион токенов, рекорды почти во всех бенчмарках.

12 июня — правительство США блокирует Fable 5 экспортным контролем: исследователи из Amazon показали, что модель можно раскрутить на поиск уязвимостей и написание рабочих эксплойтов. Fable исчезает у всех, кто успел на него пересесть.

30 июня — блокировку снимают. В этот же день выходит Sonnet 5: промо‑цена $2/$10 до конца августа (у Опуса — $5/$25), официальная формулировка «производительность близка к Opus 4.8» и статус модели по умолчанию для всех бесплатных и Pro‑пользователей (TechCrunch).

1 июля — Fable 5 возвращается, но с новыми «классификаторами безопасности», о которых Anthropic пишет сама: они «чаще ошибочно флагают безобидные запросы при рутинных задачах кодирования и отладки». Модель вернули придушенной. Обещают докрутить.

Плотный месяц. А теперь вопрос на миллион: где во всём этом место для «Opus 4.8 стал хуже»? Отвечаю: нигде. И это самое интересное.

Смотрите. У доступности сервиса есть статус‑страница. Когда API падает и сыпет пятисотками — скрыть это невозможно, у тысяч людей одновременно всё красное. Поэтому такие вещи Anthropic исправно репортит: за июнь на status.claude.com накопилось 26 признаных сбоев, почти все — по Opus 4.8, местами по четыре за день. Заметьте — это только та часть проблем, которую физически нельзя не признать.

Даже видимая часть айсберга в июне выглядела так. Данные: status.claude.com

Даже видимая часть айсберга в июне выглядела так. Данные: status.claude.com

А вот у КАЧЕСТВА модели статус‑страницы нет. Вообще. Ни у Anthropic, ни у OpenAI, ни у Google. Если модель сегодня отвечает тупее чем вчера — ни один индикатор не загорится. Никто не обязан вам об этом сообщать, нет ни метрики, ни чейнджлога, ни регулятора. «Работает / не работает» — измеряется и публикуется. «Поумнела / поглупела» — нет. Модель может тихо стать хуже на 20 процентов, и формально всё зелёное, все SLA соблюдены, придраться не к чему.

И когда пользователь приходит с жалобой «модель отупела», у вендора всегда есть удобный ответ: у нас были технические сбои, уже починили. Сбои — удобная ширма: они реальны, они признаны, на них можно списать что угодно. А было ли под этой ширмой что‑то ещё — вы проверить не можете. В этом и фокус.

Так что дальше я не буду размахивать статус‑страницей как доказательством. Доказательства будут другие: живые истории людей, независимые замеры и признания самой компании.

❯ Жалуюсь не только я

Первое, что делаешь, когда кажется что сходишь с ума — проверяшь, не сходят ли с ума окружающие. Я пошёл по форумам. И знаете, легче мне не стало.

30 июня, день релиза Sonnet 5. В обсуждении анонса на Hacker News один из первых вопросов звучит так: «Кому ещё кажется, что Opus 4.8 значительно поглупел за последние две недели?» Через день ему отвечают: «У меня Opus 4.8 последние пару дней почти непригоден. Думал, это анонс Соннета перегрузил их серверы — но пока что он моему рабочему процессу больше вредит, чем помогает».

Причём тред с прямым вопросом «Ask HN: Did Anthropic Nerf Opus 4.8?» появился ещё 10 июня — за три недели до моих проблем: «Ещё пару дней назад Opus 4.8 решал простые баги с одного захода. А последние два дня это игровой автомат — я больше не могу получить от него чистый код».

Компания Антропик уже давно не читает обращения пользователей

Компания Антропик уже давно не читает обращения пользователей

Ладно, форумы — место эмоциональное. Пойдём туда, где люди пишут баг‑репорты: в официальный репозиторий anthropics/claude‑code на гитхабе. Тут всё с датами и номерами:

Issue #68780, 16 июня: «Крайне слабое рассуждение даже на максимальном усилии. Модель серьёзно деградировала… Ощущение, что Haiku мощнее той модели, которую вы обманом выдаёте мне за Opus 4.8». Автор — клиент на максимальном тарифе Max 20x за 200 фунтов — через неделю дописывает: «Деградация приходит и уходит. Один день это мой Claude, лучший в мире. Наутро он не может сказать, в какой папке работает. Это не „повышенный уровень ошибок“, это разница в сто пунктов IQ». И дальше он уже открыто грозит юристами за «обманные бизнес‑практики».

Issue #69045, 17 июня: «Навыки, которые месяцами работали без сбоев, теперь требуют итерацию за итерацией. Работа на пару часов занимает весь день… Ощущение, что работаю с ранним Sonnet».

Issue #70053, 22 июня, и это моя любимая цитата месяца: «Opus 4.8 закопали в землю, и я устал молчать. Выкрути рассуждение на максимум — он думает десять минут над одним ответом. Не выкручивай — он безмозглый. Выбирайте отраву: невыносимо медленный или невыносимо тупой. Вы молча деградируете продукт, за который люди платят топовые деньги, и делаете это снова и снова».

Таких баг‑репортов за июнь — десятки. Один энтузиаст даже собрал сводный каталог из 71 проблемы. Знаете, сколько официальных ответов Anthropic во всех этих тредах? Ноль. Только бот, закрывающий жалобы как дубликаты друг друга.

На Хабре под новостью про Opus 4.8 — то же самое по‑русски: «запустил свой бенчмарк на 4.8 и она его сделала чуть хуже чем месяц назад… модель за месяц отупела».

Отдельная история — бизнес. Пишут, что Notion — не блогер и не вайбкодер, а компания с миллионами пользователей — подтвердил деградацию Opus 4.7 и 4.8 и отключил модели Anthropic у себя целиком. Автор поста формулирует паттерн, который вы уже узнаете: «Модели деградируют со временем — пользователи жалуются на Reddit и X — Anthropic неделями не может найти проблему».

Что мы имеем. Десятки независимых людей, не знакомых друг с другом, в разные дни июня описывают одну и ту же картину, часто одними и теми же словами — «был умный, стал тупой, задачи те же». Классический слабый пункт таких рассказов тоже понятен: это ощущения. Им свойственно ошибаться, а толпе — накручивать друг друга. Год назад я именно на этом основании тему и закрыл: жалобы есть, замеров нет.

Но в этот раз замеры есть.

❯ Замеры, а не ощущения

Есть контора Marginlab, которая делает простую и гениальную вещь: каждый день прогоняет через настоящий Claude Code один и тот же набор из 50 инженерных задач и записывает, сколько модель решила. Не доверяет ощущениям — меряет. День за днём, с января.

Так вот, их данные показали: в двадцатых числах мая доля решённых задач у Opus 4.7 упала с базовых 65% до 57% и продержалсь ниже нормы пять дней подряд. Статистически значимо, за пределами обычного дневного шума. А теперь следите за руками: восстановился показатель, цитирую, «в тот самый момент, когда его место занял Opus 4.8». То есть старая модель просела ровно за неделю до релиза новой — и «выздоровела» точно в день релиза. Marginlab, к их чести, предлагает и невинное объяснение: возможно, это баг конкретной версии Claude Code, а не модели. Возможно. Но паттерн «старое ломается аккурат перед выходом нового» они зафиксировали численно, и это уже не чьи‑то впечатления.

Аналитики заметили снижение качества модели, которое внезапно прошло, после выхода новой версии, что это если не чудо?

Аналитики заметили снижение качества модели, которое внезапно прошло, после выхода новой версии, что это если не чудо?

Второй замер масштабнее. Стелла Лаурензо, старший директор ИИ‑подразделения AMD, ещё в апреле выкатила разбор на основе 6852 рабочих сессий своей команды: почти 235 тысяч вызовов инструментов, 18 тысяч блоков рассуждений. Цифры такие: медианная длина «размышлений» модели упала с 2200 символов в январе до 600 в марте. Минус 73 процента думания. Модель перестала читать код перед тем как его править — соотношение чтения к правкам сползло с 6,6 до 2,0. Вывод Лаурензо: «Claude больше нельзя доверять сложные инженерные задачи». Такое пишет не анонимус с реддита, а человек, который отвечает за ИИ в AMD и держит на руках лог каждой сессии. Кончилось тем, что AMD пересела на конкурента.

Fortune, разбирая ту же волну, добавляет замеры от безопасников: TrustedSec зафиксировала падение качества генерируемого кода на 47%, а Veracode посчитала, что Opus 4.7 вносит уязвимости в 52% задач.

Тут я обязан сделать две оговорки. Первый: все эти цифры — про зиму и весну, про Opus 4.6 и 4.7. Независимого замера деградации именно Opus 4.8 в июне пока не существует — Marginlab после релиза как раз собирал новую базовую линию, их детектор был на паузе. Мои июньские страдания численно пока никто не подтвердил и не опроверг. Второй момент важнее: зимне‑весенняя история уже получила развязку, и она поинтереснее любых теорий. Anthropic в итоге признала, что модель действительно стала хуже. И объяснила почему.

❯ Anthropic признаёт это сама

Всё, что выше, можно списать на совпадения и коллективный психоз. Нельзя списать вот это: за 2026 год Anthropic дважды сама признала, что её модели работали хуже, чем заявлено. И один из этих двух раз ухудшение было не случайным, а спроектированным.

Признание первое — постмортем от 23 апреля. Помните замеры AMD из прошлой главы, «модель стала думать на 73% короче»? Объяснение нашлось. Оказалось, 4 марта Anthropic снизила Claude Code дефолтный уровень «усилия рассуждений» с высокого на средний. Зачем? Чтобы сократить задержки. Ну и расходы, чего уж. Пользователям об этом не сказали. Люди неделями бились о поглупевшую модель, писали жалобы, получали в ответ тишину. Настройку откатили 7 апреля, а публично разложили всю историю только 23-го — после разбора от AMD и шума в прессе, с формулировкой «пользователи сообщили нам, что предпочитают более высокий интеллект по умолчанию». Спасибо, что спросили. В том же постмортеме всплыли ещё два эпизода: баг, стиравший модели её же рассуждения на каждом ходу сессии, и тихо добавленная в системный промпт инструкция «пиши между вызовами инструментов не больше 25 слов». Три «оптимизации» наложились — и дали шесть недель деградации, которую сама компания, цитирую, «поначалу не могла отличить от обычных колебаний в отзывах».

Вдумайтесь. Производитель модели неделями не мог отличить её поломку от шума. А нам предлагается отличать на глазок.

Отмечу отдельно: это ровно тот сценарий, который год назад я считал теорией. Название модели на ценнике не меняется — а реальный продукт под ним становится дешевле в обслуживании и тупее. Не через веса, так через ручку «сколько модели разрешено думать». Ручка, как выяснилось, существует, крутится молча и по умолчанию — в сторону экономии.

Кто незаметно крутит ручку, а потом все отрицает, повторяя это раз за разом?

Кто незаметно крутит ручку, а потом все отрицает, повторяя это раз за разом?

Признание второе — козырь. 10 июня 2026 года Fortune раскопал в 319-страничной документации свежевышедшего Fable 5 абзац, от которого у отрасли отвисла челюсть. Модель содержала механизм, который ТАЙНО снижал качество ответов, если запрос был похож на разработку передового ИИ. Подмешивание в промпт, steering‑векторы — и никакого уведомления. Ты платишь за самую мощную модель на рынке, задаёшь вопрос — и получаешь специально ухудшенный ответ, даже не подозревая об этом. Это не баг. Это спроектированная, задокументированная скрытая деградация. Исследователь Натан Ламберт назвал это «выдёргиванием ковра из‑под ног исподтишка», аналитик Дин Болл — «тайным саботажем» и добавил, что такое «резко поднимает статус аргумента о том, что ИИ‑безопасность — это хайп для оправдания монополии». Через 48 часов скандала Anthropic механизм отключила и извинилась: «Мы сделали неправильный трейд‑офф».

Оцените развилку. Компания, чей символ веры — «мы никогда намеренно не снижаем качество моделей», была поймана на намеренном скрытом снижении качества. Да, для узкой категории запросов. Да, 0,03% трафика, из соображений безопасности, и молодцы, что быстро откатили. Но принципиальный вопрос теперь закрыт: техническая возможность есть, кнопка существует, и один раз её уже нажимали. Дальше мы спорим только о том, для кого её нажимают и как часто.

❯ Кому это выгодно

Хорошо, допустим модели действительно становятся хуже — случайно или нет. Следущий вопрос любого разбора: а есть ли у кого‑то интерес, чтобы так было? Давайте посчитаем.

Инференс — то есть само обслуживание ваших запросов — это главная статья расходов ИИ‑компании. И тут есть красивая цифра: по данным SemiAnalysis, ещё год назад Anthropic оставляла себе примерно 38 центов с каждого доллара, заработанного на инференсе. Сейчас — 70. Почти удвоение маржи за год. За счёт чего? Аналитики перечисляют: лучшая утилизация железа, свои чипы, батчинг и — внимание — «дистилляция моделей, которая позволяет маленьким дешёвым моделям обрабатывать всё большую долю запросов». То есть переток пользователей с дорогих моделей на дешёвые — это не побочный эффект. Это официальный источник маржи.

Теперь контекст момента. 1 июня Anthropic подала документы на IPO. Оценка — $965 миллиардов, размещение осенью, и это будет одно из крупнейших размещений в истории. VentureBeat пишет прямо: когда S-1 станет публичным, инвесторы будут смотреть на один вопрос — какой тариф приносит валовую прибыль, дешёвый массовый Sonnet или дорогой Opus. Перед таким экзаменом каждый пользователь, пересевший с Опуса на Соннет, улучшает компании отчётность.

И ровно в этот момент выходит Sonnet 5. Официальный слоган — «интеллект уровня Опуса по цене Соннета». Модель по умолчанию для всех. Промо‑цена до конца августа. В анонсе — таблица бенчмарков, где Соннет отстаёт от флагмана на считанные проценты:

Официальная таблица Anthropic: Sonnet 5 дышит Опусу в затылок. Колонка Opus 4.8 подписана «для справки»

Официальная таблица Anthropic: Sonnet 5 дышит Опусу в затылок. Колонка Opus 4.8 подписана «для справки»

Складываем картинку. Твой дорогой Opus месяц работает через пень‑колоду — сбои, жалобы, тишина в ответ. Из интерфейса на тебя смотрит плашка: попробуй новый Sonnet 5, он почти такой же, дешевле и вообще теперь дефолт. Задачи посложнее? Есть Fable 5 за $10/$50 — его, правда, могут в любой момент отобрать, как уже отбирали в июне, но пока держи. Никто тебя не заставляет. Тебя ставят в условия, в которых «попробовать другую модель» — самый естественый шаг. Поведением управляют не запретами, а фрустрацией и витриной.

У этого способа управлять пользователем есть научное название — оперантное обусловливание. Та самая дрессировка: поведение закрепляют не приказами, а подкреплением. Старая модель фрустрирует — это отрицательный стимул, уходи. Новая сияет на витрине со скидкой — положительный, иди сюда. Люди в комментариях спорят «нерфят или не нерфят», а спорить надо о другом: нас в принципе водят по клеткам, как лабораторных мышей, и рычаги этой дрессировки никто не скрывает.

Хотите пример прямо из этой недели? Пожалуйста. С 1 по 7 июля Fable 5 включили в обычные подписки — Pro и Max, до половины недельного лимита. Целая неделя, чтобы распробовать лучшую модель в истории компании. А с 8 июля — всё, отдельные «кредиты» по $10/$50 за миллион токенов. Классическая первая доза. Дальше сценарий пишется сам: подсевшим предложат какой‑нибудь тариф «Super Pro» баксов за 50, или за 400 с двадцатикратным лимитом — и мы понесём двойную цену за модель, которая лучше прежней на пару процентов. Причём заметьте: нас даже не обманывают. Каждый шаг публичен, задокументирован и по отдельности разумен. Просто вместе это называется дрессировкой.

Сыр давно перестал быть бесплатным

Сыр давно перестал быть бесплатным

И бонус‑трек, мелким шрифтом. В официальной документации по ценам есть абзац о том, что новые модели — Opus 4.7 и новее, Sonnet 5, Fable 5 — используют новый токенайзер, который «производит примерно на 30% больше токенов для того же текста». Платите вы, напомню, за токены. То есть даже там, где ценник за миллион токенов не изменился — тот же самый текст стал стоить на треть дороже. Об этом не было пресс‑релиза. Оно тихо лежит в документации, для внимательных.

Мотив, по‑моему, набирается убедительный. Осталось изложить, что я на самом деле обо всём этом думаю.

❯ Моя версия

Дальше — территория чистого мнения. Фактов на неё не хватит, поэтому честно помечаю: это моя интерпретация, можете спорить в комментариях.

Я считаю, что Fable 5 — это Opus 5 под сменённой вывеской.

Смотрите на это с точки зрения продакта. Взрывной рост моделей закончился: качественные человеческие тексты для обучения на исходе, каждый следующий процент прироста обходится дороже предыдущего, архитектруных чудес не завозили давно. Выпустить «Opus 5», который лучше «Opus 4.8» на два‑три процентных пункта — это провал маркетинга: все ждут от смены главной цифры чуда, а чуда нет. Зато можно завести НОВУЮ линейку с красивым именем, мифологией про «класс моделей выше Опуса», ограниченным доступом и драмой с правительственной блокировкой — и те же два‑три пункта прироста продать как рождение сверхразума. Ход, кстати, не новый: когда цифры перестают впечатлять — меняют шкалу.

Простой апгрейд версии, а не "что-то новое"

Простой апгрейд версии, а не «что‑то новое»

Я работал с Fable 5. Он хорош, без дураков. Те самые два‑три пункта — они там есть, местами очень заметные. Но «модели нового класса» я не почувствовал. Я почувствовал, что мне вернули тот Opus, каким он был на пике — до того, как ему начали подкручивать, сколько можно думать. И тут я не одинок. Вот комментарий с Hacker News, июнь: «В феврале Opus 4.6 был превосходен. Умный, быстрый, инициативный. Потом его лоботомировали, и прежним он уже не был… Fable ощущался как доступ к тому самому „старому Опусу“, только чуть умнее. Примерно таким я и ждал бы Opus 5. Возвращаться на 4.6/4.7/4.8 после него — почти депрессия». Читаешь и хочется спросить: если для человека «новый класс моделей» ощущается как «старая модель до нерфа» — что именно нам продают?

А вот второй, от 10 июня, формулирует всю схему одним абзацем: «Opus 4.6 был отличным, 4.7 — хуже, 4.8 — ещё хуже, а Fable возвращает уровень 4.6 с плюсом. Не разыгрывает ли нас Anthropic — две посредственные версии подряд, чтобы перед IPO выкатить „модель лучше“?»

И получается цикл, который я для себя называю «90-75-91». У тебя есть модель, которая выдаёт условные 90% возможного. Потом она — через сбои, «оптимизации» и классификаторы — тихо сползает к 75%. Ты страдаешь, привыкаешь, начинаешь считать это нормой. И тут выходит новинка, которая выдаёт 91%. На фоне вчерашних 75% это выглядит как квантовый скачок — хотя относительно точки старта тебе вернули твоё же, плюс процент сверху. Хайп, обзоры, «лучшая модель в истории человечества». А через пару месяцев цикл запускается заново, уже с новинкой в главной роли.

Заметьте: для этой схемы даже не нужен злодей с рубильником. Достаточно, чтобы компания все спорные решения — сколько модели думать, как агрессивно резать «усилие», какие классификаторы вешать — принимала в сторону экономии, молча, а признавалась только под давлением. Дальше цикл собирается сам, из вполне легальных кусочков. Ещё в апреле один комментатор на HN сформулировал это предельно коротко: «Есть довольно очевидный стимул понерфить текущую модель ровно перед выходом следующей». Ему ответили вопросом: «А это разве не мошенничество?» Тред, как водится, закончился ничем. Но вопрос хороший. Пусть повисит.

❯ Сам себе возражу

Я обещал честность, поэтому теперь сыграю против себя. У каждого пункта выше есть скучное объяснение, и коллективно они складываются в цельную альтернативную картину.

Начнём с того, что «народные замеры» деградации регулярно оказываются мусором. В апреле по всем лентам разлетелся график BridgeBench: смотрите, Opus 4.6 упал с 83% до 68%, вот он, нерф, пойман за руку! А потом выяснилось, что первый замер был на шести задачах, а второй — на тридцати. На пересекающихся шести задачах разница оказалась в пределах погрешности. Критики припечатали это словами «невероятно плохая наука» — и были правы. Вирусится страшный график, опровержение читают полтора человека.

Пришло время собрать шапочку из фольги

Пришло время собрать шапочку из фольги

Дальше — сами модели. Они вероятностные. Одна и та же модель на одной и той же задаче сегодня справится, завтра нет, и это не деградация, а природа технологии. Как написал скептик в том самом треде про нерф: «LLM — не человек, стабильного уровня способностей у неё нет. Прошлые результаты — слабый предсказатель будущих, даже если модель не трогали. Это всегда был игровой автомат». Обидно, но во многом честно.

Психология тоже работает против нас. Когда выходит новинка, старая модель субъективно тускнеет — на контрасте. Когда начитаешься тредов «Opus отупел», начинашь замечать каждый его косяк, которые раньше прощал. Про это я подробно писал в прошлой статье, повторяться не буду — но фильтр этот никуда не делся и работает во мне так же, как в любом авторе гневного гитхаб‑тикета.

Наконец, против меня играет и главный по‑настоящему научный факт: независимых замеров деградации именно Opus 4.8 в июне не существует. Marginlab, единственные, кто меряет ежедневно, после релиза собирали новую базовую линию — их детектор молчал. Все июньские страдания, включая мои, — пока только слова. И справедливости ради, у Anthropic в июне было объективное оправдание: пол‑месяца сбоев, перегрузка после двух релизов, возня с классификаторами Fable. Бардак объясняет многое без всякого умысла. Никогда не приписывай злому умыслу то, что объясняется перегретой инфраструктурой и взрывным ростом.

Всё так. Но вот что не даёт мне поставить точку. Все эти контраргументы упираются в одну и ту же стену: проверить нельзя НИ‑ЧЕ‑ГО. Проприетарная модель — чёрный ящик за API. Ни весов, ни чейнджлога, ни обязательств сообщать об изменениях. Мы даже не можем доказать, что сегодня под вывеской «Opus 4.8» отвечает та же система, что вчера. Учёные, кстати, уже строят методы детекции тихих подмен моделей — и одна группа, отслеживая 189 API‑эндпоинтов несколько месяцев, поймала 37 необъявленных изменений у десяти провайдеров. Пока почти все пойманные — у хостеров открытых моделей, где есть с чем сравнивать. У закрытых сравнивать не с чем. Удобно, правда?

И получается финальная симметрия. Я не могу доказать, что модели тихо нерфят. А вендор не может доказать — и даже не пытается, — что не нерфит. В любой другой индустрии этот спор решил бы независимый аудит или регулятор. Здесь — только вера. Ну, или комментарии.

❯ Серверная вместо дачи

Ладно, ныть я умею, а что делать‑то? Первый ответ очевидный: опенсорс. Открытую модель никто тайком не подкрутит — веса лежат у тебя, результат воспроизводится байт в байт хоть через год. Китайские открытые модели по качеству уже дышат флагманам в спину, на бумаге выход есть.

Теперь ложка дёгтя размером с ковш. Где ты эту модель развернёшь? Чтобы получить хотя бы близкую к флагманской производительность, нужно железа минимум на четыре H100. Это не 4090, которую можно встретить у зажиточного геймера. Это не влезет в макбук. Это сервер, который надо арендовать, обслуживать, охлаждать и оплачивать — точно не история для простых смертных. Получается вилка: либо удобные проприетарные модели с ручками, которые крутят без тебя, либо честные открытые — но с ценником на входе как у автомобиля и командой обслуживающего персонала.

Зачем строить дачу с друзьями, когда можно вместе запускать ЛЛМ модели, а на горячих гпу серверах пожарить зефирки

Зачем строить дачу с друзьями, когда можно вместе запускать ЛЛМ модели, а на горячих гпу серверах пожарить зефирки

И тут у меня фантазия, за которую можете крутить пальцем у виска. Знаете, как компания друзей вскладчину покупает одну дачу и вместе там тусуется? Вот мне кажется, следующий шаг — так же вскладчину покупать серверную ферму. Маленькие группы людей, объединённые общими задачами, поднимают СВОЮ большую модель — которую точно никто не понерфит, которая отвечает одинаково в понедельник и в пятницу, и результат которой не зависит от твоего IP, настроения Дарио Амодея или очередных санкций. Дача, только вместо шашлыков — инференс. Если через пару лет такие «серверные кооперативы» станут нормой — вспомните, где вы это читали.

❯ Вопрос к вам

Подведу черту. Год назад я закончил разбор этой темы выводом «интеллект не убили, его сделали рентабельным» — и предлагал успокоиться. Сегодня я бы дописал к нему вторую половину: рентабельным его сделали молча. Ручки, которыми крутят качество моделей, существуют — это уже не теория, а содержимое официальных постмортемов. Крутят их без объявлений, сознаются задним числом, а один раз ухудшение и вовсе оказалось спроектированным. При этом само по себе желание компании экономить — нормально. Ненормально то, что у продукта, от которого зависит работа миллионов людей, нет ни чейнджлога, ни метрики качества, ни обязательства предупрежать. Мы годами требовали этого от каждой энтерпрайз‑платформы — а тут почему‑то согласились на «поверьте, вам показалось».

Я не знаю, нерфят ли старые модели специально перед релизом новых. Честно — не знаю. Знаю только, что мой Opus 4.8 на тарифе за $200 сейчас работает хуже, чем месяц назад, что тысячи людей пишут то же самое, и что все инструменты, которыми это можно было бы проверить, находятся в руках стороны, у которой перед IPO есть 965 миллиардов причин не проверять.

Проведем свой "бенчмарк"

Проведем свой «бенчмарк»

Поэтому последний инструмент — вы. Расскажите в комментариях: вы заметили ухудшение старых моделей после выхода Sonnet 5 и Fable 5? Ваш Opus, GPT или Gemini стал хуже справляться с задачами, которые делал неделями? Или я всё‑таки сошёл с ума и выдумал закономерность там, где её нет?

Это третий текст в моей серии про тёмную сторону ИИ‑индустрии: в 2024-м была «Жажда цифровой крови» — про то, на каких данных всё это обучено, в 2025-м — «Кто убил интеллект?» — про то, куда этот интеллект девается. Судя по динамике, четвёртая часть — вопрос времени.

Я рассказываю больше о нейросетях у себя в YouTube, в Телеграме и на Бусти. Всех обнял и стабильных моделей.

ссылка на оригинал статьи https://habr.com/ru/articles/1054806/