Неделю назад они говорили что ИИ опасен. А потом подняли свой же потолок

Среда, утро, кофе. Открываю Хабр, мельком вижу заголовок «Антропик предупреждает что ИИ становится слишком опасным, индустрии надо тормозить». Знакомая песня, Амодей это говорит регулярно, последние года полтора почти на каждом выступлении. Прокрутил, пошёл дальше.

В пятницу открываю docs Антропика чтобы дёрнуть пару параметров API для одного клиентского проекта. На главной баннер. Файбл 5. Новый класс Mythos. Релизнули.

Так.

Перечитал. Файбл 5, новый верхний этаж, на SWE-Bench Pro 80.3 против 69.2 у опуса 4.8, на FrontierCode Diamond 29.3 против 13.4 у того же опуса. То есть на сложных кодовых задачах в два раза выше. Цена $10 за миллион входных токенов, $50 за выходные, что меньше чем было у их же Mythos Preview весной.

Между «индустрии надо тормозить» и «вот вам наша самая сильная модель когда либо» прошло семь дней. Я даже специально проверил даты, думал может неправильно прочитал.

Сел разбираться.

Митос-класс — это вообще что

До прошлой пятницы у Антропика лестница была понятная. Хайку для дешёвого инференса, Соннет для рабочих задач, Опус для тяжёлых. Над опусом ничего не было. В отличие от Опен-АИ с их линейкой о1/о3/о5/GPT-5/GPT-5.5, у Антропика верх упирался в один класс.

Сейчас сверху Опуса появилась новая ступенька. Назвали Mythos. От древнегреческого μῦθος, миф. Они любят пышные имена, до этого был ещё внутренний эксперимент Sonnet 4 Constitutional, в публичный релиз не вышел.

И вот что интересно. В этом новом классе на самом деле не одна модель, а две. Файбл 5 — публичная, доступна всем платным подписчикам и в API. И Митос 5 — та же модель, тот же вес, но без одной штуки которая называется safety classifier. Эту вторую дают по приглашению, через программу с поэтичным названием Project Glasswing, в дословном переводе «стеклянное крыло».

То есть один и тот же набор весов, но публикуется в двух вариантах. С фильтром и без.

Меня в этой схеме сначала зацепила терминология. Раньше «safety» у Антропика означало RLHF на отказ от вредного контента. Конституция, помните? «Будь полезным, не делай Y, не помогай в Z». Это встроено в саму модель.

А safety classifier это уже что-то другое. Это слой ПОВЕРХ модели. Прочитал внимательно — оказалось ещё хитрее.

Цифры, прежде чем дальше

Я не очень люблю таблицы в середине статей, но иначе сравнивать неудобно. Тут реально надо на цифры посмотреть.

Бенчмарк	Файбл 5	Опус 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro (агентский кодинг)	80.3	69.2	~62	~58
FrontierCode Diamond (тяжёлый код)	29.3	13.4	5.7	—
Humanity’s Last Exam (без тулов)	59.0	49.8	41.4	~38
GDPval-AA (бизнес-задачи)	1932	1890	1769	1314

Цифры я вытащил из их официального tech report и из разбора Vellum. На FrontierCode Diamond разрыв особенно выпуклый, +16 пунктов это не «слегка получше», это другой уровень. Под капотом там сложные многошаговые задачи с обходом по большим репозиториям, где старые модели обычно сваливаются на четвёртом-пятом шаге.

GPT-5.5 на этих сценариях тоже не блестит, я сам гонял на двух своих задачах. Один раз он залип в цикле, второй раз правильно решил, но ушёл по 47 секунд на запрос против моих ожиданий в 15. Файбл 5 ту же задачу прожевал за 22 секунды, отвечает медленнее GPT, но шагов делает в два раза меньше.

С Хайку 4.5 сравнивать смысла нет, она для другого. Но для понимания, Хайку под мелкие быстрые задачи стоит 50 центов за миллион — Файбл 5 в 20 раз дороже на входе и в 100 раз на выходе.

А теперь главная штука

Safety classifier у Файбл 5 работает не так как я сначала подумал.

Я был уверен что это банальный фильтр на отказ. Ну, знаете, как у Клода обычно. Спросил что-то про взрывчатку, он говорит «извини, не могу помочь». Думал тут так же, только тоньше.

Полез в их security card, прочитал. Нет, не так. Safety classifier не отказывает.

Он подменяет модель.

Технически это работает так. Ты пишешь запрос, твой запрос попадает в небольшой роутер. Этот роутер прогоняется по трём категориям: кибербезопасность, биология и химия, model distillation. Если запрос задевает любую из этих тем — он перенаправляется на старый Опус 4.8. Ты как пользователь этого не видишь, ответ возвращается как обычно, маркера «вас перенаправили» в API нет, в чате тоже не отображается.

Перечитал, думаю, погоди-погоди, это значит что я не могу заранее знать на какой модели мне ответят?

Так и есть. Антропик пишет в своих же metrics: меньше 5% сессий триггерят fallback. То есть в 95 процентах времени ты говоришь с Файбл 5. В оставшихся пяти — с тем же Опус 4.8, которым все пользовались последний месяц.

Это и есть safety classifier. Это не фильтр, это маршрутизатор.

Если задуматься, штука довольно изящная. Не блокировать пользователя, а тихо подменить движок на менее мощный когда тема становится скользкой. С точки зрения юзер-экспириенса намного приятнее чем «извини, помочь не могу», а с точки зрения safety — формально мощная модель не отвечает на опасные вопросы.

Но осадочек есть. Я не могу гарантированно знать с кем разговариваю. На рутинных задачах — да, скорее всего Файбл 5. На пограничных — может уже Опус 4.8 и я даже не замечу. Для большинства это вообще не проблема, для каких-то задач исследования и сравнения моделей это раздражает.

Стеклянное крыло

Вот тут начинается самое интересное. Митос 5 — та же модель что Файбл 5, без safety classifier. Без подмены модели на старый Опус когда тема скользкая. По умолчанию недоступна, но доступ можно получить через программу Project Glasswing.

Что такое Glasswing. Если коротко, это пул «research partners» — академических групп, AI-сейфти лабораторий, крупных корпов которые исследуют поведение моделей. Я полез искать кто именно туда попадает, открытого списка нет. В разных интервью Антропика упоминаются MILA, METR, парочка университетов с safety-фокусом, и судя по структуре пайплайна, точно есть несколько крупных энтерпрайз-клиентов.

Антропик прямо пишут что Glasswing не для злоумышленников, а для тех кто исследует как модель ведёт себя без слоя защиты. Чтобы можно было замерить разницу, посмотреть какие категории запросов реально опасны, какие нет.

Идея в том чтобы дать research-сообществу возможность изучить полную модель, при этом ширпотребу выдать урезанный вариант. Я понимаю логику, но мне как наблюдателю всё равно немного не по себе.

Потому что граница между «research partner» и «человек который заплатил за подписку» юридически довольно тонкая.

Если завтра большая компания захочет получить доступ к Митосу под предлогом safety research, скорее всего получит. Если индивидуальный исследователь с реальным грантом — тоже скорее всего получит. А если просто очень настойчивый стартап — посмотрим.

Эту часть мне нравится меньше всего. Не сам факт что Митос существует, а то что граница доступа размыта.

А, и про название

Тангенс, но без него никак. Имя Mythos.

Антропик последние полгода ребрендят свои классы. Хайку, Соннет, Опус — это они оставили. Сверху появился Mythos. Внутри компании, по словам нескольких бывших сотрудников которые потом ушли, обсуждали ещё варианты Codex и Quasar, но эти отбросили.

Почему именно «миф». Логика такая: каждый класс показывает диапазон возможностей. Хайку — короткое стихотворение, минимум. Соннет — структурированная форма, средний. Опус — крупное произведение, большой. Митос — масштаб целой истории, мифологического сюжета.

Я знаю что это маркетинг. Но именно для названия класса это аккуратно. Эпопея, миф, по интенту масштабнее любого отдельного произведения. Если линейка пойдёт ещё выше, я бы поставил на что-то типа «Cosmos» или «Aeon», тоже греческое.

Зачем им вообще новая ступенька. У меня версия. Опус становится тяжёлым для большинства бытовых задач — слишком умный, слишком дорогой. Если просто релизнуть «опус 5.0», он не сильно отличался бы по позиционированию. А «новый класс выше Опуса» — это PR-сигнал, мол смотрите, мы пошли дальше. Маркетинговая стратегия чуть менее очевидная чем «v5 быстрее v4», но рабочая.

Что это вообще значит для индустрии

Сейчас Антропик первая большая лаборатория которая официально и в продакшене делает так. Не «давайте уберём опасные знания из модели на этапе обучения», не «откажемся отвечать на запросы», а «выпустим модель в двух экземплярах, в одном будут динамические тормоза, в другом не будет».

Я думаю остальные пойдут по тому же пути. ОпенАИ уже что-то похожее делают с o3-Pro и его внутренней «high-stakes» версией, только официально не признают. Гугл с Близнецом тоже разделяет внутреннее API и публичное. Просто Антропик первые кто это назвал, открыто описал и выпустил под одним именем класса.

Что меня в этом смущает — это нормализация. Если такая схема становится индустриальным стандартом, через два-три года мы будем жить в мире где каждая новая фронтир-модель публикуется в полной и неполной версии. И граница «кто получает полную» будет определяться кучей факторов: где ты работаешь, какую анкету заполнил, на сколько подписался.

Это либо честно, потому что Антропик хотя бы не скрывает что они подменяют движок, либо это превентивная нормализация двойного стандарта. Я склоняюсь к первому варианту, потому что лучше открытая подмена чем скрытая, но мысль про второй тоже из головы не уходит.

Я ещё разбираюсь

Я только-только начал гонять Файбл 5 на своих рабочих задачах. Через пару недель напишу разбор по цифрам — где реально стало лучше, где разницы нет, где платить дороже не имеет смысла.

Сейчас субъективно. Кодит заметно лучше. Длинные цепочки рассуждений держит крепче, особенно на задачах где нужно собирать контекст из 7-10 файлов. На обычных задачах не вижу преимущества, разве что в скорости иногда. На скользких темах — да, замечаю что иногда ответ становится «суше», судя по всему это и есть момент когда меня перевели на старый Опус.

Кстати, было бы интересно если кто-то из читающих уже залез в Митос 5 через Glasswing. Напишите в комменты, как оно выглядит без safety классификатора. Я понимаю что NDA, но хотя бы общие ощущения. И что вообще пишут в анкете на доступ, мне просто любопытно.

А ещё, мне кажется, нам через год придётся переписать половину гайдов по выбору модели. Раньше было просто: Хайку для дешёвого, Соннет для рабочего, Опус для сложного. Сейчас сверху появилось ещё одно деление, и оно не такое чёткое. Файбл 5 «обычно сильнее опуса», но иногда внутри одного и того же чата ты можешь незаметно говорить с обоими. Это весело, но привыкать к этому ещё пару месяцев.

Файбл 5 при этом до 22 июня бесплатен для Pro/Max/Team/Enterprise. Если ещё не пробовал — попробуй на чём-нибудь сложном. На рутине разницу не увидишь.

ссылка на оригинал статьи https://habr.com/ru/articles/1046908/