Вышла GPT-5.6 — мощнейшая модель, но пока не для вас

OpenAI представила новое поколение моделей GPT-5.6: флагманскую Sol, сбалансированную Terra и быструю недорогую Luna. Sol компания называет своей самой мощной моделью на сегодня. Вот только попробовать ее почти никто не сможет: на старте доступ открыт примерно двум десяткам компаний и только через API и Codex. Все партнеры согласованы с властями США. Широкий запуск в ChatGPT и API обещают «в ближайшие недели».

Главное тут — не сами модели, а то, как их выпустили. Ограничить релиз попросило само правительство США: OpenAI заранее показала чиновникам возможности GPT-5.6 и по их просьбе стартовала с узкого превью, список участников которого передан властям. Это первый случай, когда американское государство превентивно вмешалось в запуск ИИ-модели еще до релиза. И происходит он спустя две недели после того, как Anthropic под действием экспортной директивы пришлось отключить Fable 5 и Mythos 5. То, что выглядело как точечное давление на одну компанию, на глазах превращается в отраслевую норму.

Сама линейка устроена по-новому. Цифра теперь обозначает поколение, а названия Sol, Terra и Luna — постоянные уровни, которые развиваются каждый в своем темпе. Terra, по словам OpenAI, не уступает прошлой GPT-5.5, но вдвое дешевле, а Luna — самый доступный вариант. Добавили два новых режима: max дает модели максимум времени на размышление, а ultra подключает субагентов для сложных задач. Цены за миллион токенов — 5/30 долларов у Sol, 2,5/15 у Terra и 1/6 у Luna. В июле Sol обещают запустить на чипах Cerebras со скоростью до 750 токенов в секунду.

По бенчмаркам, которые показала OpenAI, картина такая:

TerminalBench 2.1 (работа в командной строке): Sol в режиме ultra — 91,9%, обычная Sol — 88,8%. Для сравнения: Claude Mythos 5 — 88,0%, GPT-5.5 — 83,4%, Claude Opus 4.8 — 78,9%, Gemini 3.1 Pro Preview — 70,7%.
GeneBench v1 (длинные геномные и количественно-биологические задачи): Sol обходит GPT-5.5, тратя при этом меньше токенов.
ExploitBench (поиск и эксплуатация уязвимостей): Sol сопоставима с Mythos Preview, расходуя примерно втрое меньше токенов.
ExploitGym (бенчмарк исследователей UC Berkeley вместе с OpenAI и другими лабораториями): чем больше модель рассуждает, тем выше результат у всех трех.

Придержали GPT-5.6 именно из-за кибербезопасности. По собственной шкале OpenAI модель получила уровень High, но не дотянула до Critical: в тестах на Chromium и Firefox она находила баги и заготовки для эксплойтов, но не собрала рабочую цепочку атаки целиком. Вывод компании — Sol лучше помогает находить и закрывать уязвимости, чем надежно проводить атаки от начала до конца. Защиту выстроили слоями: модель учили отказывать в запрещенных кибер-запросах, добавили классификаторы, следящие за генерацией в реальном времени, и проверку аккаунтов на подозрительные паттерны.

Самой OpenAI такой порядок не по душе: в компании прямо пишут, что согласование релизов с государством не должно становиться нормой, потому что отрезает от лучших инструментов разработчиков, бизнес и тех же защитников. Пока это подается как временный шаг — параллельно OpenAI и администрация дорабатывают рамки кибер-указа. К августу власти должны выстроить закрытую процедуру оценки кибер-способностей моделей и определить, какие из них считаются «covered frontier models» и подпадают под особый контроль. По сути, история Anthropic и нынешняя GPT-5.6 — это первые две итерации механизма, который только формируется.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1052492/