OpenAI выпустила GPT-5.5 с акцентом на улучшение возможностей в области программирования

OpenAI выпустила GPT-5.5, и это обновление выглядит довольно значительным, особенно если вас интересуют программирование, агенты и использование компьютеров.

Она лучше пишет код, более уверенно использует компьютеры и может выполнять больше задач, требующих автономной работы, без необходимости постоянного контроля с вашей стороны.

Модель уже доступна для пользователей тарифных планов Plus, Pro, Business и Enterprise в ChatGPT и Codex. Существует также более мощная версия под названием GPT-5.5 Pro, которая будет доступна пользователям Pro, Business и Enterprise.

Для разработчиков доступ к API указан как «coming soon». Печальной частью является цена. Она в два раза превышает цену за токен GPT-5.4, что, вероятно, станет предметом споров для многих разработчиков на этой неделе.

GPT-5.5 — это первый за долгое время релиз, который кажется чем-то большим, чем просто очередной номер версии.

По словам OpenAI, это первая полностью переобученная базовая модель со времен GPT-4.5. Скачок в тестах по агентному программированию, похоже, подтверждает это.

Давайте углубимся в детали.

Что такое GPT-5.5 на самом деле

GPT-5.5 — это продвинутая модель, созданная для более длительных и сложных задач. Основная идея проста: она должна меньше полагаться на помощь пользователя.

По заявлению OpenAI, она была разработана для агентского программирования, работы с компьютером, интеллектуальной деятельности и ранних этапов научных исследований. На практике это означает, что вы можете поручить ей широкий спектр задач и рассчитывать, что она будет планировать, использовать инструменты, проверять собственную работу и продолжать действовать, а не останавливаться через каждые несколько шагов.

Теперь она доступна в приложении ChatGPT как для настольных компьютеров, так и в браузере.

Релиз включает две версии.

Стандартная модель GPT-5.5 — это вариант по умолчанию для большинства производственных задач. GPT-5.5 Pro использует параллельные вычисления во время выполнения на той же базовой модели, чтобы повысить точность при решении сложных задач. Эта версия ориентирована на исследовательский синтез, технический анализ и работу в сложных сферах, где неправильный ответ может стоить дороже, чем дорогой API-запрос.

Контекстное окно также огромное. GPT-5.5 поддерживает 1 миллион токенов в API и 400 тысяч токенов в Codex. Этого достаточно, чтобы загрузить всю кодовую базу среднего размера в один промпт — раньше для этого приходилось использовать пайплайны поиска и хитрое разбиение на части.

Как модель показывает себя в бенчмарках

Результаты по программированию привлекают больше всего внимания, и это вполне объяснимо.

В Terminal-Bench 2.0, который тестирует агентные рабочие процессы в командной строке, GPT-5.5 набрала 82,7%, а GPT-5.4 — 75,1%. Это ставит GPT-5.5 на первое место среди публично доступных моделей.

Согласно данным The Decoder, модель Claude Opus 4.7 от Anthropic показала результат 69,4%, а Gemini 3.1 Pro от Google — 68,5% в том же тесте.

Другие результаты тестирования по написанию кода показали аналогичную картину.

Во внутреннем тесте Expert-SWE от OpenAI, который проверяет выполнение длинных инженерных задач, среднее время выполнения которых человеком составляет около 20 часов, GPT-5.5 набрала 73,1%, а GPT-5.4 показала результат 68,5%.

В тесте SWE-Bench Pro, который оценивает решение реальных задач на GitHub, модель GPT-5.5 набрала 58,6%. Claude Opus 4.7 фактически превзошла ее в этом конкретном тесте, набрав 64,3%, хотя OpenAI отметила, что компания Anthropic сообщила о признаках запоминания результатов при решении подмножества задач.

Помимо программирования, мое внимание привлекли несколько цифр:

GDPval — 84,9%: этот показатель измеряет производительность по 44 реальным профессиям, включая финансы и юридические исследования. GPT-5.5 в этом проценте сравнений соответствует или превосходит профессионалов отрасли.

Профессиональный тест производительности GPT 5.5

FrontierMath, уровень 4: 35,4 % у стандартной модели и 39,6 % — у Pro. Это самый сложный уровень математического теста, разработанного действующими математиками и предназначенного для проверки способности модели обходить механическое запоминание.

BrowseComp: 90,1 % у Pro. Этот тест проверяет, насколько хорошо модель может находить в Интернете труднодоступную информацию.

OSWorld-Verified — 78,7%. Это тест на использование персонального компьютера, в котором модель должна кликать по элементам реальных интерфейсов и выполнять смешанные программные задачи.

Кроме того, по данным OpenAI, GPT-5.5 теперь возглавляет Artificial Analysis Intelligence Index (Индекс искусственного интеллекта) с результатом 60 баллов. Это на три балла больше, чем у Claude Opus 4.7 и Gemini 3.1 Pro Preview, которые набрали по 57 баллов.

Тест производительности GPT 5.5 в Artificial Analysis Index

В этом году борьба за лидерство среди ИИ моделей довольно напряжённая, особенно между OpenAI, Anthropic и Google. Этот релиз вернул OpenAI на первое место, по крайней мере, в общедоступных рейтингах.

Но здесь есть одно важное замечание.

По показателю GDPval улучшение по сравнению с GPT-5.4 не столь значительно. GPT-5.5 набрала 84,9%, а GPT-5.4 — 83,0%. Если этот тест действительно хорошо отражает повседневную профессиональную работу, то для обычных задач ChatGPT GPT-5.5 может оказаться не таким уж значительным скачком.

Тест производительности GPT 5.5 на GDPval

Улучшения в области программирования и агентных функций выглядят гораздо убедительнее.

Эффективность использования токенов и скорость

Обычно повышение производительности сопровождается замедлением отклика или увеличением затрат. Иногда и тем, и другим.

Именно поэтому GPT-5.5 представляет интерес. По заявлению OpenAI, при реальной эксплуатации у модели такая же задержка на токен, как и у GPT-5.4, при этом затрачивается гораздо меньше токенов на выполнение тех же задач в Codex.

Компания заявляет о сокращении использования токенов на выходе примерно на 40% при сопоставимой работе. Это реальный прирост эффективности. Также это помогает компенсировать затраты при удвоенной цене за токен, по крайней мере, для некоторых рабочих процессов.

В Codex также появился новый режим Fast. Он генерирует токены в 1,5 раза быстрее при стоимости, в 2,5 раза превышающей стандартную. Это явно нацелено на интерактивные сессии программирования, где ожидание ответа модели может нарушить рабочий ритм.

В этом обновлении также предусмотрено пять уровней — от «без рассуждений» до «xhigh». Это дает разработчикам больше контроля над тем, сколько ресурсов они хотят затратить в зависимости от задачи.

Для быстрых исправлений вам, скорее всего, не понадобится самый дорогой вариант. Для глубокой отладки или длительных задач по программированию могут быть целесообразны более высокие уровни.

Сейчас я все еще жду, когда в другие инструменты для программирования, такие как Warp и Antigravity, добавят поддержку GPT 5.5.

Цены и почему об этом говорят

Именно эта часть, вероятно, будет доминировать в дискуссии на Hacker News.

Стандартный API GPT-5.5 будет стоить 5 долларов США за миллион входных токенов и 30 долларов за миллион выходных. Это ровно вдвое дороже, чем у GPT-5.4, где стоимость составляла 2,50 доллара и 15 долларов соответственно.

GPT-5.5 Pro значительно дороже. Его стоимость составляет 30 долларов за миллион входных токенов и 180 долларов за миллион выходных токенов.

Цены по тарифам Batch и Flex будут в два раза ниже стандартных. Приоритетная обработка будет стоить в 2,5 раза дороже стандартной. Окно контекста в 1 миллион токенов доступно для всех тарифных планов.

OpenAI аргументирует это тем, что модель использует меньше токенов, поэтому более высокая стоимость за токен не означает автоматического удвоения стоимости. В частности, в отношении задач в Codex компания заявляет, что большинство пользователей могут фактически потратить меньше, поскольку модель генерирует более короткие и точные результаты.

В стороннем анализе от Office Chai чистый рост затрат был оценен примерно в 20% с учетом сокращения выходных токенов примерно на 40%.

Это имеет смысл для агентского программирования, но я не уверен, что это применимо ко всем сценариям использования.

Для генерации необработанного текста, длинных статей, рабочих процессов с большим объемом контекста или задач, где длина вывода остается примерно одинаковой, рост затрат может быть более заметным. Поэтому, прежде чем команды переключат все на GPT-5.5, им, вероятно, следует сначала провести собственный расчет.

Более подробную информацию о ценах можно найти здесь.

Безопасность и система оценки готовности

Это, пожалуй, самая интересная часть релиза, если вы следите за тем, как ведущие лаборатории подходят к вопросу рисков, связанных с моделями.

В рамках своей системы оценки готовности OpenAI классифицирует GPT-5.5 как модель с «высоким» уровнем способностей как в сфере кибербезопасности, так и в биологической или химической областях. Этот уровень все еще находится ниже «критического» порога, превышение которого повлекло бы за собой применение других политик релиза.

Классификация по кибербезопасности особенно важна, поскольку это, по-видимому, первый публичный релиз OpenAI, в котором компания открыто отмечает реальный скачок в наступательных возможностях в сфере безопасности.

OpenAI сообщает, что провела расширенные тесты «красной команды», добавила целевые проверки кибер- и биологических возможностей и внедрила более строгие классификаторы для оценки возможных киберрисков. Компания также признала, что некоторым пользователям эти классификаторы поначалу могут показаться раздражающими.

Миа Глейз, вице-президент OpenAI по исследованиям, сообщила CNBC, что GPT-5.5 прошел обширное тестирование мер безопасности третьей стороной и тестирование «красной команды» на предмет кибер- и биологических рисков. Также она отметила, что компания в течение нескольких месяцев совершенствовала свои меры кибербезопасности по мере того, как модели становились более мощными.

Внедрение API откладывается до тех пор, пока не будут готовы меры безопасности, адаптированные к потребностям конкретных партнеров. Кроме того, OpenAI расширяет свою программу «Trusted Access for Cyber», которая предоставляет проверенным специалистам по безопасности доступ к более мощным возможностям, стараясь при этом ограничить случайное неправомерное использование.

Интересен и сам момент времени.

Ранее в апреле компания Anthropic выпустила превью Claude Mythos, сделав акцент на собственном подходе к кибербезопасности. Таким образом, конкуренция в сфере передовых технологий, защищенных механизмами безопасности, явно набирает обороты.

Ни одна лаборатория не хочет выпускать модель, которая упрощает реальные кибератаки. Но в то же время ни одна лаборатория не хочет отставать в области возможностей, которая явно важна для предприятий и команд по безопасности.

Это противоречие становится все труднее игнорировать.

Что на самом деле изменилось «под капотом»

Некоторые технические детали остались незамеченными на фоне громких заголовков о тестах производительности.

Во-первых, GPT-5.5 — это первая полностью переобученная базовая модель со времен GPT-4.5. Для модели семейства 5.x это очень важное событие. Многие обновления версий представляют собой в основном доработки, внедренные после обучения на основе существующей базовой модели. В данном случае речь, по-видимому, идет о более глубоком обновлении.
Во-вторых, GPT-5.5 была обучена и запущена на системах NVIDIA GB200 NVL72, что NVIDIA также подтвердила в материалах о запуске.
В-третьих, OpenAI говорит, что они полностью переделали систему обработки запросов с нуля, вместо того чтобы накладывать улучшения друг на друга. Благодаря этому скорость ответов осталась прежней, хотя возможности модели сильно выросли.

Теперь Codex также поддерживает работу с браузерами. Это означает, что агент может взаимодействовать с веб-приложениями, переходить по страницам, делать скриншоты и повторять действия до тех пор, пока задача не будет выполнена.

Кроме того, был усовершенствован генератор изображений, который теперь может отображать в результатах читаемый текст. Это долгое время было слабым местом многих моделей для генерации изображений, включая собственные инструменты OpenAI, поэтому мне интересно посмотреть, насколько лучше он работает на практике.

GPT-5.5 выглядит как обновление, которое будет иметь большее значение для разработчиков, чем для обычных пользователей ChatGPT.

Что касается обычного написания текстов, составления резюме, написания писем и базовых исследований, я не думаю, что большинство людей сразу почувствуют улучшения. Модель стала лучше, но улучшение в этой области, похоже, будет более постепенным. Гораздо интереснее то, что происходит, когда вы даете ей сложную задачу по программированию и даете ей возможность решить проблему с помощью инструментов.

Тем не менее, я не думаю, что это тот случай, когда стоит сегодня же переключиться на новую версию.

Ценовая политика делает GPT-5.5 менее привлекательным вариантом по умолчанию для всех рабочих процессов. OpenAI заявляет, что модель использует меньше токенов, и это может быть верно для задач для Codex, где модель может решать проблемы с помощью более коротких и целенаправленных прогонов. Но для написания длинных текстов, больших объемов контекста или результатов, которые по своей природе должны быть длинными, более высокая цена за токен все же может отразиться на окончательной сумме расходов.

ссылка на оригинал статьи https://habr.com/ru/articles/1029270/