OpenAI представила ChatGPT Image 2.0: как пользоваться, получить доступ и насколько она лучше конкурентов

Тогда как все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.

Он называется ChatGPT Image 2.0 и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений в ChatGPT.

На странице анонса почти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

Если открыть ChatGPT сейчас, вы увидите экран приветствия с описанием новой модели, а под полем ввода промпта расположена строка с шаблонами изображений.

На первый взгляд — незначительные изменения. Но то, что скрывается «под капотом», — это совершенно другая история. Еще одно обновление касается шаблонов изображений, которые можно выбрать под полем для ввода промпта.

На данный момент доступно 19 предустановок, и в будущем их количество, вероятно, увеличится.

Изменение названия, которое вы, скорее всего, не заметили

Прежде чем перейти к примерам, давайте поговорим о новом названии.

Если вы на протяжении нескольких лет следили за развитием сферы генерации изображений с помощью ИИ, то знаете, что OpenAI меняла название своей модели для генерации изображений практически каждый раз, когда выпускала новую версию.

История названий выглядит следующим образом.

DALL-E в январе 2021 года.
DALL-E 2 в 2022 году.
DALL-E 3 в 2023 году, который был интегрирован в ChatGPT на протяжении около восемнадцати месяцев.
В марте 2025 года OpenAI отказалась от бренда DALL-E в ChatGPT и представила собственную систему для генерации изображений под новым названием GPT Image 1.
В декабре 2025 года ее заменила GPT Image 1.5, более быстрая и дешевая.
И вот теперь, в апреле 2026 года, появилась ChatGPT Image 2.0.

Таким образом, менее чем за пять лет использовалось шесть названий, три разных схемы наименования и одна модельная линейка, которая незаметно прошла процесс слияния.

И чтобы окончательно закрыть эту эпоху, 12 мая 2026 года DALL-E 2 и DALL-E 3 перестанут работать через API. Если вы до сих пор используете эти интерфейсы, у вас есть несколько недель на переход.

Что нового в ChatGPT Image 2?

ChatGPT Image 2.0 — это первая модель для генерации изображений от OpenAI, обладающая встроенными способностями к мышлению, что означает, что модель умеет планировать изображение, прежде чем его сгенерировать.

Она может сверять свой результат с промптом, перегенерировать несоответствующие части и даже загружать данные из Интернета в процессе генерации, если вы ее об этом попросите.

Еще одно важное нововведение — рендеринг текста. Все ИИ-модели изображений в истории испытывали сложности при генерациеи текстов. Искаженные буквы, слова с ошибками, перепутанные знаки. Images 2.0 — первая модель, при использовании которой, я могу попросить создать плакат с абзацем текста и действительно получить читаемый текст.

Посмотрите на это очень сложное изображение с огромным количеством текста и мелкими деталями. Я никогда не видел ни одной модели изображений, которая могла бы отобразить столько текста на одном изображении.

По информации OpenAI, модель была специально настроена для работы с небольшими текстами, элементами пользовательского интерфейса, диаграммами и сложными макетами, и это сразу видно.

Вот конкретные характеристики, о которых стоит знать:

Разрешение до 2K через API, 4K — в бета-версии
Соотношения сторон от 3:1 до 1:3, благодаря чему без дополнительных настроек отображаются как сверхширокие баннеры, так и сверхвысокие мобильные экраны
До 8 изображений на один промпт, при этом персонажи и объекты остаются неизменными во всем пакете
Многоязычная визуализация текста, что было одним из самых слабых мест всех конкурирующих моделей
Ограничение знаний декабрем 2025 года, что важно для любого промпта, содержащего ссылки на недавние события, логотипы или людей

OpenAI описывает эту модель не как традиционную систему диффузии, а как «универсальную модель» или «GPT для изображений», и сознательно не раскрывает её архитектуру. В зависимости от того, с какой стороны API вы находитесь, это может быть либо целесообразно с коммерческой точки зрения, либо вызывать разочарование. Для тех, кто занимается тонкой настройкой или созданием инфраструктуры на основе моделей для обработки изображений, такая закрытость представляет собой реальное ограничение.

В режиме «thinking» модель меняет свой характер.

Включите эту функцию, и модель будет работать дольше, расходовать больше токенов и генерировать заметно более согласованный результат для любых задач, связанных с несколькими объектами, точными пространственными связями или многослойным текстом.
Отключите эту функцию, и вы получите быстрый режим, который ближе к тому, как раньше работал GPT Image 1.5, но при этом даёт более четкий результат.

Пример: Винтажная японская газета о волшебстве и фэнтези

{  "type": "illustrated map infographic",  "style": "{argument name=\"art style\" default=\"watercolor and ink hand-drawn illustration on vintage parchment\"}",  "title_section": {    "text": "{argument name=\"city name\" default=\"成都\"} {argument name=\"map title\" default=\"吃货暴走地图\"}",    "mascot": "cartoon red chili pepper wearing sunglasses and giving a thumbs up"  },  "border": "{argument name=\"border decoration\" default=\"vine of green leaves and red chili peppers\"}",  "layout": {    "background": "textured beige parchment paper with yellow roads, blue rivers, and green park areas",    "sections": [      {        "title": "landmarks",        "count": 6,        "illustrations": ["traditional pavilion", "traditional monastery", "modern skyscraper with climbing panda", "tall TV tower", "traditional gate", "industrial buildings"],        "labels": ["人民公园", "文殊院", "IFS", "339电视塔", "宽窄巷子", "东郊记忆"]      },      {        "title": "food_spots",        "count": 12,        "illustrations": ["mapo tofu", "dumplings in chili oil", "skewers in pot", "sticky rice balls", "egg baking cake", "nine-grid hotpot", "sweet potato noodles", "cold skewers", "spicy mixed dish", "covered tea bowl", "ice jelly dessert", "spicy rabbit heads"],        "labels": ["1 陈麻婆豆腐", "2 钟水饺", "3 春熙路", "4 宽窄巷子·三大炮", "5 建设路·叶婆婆蛋烘糕", "6 玉林路·小龙坎火锅", "7 香香巷·肥肠粉", "8 武侯祠大街·钵钵鸡", "9 东郊记忆·冒椒火辣", "10 人民公园·鹤鸣茶社", "11 锦里古街·冰粉", "12 双流老妈兔头"]      },      {        "title": "图例",        "position": "bottom-right",        "count": 5,        "items": ["red dot", "green house", "green tree", "blue line", "yellow double line"],        "labels": ["美食地点", "地标景点", "公园绿地", "河流湖泊", "主要道路"]      }    ],    "centerpiece": "giant panda sitting and eating bamboo",    "bottom_right_extras": ["vintage compass rose with N, S, E, W", "disclaimer text '温馨提示：吃辣需谨慎，肠胃要保护~' with a red chili pepper icon"]  }}

Для чего можно использовать ChatGPT Image 2.0

Очевидный вариант применения — маркетинговые и дизайнерские материалы. Инфографика, афиши мероприятий, реклама в социальных сетях, обложки книг, презентации с настоящей типографикой.

Если вы разрабатываете интерфейс или страницу журнала, этот инструмент подойдет как нельзя лучше.

Это первая модель для создания изображений от OpenAI, которой я бы доверил создание готового материала для рекламной кампании без последующей доработки в Photoshop.

Еще одна группа пользователей, которой эта модель может показаться интересной, — это фотографы. Уровень реалистичности, которого с ее помощью можно достичь, просто потрясает. Вот пример:

Режим работы с несколькими изображениями — это именно тот режим, который незаметно станет самым важным. Если запросить восемь вариантов одного и того же персонажа в разных позах, модель сохранит согласованность во всех восьми. Одно это решает целую категорию задач, для приблизительного решения которых раньше требовались ControlNet, IP-Adapter и полный рабочий процесс ComfyUI.

Некоторые из конкретных примеров использования, которые OpenAI выделяет в документации для разработчиков, — это локализованная реклама, где текст переводится с одного языка на другой без повторного рендеринга всего изображения, образовательный контент с диаграммами, имеющими разборчивые подписи, и дизайнерские инструменты, позволяющие конечным пользователям генерировать готовые к использованию материалы.

Где это действительно полезно на практике:

Титульные слайды презентаций с читабельными заголовками
Макеты продуктов с элементами интерфейса и подписями к кнопкам, которые не выглядят бессмысленным набором букв
Научные постеры и диаграммы с точными подписями на осях
Кадры из манги и комиксов с персонажами, стиль которых остается неизменным на всех страницах
Многоязычные рекламные материалы для команд, работающих в разных регионах

В чем он по-прежнему не силен — это в том, с чем не справляются все модели обработки изображений. Руки в сложных позах. Точная анатомия в напряженных ситуациях. Отражения, подчиняющиеся законам физики. Эти аспекты улучшаются, но пока не решены.

С его помощью можно сделать просто огромное количество вещей. Лучший способ убедиться в этом — зайти на сайт chatgpt.com и создать изображение самостоятельно.

Как получить доступ и сколько он стоит

Каждый пользователь ChatGPT и Codex, включая пользователей бесплатной версии, получает доступ к быстрому режиму. Это настоящий прорыв. Бесплатные пользователи теперь имеют доступ к модели, которая еще год назад была бы доступна только по подписке.

Режим мышления, пакетная обработка нескольких изображений и генерация с учетом контекста веб-страниц доступны только для тарифных планов Plus (20 долларов в месяц), Pro (200 долларов в месяц), Business и Enterprise. Если вы используете бесплатный тарифный план и хотите протестировать возможности рассуждающей модели, вам придется перейти на платный тариф или воспользоваться API.

Что касается API, модель называется gpt-image-2. Плата за использование модели производится за токены:

$8 за миллион входных токенов изображений
$2 за миллион кэшированных входных изображений
$30 за миллион выходных токенов изображений
$5 за миллион входных токенов текста, $10 за выходные

Если говорить о конкретных цифрах, то сайт The Decoder провел расчеты с помощью калькулятора OpenAI и сообщил, что создание изображения размером 1024×1024 стоит около 0,006 доллара с низким качеством, 0,053 доллара со средним и 0,211 доллара с высоким. Изображение размером 1024×1536 с высоким качеством обходится дешевле — примерно 0,165 доллара.

Стоит отметить одну вещь. При стандартной настройке генерация изображения высокого качества 1024×1024 в gpt-image-2 на самом деле дороже, чем в GPT Image 1.5 ($0,211 против $0,133). При более высоких разрешениях она обходится дешевле. Поэтому, если вы переносите рабочий процесс, ваши расходы полностью зависят от того, какие размеры вы используете.

Полный API будет доступен всем разработчикам только в начале мая 2026 года.

Вот пример кода для генерации изображений на Javascript:

import OpenAI from "openai";const openai = new OpenAI();const response = await openai.responses.create({    model: "gpt-5.4",    input: "Generate an image of gray tabby cat hugging an otter with an orange scarf",    tools: [{type: "image_generation"}],});// Save the image to a fileconst imageData = response.output  .filter((output) => output.type === "image_generation_call")  .map((output) => output.result);if (imageData.length > 0) {  const imageBase64 = imageData[0];  const fs = await import("fs");  fs.writeFileSync("otter.png", Buffer.from(imageBase64, "base64"));}

Также вы можете включить потоковую передачу результатов, чтобы наблюдать за процессом создания изображения в режиме реального времени. Вот пример кода:

import OpenAI from "openai";import fs from "fs";const openai = new OpenAI();const stream = await openai.responses.create({  model: "gpt-5.4",  input:    "Draw a gorgeous image of a river made of white owl feathers, snaking its way through a serene winter landscape",  stream: true,  tools: [{ type: "image_generation", partial_images: 2 }],});for await (const event of stream) {  if (event.type === "response.image_generation_call.partial_image") {    const idx = event.partial_image_index;    const imageBase64 = event.partial_image_b64;    const imageBuffer = Buffer.from(imageBase64, "base64");    fs.writeFileSync(`river${idx}.png`, imageBuffer);  }}

Подробнее о различных способах создания изображений с помощью ChatGPT 2.0 через API можно узнать на странице с официальной документацией.

Ладно, на этом, пожалуй, всё.

На мой взгляд, внимание пользователей привлечёт именно рендеринг текста, и это вполне заслуженно. Но именно лежащая в основе этой технологии способность модели обрабатывать изображения и её умение анализировать собственные результаты позволяет увеличить варианты того, что можно создать с ее помощью.

Я бы хотел увидеть независимые тесты, прежде чем поверить утверждению, что это лучшая модель во всех категориях. Во многих публикациях, посвященных релизу, приводятся результаты Image Arena и собственные примеры OpenAI, а их легко подогнать под себя. Подождем месяц, пока люди попытаются найти в ней слабые места, и я смогу лучше понять, как она на самом деле выглядит по сравнению с Midjourney v7 и Imagen 4 от Google.

Попробуйте ChatGPT Image 2.0 и поделитесь своим мнением в комментариях!

ссылка на оригинал статьи https://habr.com/ru/articles/1027690/