
Тогда как все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.
Он называется ChatGPT Image 2.0 и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений в ChatGPT.
На странице анонса почти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

Если открыть ChatGPT сейчас, вы увидите экран приветствия с описанием новой модели, а под полем ввода промпта расположена строка с шаблонами изображений.

На первый взгляд — незначительные изменения. Но то, что скрывается «под капотом», — это совершенно другая история. Еще одно обновление касается шаблонов изображений, которые можно выбрать под полем для ввода промпта.

На данный момент доступно 19 предустановок, и в будущем их количество, вероятно, увеличится.
Изменение названия, которое вы, скорее всего, не заметили
Прежде чем перейти к примерам, давайте поговорим о новом названии.
Если вы на протяжении нескольких лет следили за развитием сферы генерации изображений с помощью ИИ, то знаете, что OpenAI меняла название своей модели для генерации изображений практически каждый раз, когда выпускала новую версию.
История названий выглядит следующим образом.
-
DALL-E в январе 2021 года.
-
DALL-E 2 в 2022 году.
-
DALL-E 3 в 2023 году, который был интегрирован в ChatGPT на протяжении около восемнадцати месяцев.
-
В марте 2025 года OpenAI отказалась от бренда DALL-E в ChatGPT и представила собственную систему для генерации изображений под новым названием GPT Image 1.
-
В декабре 2025 года ее заменила GPT Image 1.5, более быстрая и дешевая.
-
И вот теперь, в апреле 2026 года, появилась ChatGPT Image 2.0.
Таким образом, менее чем за пять лет использовалось шесть названий, три разных схемы наименования и одна модельная линейка, которая незаметно прошла процесс слияния.
И чтобы окончательно закрыть эту эпоху, 12 мая 2026 года DALL-E 2 и DALL-E 3 перестанут работать через API. Если вы до сих пор используете эти интерфейсы, у вас есть несколько недель на переход.
Что нового в ChatGPT Image 2?
ChatGPT Image 2.0 — это первая модель для генерации изображений от OpenAI, обладающая встроенными способностями к мышлению, что означает, что модель умеет планировать изображение, прежде чем его сгенерировать.
Она может сверять свой результат с промптом, перегенерировать несоответствующие части и даже загружать данные из Интернета в процессе генерации, если вы ее об этом попросите.
Еще одно важное нововведение — рендеринг текста. Все ИИ-модели изображений в истории испытывали сложности при генерациеи текстов. Искаженные буквы, слова с ошибками, перепутанные знаки. Images 2.0 — первая модель, при использовании которой, я могу попросить создать плакат с абзацем текста и действительно получить читаемый текст.
Посмотрите на это очень сложное изображение с огромным количеством текста и мелкими деталями. Я никогда не видел ни одной модели изображений, которая могла бы отобразить столько текста на одном изображении.

По информации OpenAI, модель была специально настроена для работы с небольшими текстами, элементами пользовательского интерфейса, диаграммами и сложными макетами, и это сразу видно.
Вот конкретные характеристики, о которых стоит знать:
-
Разрешение до 2K через API, 4K — в бета-версии
-
Соотношения сторон от 3:1 до 1:3, благодаря чему без дополнительных настроек отображаются как сверхширокие баннеры, так и сверхвысокие мобильные экраны
-
До 8 изображений на один промпт, при этом персонажи и объекты остаются неизменными во всем пакете
-
Многоязычная визуализация текста, что было одним из самых слабых мест всех конкурирующих моделей
-
Ограничение знаний декабрем 2025 года, что важно для любого промпта, содержащего ссылки на недавние события, логотипы или людей
OpenAI описывает эту модель не как традиционную систему диффузии, а как «универсальную модель» или «GPT для изображений», и сознательно не раскрывает её архитектуру. В зависимости от того, с какой стороны API вы находитесь, это может быть либо целесообразно с коммерческой точки зрения, либо вызывать разочарование. Для тех, кто занимается тонкой настройкой или созданием инфраструктуры на основе моделей для обработки изображений, такая закрытость представляет собой реальное ограничение.
В режиме «thinking» модель меняет свой характер.
-
Включите эту функцию, и модель будет работать дольше, расходовать больше токенов и генерировать заметно более согласованный результат для любых задач, связанных с несколькими объектами, точными пространственными связями или многослойным текстом.
-
Отключите эту функцию, и вы получите быстрый режим, который ближе к тому, как раньше работал GPT Image 1.5, но при этом даёт более четкий результат.
Пример: Винтажная японская газета о волшебстве и фэнтези
{ "type": "illustrated map infographic", "style": "{argument name=\"art style\" default=\"watercolor and ink hand-drawn illustration on vintage parchment\"}", "title_section": { "text": "{argument name=\"city name\" default=\"成都\"} {argument name=\"map title\" default=\"吃货暴走地图\"}", "mascot": "cartoon red chili pepper wearing sunglasses and giving a thumbs up" }, "border": "{argument name=\"border decoration\" default=\"vine of green leaves and red chili peppers\"}", "layout": { "background": "textured beige parchment paper with yellow roads, blue rivers, and green park areas", "sections": [ { "title": "landmarks", "count": 6, "illustrations": ["traditional pavilion", "traditional monastery", "modern skyscraper with climbing panda", "tall TV tower", "traditional gate", "industrial buildings"], "labels": ["人民公园", "文殊院", "IFS", "339电视塔", "宽窄巷子", "东郊记忆"] }, { "title": "food_spots", "count": 12, "illustrations": ["mapo tofu", "dumplings in chili oil", "skewers in pot", "sticky rice balls", "egg baking cake", "nine-grid hotpot", "sweet potato noodles", "cold skewers", "spicy mixed dish", "covered tea bowl", "ice jelly dessert", "spicy rabbit heads"], "labels": ["1 陈麻婆豆腐", "2 钟水饺", "3 春熙路", "4 宽窄巷子·三大炮", "5 建设路·叶婆婆蛋烘糕", "6 玉林路·小龙坎火锅", "7 香香巷·肥肠粉", "8 武侯祠大街·钵钵鸡", "9 东郊记忆·冒椒火辣", "10 人民公园·鹤鸣茶社", "11 锦里古街·冰粉", "12 双流老妈兔头"] }, { "title": "图例", "position": "bottom-right", "count": 5, "items": ["red dot", "green house", "green tree", "blue line", "yellow double line"], "labels": ["美食地点", "地标景点", "公园绿地", "河流湖泊", "主要道路"] } ], "centerpiece": "giant panda sitting and eating bamboo", "bottom_right_extras": ["vintage compass rose with N, S, E, W", "disclaimer text '温馨提示:吃辣需谨慎,肠胃要保护~' with a red chili pepper icon"] }}

Для чего можно использовать ChatGPT Image 2.0
Очевидный вариант применения — маркетинговые и дизайнерские материалы. Инфографика, афиши мероприятий, реклама в социальных сетях, обложки книг, презентации с настоящей типографикой.
Если вы разрабатываете интерфейс или страницу журнала, этот инструмент подойдет как нельзя лучше.

Это первая модель для создания изображений от OpenAI, которой я бы доверил создание готового материала для рекламной кампании без последующей доработки в Photoshop.
Еще одна группа пользователей, которой эта модель может показаться интересной, — это фотографы. Уровень реалистичности, которого с ее помощью можно достичь, просто потрясает. Вот пример:

Режим работы с несколькими изображениями — это именно тот режим, который незаметно станет самым важным. Если запросить восемь вариантов одного и того же персонажа в разных позах, модель сохранит согласованность во всех восьми. Одно это решает целую категорию задач, для приблизительного решения которых раньше требовались ControlNet, IP-Adapter и полный рабочий процесс ComfyUI.
Некоторые из конкретных примеров использования, которые OpenAI выделяет в документации для разработчиков, — это локализованная реклама, где текст переводится с одного языка на другой без повторного рендеринга всего изображения, образовательный контент с диаграммами, имеющими разборчивые подписи, и дизайнерские инструменты, позволяющие конечным пользователям генерировать готовые к использованию материалы.
Где это действительно полезно на практике:
-
Титульные слайды презентаций с читабельными заголовками
-
Макеты продуктов с элементами интерфейса и подписями к кнопкам, которые не выглядят бессмысленным набором букв
-
Научные постеры и диаграммы с точными подписями на осях
-
Кадры из манги и комиксов с персонажами, стиль которых остается неизменным на всех страницах
-
Многоязычные рекламные материалы для команд, работающих в разных регионах
В чем он по-прежнему не силен — это в том, с чем не справляются все модели обработки изображений. Руки в сложных позах. Точная анатомия в напряженных ситуациях. Отражения, подчиняющиеся законам физики. Эти аспекты улучшаются, но пока не решены.
С его помощью можно сделать просто огромное количество вещей. Лучший способ убедиться в этом — зайти на сайт chatgpt.com и создать изображение самостоятельно.
Как получить доступ и сколько он стоит
Каждый пользователь ChatGPT и Codex, включая пользователей бесплатной версии, получает доступ к быстрому режиму. Это настоящий прорыв. Бесплатные пользователи теперь имеют доступ к модели, которая еще год назад была бы доступна только по подписке.
Режим мышления, пакетная обработка нескольких изображений и генерация с учетом контекста веб-страниц доступны только для тарифных планов Plus (20 долларов в месяц), Pro (200 долларов в месяц), Business и Enterprise. Если вы используете бесплатный тарифный план и хотите протестировать возможности рассуждающей модели, вам придется перейти на платный тариф или воспользоваться API.
Что касается API, модель называется gpt-image-2. Плата за использование модели производится за токены:

-
$8 за миллион входных токенов изображений
-
$2 за миллион кэшированных входных изображений
-
$30 за миллион выходных токенов изображений
-
$5 за миллион входных токенов текста, $10 за выходные
Если говорить о конкретных цифрах, то сайт The Decoder провел расчеты с помощью калькулятора OpenAI и сообщил, что создание изображения размером 1024×1024 стоит около 0,006 доллара с низким качеством, 0,053 доллара со средним и 0,211 доллара с высоким. Изображение размером 1024×1536 с высоким качеством обходится дешевле — примерно 0,165 доллара.
Стоит отметить одну вещь. При стандартной настройке генерация изображения высокого качества 1024×1024 в gpt-image-2 на самом деле дороже, чем в GPT Image 1.5 ($0,211 против $0,133). При более высоких разрешениях она обходится дешевле. Поэтому, если вы переносите рабочий процесс, ваши расходы полностью зависят от того, какие размеры вы используете.
Полный API будет доступен всем разработчикам только в начале мая 2026 года.
Вот пример кода для генерации изображений на Javascript:
import OpenAI from "openai";const openai = new OpenAI();const response = await openai.responses.create({ model: "gpt-5.4", input: "Generate an image of gray tabby cat hugging an otter with an orange scarf", tools: [{type: "image_generation"}],});// Save the image to a fileconst imageData = response.output .filter((output) => output.type === "image_generation_call") .map((output) => output.result);if (imageData.length > 0) { const imageBase64 = imageData[0]; const fs = await import("fs"); fs.writeFileSync("otter.png", Buffer.from(imageBase64, "base64"));}
Также вы можете включить потоковую передачу результатов, чтобы наблюдать за процессом создания изображения в режиме реального времени. Вот пример кода:
import OpenAI from "openai";import fs from "fs";const openai = new OpenAI();const stream = await openai.responses.create({ model: "gpt-5.4", input: "Draw a gorgeous image of a river made of white owl feathers, snaking its way through a serene winter landscape", stream: true, tools: [{ type: "image_generation", partial_images: 2 }],});for await (const event of stream) { if (event.type === "response.image_generation_call.partial_image") { const idx = event.partial_image_index; const imageBase64 = event.partial_image_b64; const imageBuffer = Buffer.from(imageBase64, "base64"); fs.writeFileSync(`river${idx}.png`, imageBuffer); }}
Подробнее о различных способах создания изображений с помощью ChatGPT 2.0 через API можно узнать на странице с официальной документацией.
Ладно, на этом, пожалуй, всё.
На мой взгляд, внимание пользователей привлечёт именно рендеринг текста, и это вполне заслуженно. Но именно лежащая в основе этой технологии способность модели обрабатывать изображения и её умение анализировать собственные результаты позволяет увеличить варианты того, что можно создать с ее помощью.
Я бы хотел увидеть независимые тесты, прежде чем поверить утверждению, что это лучшая модель во всех категориях. Во многих публикациях, посвященных релизу, приводятся результаты Image Arena и собственные примеры OpenAI, а их легко подогнать под себя. Подождем месяц, пока люди попытаются найти в ней слабые места, и я смогу лучше понять, как она на самом деле выглядит по сравнению с Midjourney v7 и Imagen 4 от Google.
Попробуйте ChatGPT Image 2.0 и поделитесь своим мнением в комментариях!
ссылка на оригинал статьи https://habr.com/ru/articles/1027690/