OpenAI представила ChatGPT Image 2.0: как пользоваться, получить доступ и насколько она лучше конкурентов

от автора

Тогда как все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.

Он называется ChatGPT Image 2.0 и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений в ChatGPT.

На странице анонса почти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

Если открыть ChatGPT сейчас, вы увидите экран приветствия с описанием новой модели, а под полем ввода промпта расположена строка с шаблонами изображений.

На первый взгляд — незначительные изменения. Но то, что скрывается «под капотом», — это совершенно другая история. Еще одно обновление касается шаблонов изображений, которые можно выбрать под полем для ввода промпта.

На данный момент доступно 19 предустановок, и в будущем их количество, вероятно, увеличится.

Изменение названия, которое вы, скорее всего, не заметили

Прежде чем перейти к примерам, давайте поговорим о новом названии.

Если вы на протяжении нескольких лет следили за развитием сферы генерации изображений с помощью ИИ, то знаете, что OpenAI меняла название своей модели для генерации изображений практически каждый раз, когда выпускала новую версию.

История названий выглядит следующим образом.

  • DALL-E в январе 2021 года.

  • DALL-E 2 в 2022 году.

  • DALL-E 3 в 2023 году, который был интегрирован в ChatGPT на протяжении около восемнадцати месяцев.

  • В марте 2025 года OpenAI отказалась от бренда DALL-E в ChatGPT и представила собственную систему для генерации изображений под новым названием GPT Image 1.

  • В декабре 2025 года ее заменила GPT Image 1.5, более быстрая и дешевая.

  • И вот теперь, в апреле 2026 года, появилась ChatGPT Image 2.0.

Таким образом, менее чем за пять лет использовалось шесть названий, три разных схемы наименования и одна модельная линейка, которая незаметно прошла процесс слияния.

И чтобы окончательно закрыть эту эпоху, 12 мая 2026 года DALL-E 2 и DALL-E 3 перестанут работать через API. Если вы до сих пор используете эти интерфейсы, у вас есть несколько недель на переход.

Что нового в ChatGPT Image 2?

ChatGPT Image 2.0 — это первая модель для генерации изображений от OpenAI, обладающая встроенными способностями к мышлению, что означает, что модель умеет планировать изображение, прежде чем его сгенерировать.

Она может сверять свой результат с промптом, перегенерировать несоответствующие части и даже загружать данные из Интернета в процессе генерации, если вы ее об этом попросите.

Еще одно важное нововведение — рендеринг текста. Все ИИ-модели изображений в истории испытывали сложности при генерациеи текстов. Искаженные буквы, слова с ошибками, перепутанные знаки. Images 2.0 — первая модель, при использовании которой, я могу попросить создать плакат с абзацем текста и действительно получить читаемый текст.

Посмотрите на это очень сложное изображение с огромным количеством текста и мелкими деталями. Я никогда не видел ни одной модели изображений, которая могла бы отобразить столько текста на одном изображении.

По информации OpenAI, модель была специально настроена для работы с небольшими текстами, элементами пользовательского интерфейса, диаграммами и сложными макетами, и это сразу видно.

Вот конкретные характеристики, о которых стоит знать:

  • Разрешение до 2K через API, 4K — в бета-версии

  • Соотношения сторон от 3:1 до 1:3, благодаря чему без дополнительных настроек отображаются как сверхширокие баннеры, так и сверхвысокие мобильные экраны

  • До 8 изображений на один промпт, при этом персонажи и объекты остаются неизменными во всем пакете

  • Многоязычная визуализация текста, что было одним из самых слабых мест всех конкурирующих моделей

  • Ограничение знаний декабрем 2025 года, что важно для любого промпта, содержащего ссылки на недавние события, логотипы или людей

OpenAI описывает эту модель не как традиционную систему диффузии, а как «универсальную модель» или «GPT для изображений», и сознательно не раскрывает её архитектуру. В зависимости от того, с какой стороны API вы находитесь, это может быть либо целесообразно с коммерческой точки зрения, либо вызывать разочарование. Для тех, кто занимается тонкой настройкой или созданием инфраструктуры на основе моделей для обработки изображений, такая закрытость представляет собой реальное ограничение.

В режиме «thinking» модель меняет свой характер.

  • Включите эту функцию, и модель будет работать дольше, расходовать больше токенов и генерировать заметно более согласованный результат для любых задач, связанных с несколькими объектами, точными пространственными связями или многослойным текстом.

  • Отключите эту функцию, и вы получите быстрый режим, который ближе к тому, как раньше работал GPT Image 1.5, но при этом даёт более четкий результат.

Пример: Винтажная японская газета о волшебстве и фэнтези

{  "type": "illustrated map infographic",  "style": "{argument name=\"art style\" default=\"watercolor and ink hand-drawn illustration on vintage parchment\"}",  "title_section": {    "text": "{argument name=\"city name\" default=\"成都\"} {argument name=\"map title\" default=\"吃货暴走地图\"}",    "mascot": "cartoon red chili pepper wearing sunglasses and giving a thumbs up"  },  "border": "{argument name=\"border decoration\" default=\"vine of green leaves and red chili peppers\"}",  "layout": {    "background": "textured beige parchment paper with yellow roads, blue rivers, and green park areas",    "sections": [      {        "title": "landmarks",        "count": 6,        "illustrations": ["traditional pavilion", "traditional monastery", "modern skyscraper with climbing panda", "tall TV tower", "traditional gate", "industrial buildings"],        "labels": ["人民公园", "文殊院", "IFS", "339电视塔", "宽窄巷子", "东郊记忆"]      },      {        "title": "food_spots",        "count": 12,        "illustrations": ["mapo tofu", "dumplings in chili oil", "skewers in pot", "sticky rice balls", "egg baking cake", "nine-grid hotpot", "sweet potato noodles", "cold skewers", "spicy mixed dish", "covered tea bowl", "ice jelly dessert", "spicy rabbit heads"],        "labels": ["1 陈麻婆豆腐", "2 钟水饺", "3 春熙路", "4 宽窄巷子·三大炮", "5 建设路·叶婆婆蛋烘糕", "6 玉林路·小龙坎火锅", "7 香香巷·肥肠粉", "8 武侯祠大街·钵钵鸡", "9 东郊记忆·冒椒火辣", "10 人民公园·鹤鸣茶社", "11 锦里古街·冰粉", "12 双流老妈兔头"]      },      {        "title": "图例",        "position": "bottom-right",        "count": 5,        "items": ["red dot", "green house", "green tree", "blue line", "yellow double line"],        "labels": ["美食地点", "地标景点", "公园绿地", "河流湖泊", "主要道路"]      }    ],    "centerpiece": "giant panda sitting and eating bamboo",    "bottom_right_extras": ["vintage compass rose with N, S, E, W", "disclaimer text '温馨提示:吃辣需谨慎,肠胃要保护~' with a red chili pepper icon"]  }}

Для чего можно использовать ChatGPT Image 2.0

Очевидный вариант применения — маркетинговые и дизайнерские материалы. Инфографика, афиши мероприятий, реклама в социальных сетях, обложки книг, презентации с настоящей типографикой.

Если вы разрабатываете интерфейс или страницу журнала, этот инструмент подойдет как нельзя лучше.

Это первая модель для создания изображений от OpenAI, которой я бы доверил создание готового материала для рекламной кампании без последующей доработки в Photoshop.

Еще одна группа пользователей, которой эта модель может показаться интересной, — это фотографы. Уровень реалистичности, которого с ее помощью можно достичь, просто потрясает. Вот пример:

Режим работы с несколькими изображениями — это именно тот режим, который незаметно станет самым важным. Если запросить восемь вариантов одного и того же персонажа в разных позах, модель сохранит согласованность во всех восьми. Одно это решает целую категорию задач, для приблизительного решения которых раньше требовались ControlNet, IP-Adapter и полный рабочий процесс ComfyUI.

Некоторые из конкретных примеров использования, которые OpenAI выделяет в документации для разработчиков, — это локализованная реклама, где текст переводится с одного языка на другой без повторного рендеринга всего изображения, образовательный контент с диаграммами, имеющими разборчивые подписи, и дизайнерские инструменты, позволяющие конечным пользователям генерировать готовые к использованию материалы.

Где это действительно полезно на практике:

  • Титульные слайды презентаций с читабельными заголовками

  • Макеты продуктов с элементами интерфейса и подписями к кнопкам, которые не выглядят бессмысленным набором букв

  • Научные постеры и диаграммы с точными подписями на осях

  • Кадры из манги и комиксов с персонажами, стиль которых остается неизменным на всех страницах

  • Многоязычные рекламные материалы для команд, работающих в разных регионах

В чем он по-прежнему не силен — это в том, с чем не справляются все модели обработки изображений. Руки в сложных позах. Точная анатомия в напряженных ситуациях. Отражения, подчиняющиеся законам физики. Эти аспекты улучшаются, но пока не решены.

С его помощью можно сделать просто огромное количество вещей. Лучший способ убедиться в этом — зайти на сайт chatgpt.com и создать изображение самостоятельно.

Как получить доступ и сколько он стоит

Каждый пользователь ChatGPT и Codex, включая пользователей бесплатной версии, получает доступ к быстрому режиму. Это настоящий прорыв. Бесплатные пользователи теперь имеют доступ к модели, которая еще год назад была бы доступна только по подписке.

Режим мышления, пакетная обработка нескольких изображений и генерация с учетом контекста веб-страниц доступны только для тарифных планов Plus (20 долларов в месяц), Pro (200 долларов в месяц), Business и Enterprise. Если вы используете бесплатный тарифный план и хотите протестировать возможности рассуждающей модели, вам придется перейти на платный тариф или воспользоваться API.

Что касается API, модель называется gpt-image-2. Плата за использование модели производится за токены:

  • $8 за миллион входных токенов изображений

  • $2 за миллион кэшированных входных изображений

  • $30 за миллион выходных токенов изображений

  • $5 за миллион входных токенов текста, $10 за выходные

Если говорить о конкретных цифрах, то сайт The Decoder провел расчеты с помощью калькулятора OpenAI и сообщил, что создание изображения размером 1024×1024 стоит около 0,006 доллара с низким качеством, 0,053 доллара со средним и 0,211 доллара с высоким. Изображение размером 1024×1536 с высоким качеством обходится дешевле — примерно 0,165 доллара.

Стоит отметить одну вещь. При стандартной настройке генерация изображения высокого качества 1024×1024 в gpt-image-2 на самом деле дороже, чем в GPT Image 1.5 ($0,211 против $0,133). При более высоких разрешениях она обходится дешевле. Поэтому, если вы переносите рабочий процесс, ваши расходы полностью зависят от того, какие размеры вы используете.

Полный API будет доступен всем разработчикам только в начале мая 2026 года.

Вот пример кода для генерации изображений на Javascript:

import OpenAI from "openai";const openai = new OpenAI();const response = await openai.responses.create({    model: "gpt-5.4",    input: "Generate an image of gray tabby cat hugging an otter with an orange scarf",    tools: [{type: "image_generation"}],});// Save the image to a fileconst imageData = response.output  .filter((output) => output.type === "image_generation_call")  .map((output) => output.result);if (imageData.length > 0) {  const imageBase64 = imageData[0];  const fs = await import("fs");  fs.writeFileSync("otter.png", Buffer.from(imageBase64, "base64"));}

Также вы можете включить потоковую передачу результатов, чтобы наблюдать за процессом создания изображения в режиме реального времени. Вот пример кода:

import OpenAI from "openai";import fs from "fs";const openai = new OpenAI();const stream = await openai.responses.create({  model: "gpt-5.4",  input:    "Draw a gorgeous image of a river made of white owl feathers, snaking its way through a serene winter landscape",  stream: true,  tools: [{ type: "image_generation", partial_images: 2 }],});for await (const event of stream) {  if (event.type === "response.image_generation_call.partial_image") {    const idx = event.partial_image_index;    const imageBase64 = event.partial_image_b64;    const imageBuffer = Buffer.from(imageBase64, "base64");    fs.writeFileSync(`river${idx}.png`, imageBuffer);  }}

Подробнее о различных способах создания изображений с помощью ChatGPT 2.0 через API можно узнать на странице с официальной документацией.


Ладно, на этом, пожалуй, всё.

На мой взгляд, внимание пользователей привлечёт именно рендеринг текста, и это вполне заслуженно. Но именно лежащая в основе этой технологии способность модели обрабатывать изображения и её умение анализировать собственные результаты позволяет увеличить варианты того, что можно создать с ее помощью.

Я бы хотел увидеть независимые тесты, прежде чем поверить утверждению, что это лучшая модель во всех категориях. Во многих публикациях, посвященных релизу, приводятся результаты Image Arena и собственные примеры OpenAI, а их легко подогнать под себя. Подождем месяц, пока люди попытаются найти в ней слабые места, и я смогу лучше понять, как она на самом деле выглядит по сравнению с Midjourney v7 и Imagen 4 от Google.

Попробуйте ChatGPT Image 2.0 и поделитесь своим мнением в комментариях!

ссылка на оригинал статьи https://habr.com/ru/articles/1027690/