Нативная генерация изображений в GPT-4o: как получить доступ, примеры генерации и редактирования изображений

Когда Google представила Gemini 2.0 Flash, я думал, что она на некоторое время займет трон лучшей ИИ-модели для редактирования изображений, но я ошибся. Сегодня OpenAI выпустила GPT-4o с нативной генерацией изображений. Эта новая модель позволяет генерировать изображения, редактировать одно изображение с помощью текстовых промптов и даже объединять несколько изображений в одно.

В отличие от предыдущего генератора изображений в ChatGPT на базе Dall-E 3, новый генератор изображений является частью модели GPT-4o. Да, GPT-4o — это «омнимодальная» модель, способная обрабатывать и генерировать текст, аудио и изображения.

Переход от отдельных моделей к встроенной интеграции в GPT-4o — это огромное достижение, которое повышает производительность и возможности за счет более тесной связи понимания языка и визуального синтеза.

Первоначальный доступ к этой новой функции будет открыт для пользователей Plus, Pro, Team и Free ChatGPT начиная с марта 2025 года. Ожидается, что в скором времени появится доступ для корпоративных пользователей и пользователей образовательных учреждений, а также доступ к API для разработчиков.

Если вы хотите узнать больше о том, как это работает, ознакомьтесь с этим техническим документом.

Как получить доступ

Есть несколько способов попробовать новую модель:

ChatGPT. Это самый простой и понятный способ попробовать новый генератор и редактор изображений. Обновите десктопное приложение ChatGPT или зайдите на chatgpt.com и опишите изображение, которое вы хотите сгенерировать.
Sora. Обратите внимание, что OpenAI добавил новую вкладку «Изображения» на левой панели сайта. С помощью Sora вы можете изменить или превратить изображение в видео.

Примеры генерации изображений

Давайте начнем с создания изображений. Лично я никогда не использовал ChatGPT для генерации изображений, потому что качество Dall-E 3 было низким, а соотношение сторон всегда оставалось 1:1. Однако с недавним обновлением GPT-4o качество значительно улучшилось, а соотношение сторон теперь можно настраивать.

Я сам попробовал это сделать, и результаты получились такими же впечатляющими, как и на примерах.

Промпт: Generate a photorealistic image of farmer’s market in toronto on a saturday in summer 2006, it’s a beautiful late june day, people are shopping and eating sandwiches. in focus should be a young asian girl wearing denim overalls and sipping on a strawberry banana smoothie — rest can be blurred. the photo should be reminiscent of that a digital camera from 2006 would take, with a timestamp like a printed photo would have. aspect ratio should be 3:2

Посмотрите, насколько детализирован и физически точен объект на изображении. Даже люди на заднем плане отображаются правильно, несмотря на то, что они не в фокусе.

Давайте проведем небольшое сравнение результатов, полученных в GPT-4o и Flux 1.1 Pro Ultra.

Промпт: Generate a candid, Polaroid-style photograph of four diverse friends in their early 20s at a gritty dive bar. The lighting features a very harsh, direct flash, creating sharp shadows and giving the photo a very overexposed, vintage instant-camera feel. Colors should be slightly muted, evoking nostalgic, early-2000s party vibes. The aesthetic is casually emo. No border or logos or signs. There’s an interesting looking wall behind them with some light graffiti. Quality of the image should be very sharp and detailed (very little grain). The energy should be silly and chaotic. They’re either playfully grimacing, smiling, or pretending to look tough. One of them should have their friend in a silly, playful headlock. Their mouths are closed.

Как вы думаете, какое из изображений выглядит лучше? Оба выглядят великолепно, так что все сводится к предпочтениям. Но мне кажется, что Flux передал эффект полароида гораздо лучше, чем ChatGPT.

Рендеринг текста

Значительным улучшением в генерации изображений в GPT-4o является улучшенная способность точного рендеринга текста на изображениях. Взгляните на пример ниже:

Промпт: In solid white san serif text, “Нейросети: Волшебство ИИ” in the top left, about a third of the way down. In solid white san serif text, “Подпишитесь в телеграм @neyroseti_dr”, in the bottom right, about a third of the way up. In the background, put a photo of a really sleek, modern sculpture. It should gradually transition from a wireframe sketch on the left to the fully photorealistic version on the right. Make the image 16:9

Да, здесь есть странная обрезка текста, но что ж поделать! Потратьте минуту, чтобы оценить этот дизайн. Теперь ChatGPT может стать вашим штатным графическим дизайнером.

Улучшенный рендеринг текста — это значительное усовершенствование по сравнению с предыдущими моделями, которое открывает множество практических возможностей, таких как создание ресторанных меню с разборчивым текстом, создание приглашений с точными текстами и создание учебных диаграмм с четкими надписями.

Примеры редактирования изображений

Вы даже можете создать индивидуальную рекламу продукта в одном кадре, как это сделал Джейкоб Посел на сайте X. Кому теперь нужен графический дизайнер?

Он даже попытался загрузить два изображения и попросил ChatGPT объединить элементы на двух фотографиях, чтобы создать потрясающий дизайн рекламы продукта.

Это, пожалуй, один из самых крутых примеров использования, которые я видел до сих пор, а также принципиально новый для графических дизайнеров и маркетологов.

Вот еще один пример от Умеша, показывающий возможности GPT-4o по преобразованию 2D-изображений в фотореалистичные 3D-изображения.

Доступность API

Как и многие другие разработчики, я с нетерпением жду возможности получить доступ к новой модели по API. Однако по состоянию на март 2025 года у пользователей пока еще нет доступа к API для нативной генерации изображений в GPT-4o, но в скором времени он должен появиться.

В то время как эта функция была быстро запущена у всех пользователей ChatGPT на разных тарифных планах, задержка с доступом к API указывает на поэтапную стратегию внедрения. Это может быть способом управления вычислительными нагрузками и сбора отзывов от первых пользователей, прежде чем сделать ее доступной для более широкой аудитории разработчиков.

Безопасность и маркировка

Чтобы все было прозрачно и безопасно, каждое изображение, сделанное с помощью GPT-4o, содержит метаданные C2PA. Это означает, что вы сможете проверить, было ли изображение сгенерировано ИИ.

Хотя метаданные C2PA представляют собой ценный механизм для идентификации сгенерированного ИИ контента, важно признать их ограниченность. Потенциально метаданные могут быть удалены с изображения с относительной легкостью, что означает, что они могут быть не совсем эффективны для предотвращения распространения дезинформации или неправильного использования изображений, созданных ИИ.

OpenAI также создала инструмент, который помогает обнаружить изображения, созданные GPT-4o, и установила строгие правила для блокировки вредных материалов — например, откровенных, вводящих в заблуждение или оскорбительных.

Они особенно осторожны, когда речь идет об изображениях с реальными людьми, и устанавливают более строгие ограничения. Чтобы обеспечить безопасность детей, классификатор фотореалистичных людей принимает загруженное изображение (изображения) и выдает одну из трех меток:

Нет фотореалистичного человека
Фотореалистичный взрослый
Фотореалистичный ребенок

Если изображение содержит как фотореалистичного взрослого, так и фотореалистичного ребенка, классификатор должен выдать значение «фотореалистичный ребенок».

Генеральный директор OpenAI Сэм Альтман назвал этот релиз «новой высшей точкой творческой свободы». Цель состоит в том, чтобы предоставить пользователям широкие возможности для творчества, а OpenAI в это время наблюдает за тем, как их используют, и продолжает совершенствовать их по мере продвижения.

Я уже был потрясен, когда Google выпустила Gemini 2.0 Flash с нативной генерацией изображений, но еще большее впечатление на меня произвела обновленная модель GPT-4o от OpenAI. Я ожидаю, что другие конкуренты, такие как xAI, Black Forest Labs или даже Midjourney, выпустят аналогичные функции для своих собственных моделей изображений.

Расширенные возможности модели в области рендеринга текста, следования инструкциям и использования знаний о мире делают ее мощным инструментом для широкого спектра приложений в творческой, коммерческой, образовательной и исследовательской сферах.

Может ли это также положить конец карьере графических дизайнеров? Может ли это убить Photoshop? Может ли это привести к перенасыщению интернета посредственным контентом, созданным ИИ? А как насчет дипфейков? Помимо всех положительных моментов, есть еще масса вопросов, которые необходимо решить. Очень важно продолжать рассматривать этические аспекты и протоколы безопасности, связанные с такими мощными генеративными моделями, чтобы обеспечить их ответственное и полезное применение.

Пока же давайте продолжим наблюдать за тем, какие варианты использования этого нового инструмента появятся у людей. По мере того как разработчики будут получать доступ к API, мы можем прогнозировать увеличение числа разнообразных приложений, использующих уникальные возможности генерации изображений в GPT-4o. Как разработчик, я сам с нетерпением жду возможности интегрировать это в свои продукты.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений — я стараюсь делиться только полезной информацией.

ссылка на оригинал статьи https://habr.com/ru/articles/894720/