Генерируем фотореалистичные изображения

от автора

Привет, меня зовут Николай Разумовский, я дизайнер в команде цифровой трансформации Ареал. Как дизайнер я регулярно сталкиваюсь с задачей: нужно быстро получить уникальные изображения для интернет-магазинов, корпоративных сайтов, лендингов и презентаций. Если опираться только на стоки, процесс затягивается, а визуально проекты становятся похожими друг на друга.

Генерация через нейросети решает сразу несколько задач:

  • Скорость. Вместо нескольких часов поиска на стоках — несколько минут на генерацию.

  • Уникальность. Можно управлять практически всем: композицией, освещением, цветом, материалами, эмоцией и окружением. Это позволяет собирать изображения под конкретный продукт.

  • Соответствие бренду. Генерации проще подстраивать под фирменную палитру, стиль и визуальный язык продукта.

  • Снижение рисков с лицензированием. Здесь важно быть аккуратными с формулировками: ИИ-изображения действительно упрощают работу с правами по сравнению со стоками, но не отменяют юридические ограничения полностью. Если вы планируете коммерческое использование, проверьте условия лицензии конкретного сервиса и учитывайте особенности своей юрисдикции.

При этом нейросети пока не заменяют дизайнера. Хороший результат всё ещё зависит от насмотренности, понимания композиции, света и умения формулировать задачу.

Я выработал схему генерации, которая помогает мне быстро и эффективно создавать фотореалистичные изображения для проектов.

Настройка стека

Важно отметить, что я работаю с MidJourney через официальный бот на сервер Discord. Покупаю подписку на внешних агрегаторах именно для использования бота. Если работать с MidJourney напрямую, могут возникнуть сложности: блокировка по региону, принудительная смена пароля при работе из общего аккаунта. Дополнительно в боте есть удобные кнопки увеличения разрешения (U — Upscale), генерации вариаций (V — Variation), повторной генерации (Reroll). Не нужно переписывать промпт. Изменения происходят в реальном времени, результат сразу виден в чате.

В этой связке используются четыре сервиса:

  • Discord — как рабочая среда. Работает бесплатно на Windows, macOS, Linux, Web. Кроме web-версии есть приложение. Создайте аккаунт.

  • GPT Plus — для подготовки промптов. Зарегистрируйтесь в GPT и купите Plus. Plus нужен, чтобы снять ограничения обработки изображений-рефов.

  • MidJourney — для основной генерации. Лучше регистрироваться через аккаунт Discord — так вы сразу получите доступ к серверу MidJourney на платформе.

  • Stable Diffusion — генератор для точечной доработки изображений. Работает бесплатно на Windows, macOS, Linux. Установите локально. Можно воспользоваться готовой сборкой (Automatic1111, ComfyUI). Не придется разбираться с Python, CUDA и сложной настройкой. Гайд для видеокарт NVIDIA, гайд для видеокарт Radeon

Связка Discord с MidJourney bot

MidJourney bot можно найти:

  • через общий поиск

  • через поиск в списке приложений

  • в одном из каналов (status, daily theme, newbies даже если канал архивирован)

Работа с ботом ведется через личные сообщения, либо через добавление его к себе на сервер.

нутри Discord удобно выстроить рабочий процесс: хранить историю итераций, обсуждать варианты с командой и собирать библиотеку удачных промптов.

Под генерацию можно выделить отдельный сервер или структуру каналов:

  • информация и правила;

  • гайды и лимиты;

  • обсуждения;

  • логи итераций;

  • отдельные каналы под проекты.

Со временем сервер перерастет в полноценную базу знаний команды.

GPT Plus — получаем промпт для MidJourney

Чтобы не писать промпт с нуля, проще начать с референса. Найдите изображение, максимально близкое к желаемому результату, загрузите его в GPT и попросите преобразовать визуал в промпт для MidJourney.

Важно, что по умолчанию GPT не учитывает флаги SFW и NSFW. Поэтому всегда пишите «SFW промпт» в запросах к GPT:

  • SFW (Safe for Work) — Разрешенный контент

  • NSFW (Not Safe for Work) — Контент 18+. За каждый промпт, слова в котором будут попадать под флаг NSFW, можно получить бан на час в MidJourney.

Для фотореалистичных генераций лучше работает подход «как это снять», а не «что изображено на картинке». То есть промпт должен быть похож на инструкцию для фотографа.

Шаблон запроса может выглядеть так:

Представь, что ты фотограф. Проанализируй фото (не описывая в чате) и преврати его в SFW-промпт для генерации фотореалистичного изображения в MidJourney —v 7 –ar 16:9. Промпт должен быть инструкцией, как снять такую сцену: композиция, ракурс, объектив, свет, настроение, фактуры и окружение.

Флаг —ar устанавливает соотношение сторон.

Хорошо работает схема с несколькими референсами:

  • основной — портрет женщины с нужной мимикой и светом;

  • дополнительный — текстура;

  • ещё один — композиция или интерьер.

Так модель получает больше контекста и выдаёт более предсказуемый результат.

Хороший промпт решает большую часть задачи. Слабый промпт почти всегда приводит к лишним итерациям и хаотичным результатам.

Работаем с MidJourney

На сервере MidJourney в Discord есть базовые каналы с правилами, обновлениями и туториалами. Перед началом работы стоит внимательно прочитать обучающие разделы — это избавит от случайных блокировок и проблем с генерацией.

Перед использованием промпта его обычно дополняют техническими флагами. Они управляют стилем и поведением модели.

Чаще для фотореализма используют:

  • —style raw. Уменьшает «нейросеточную» стилизацию, Делает изображение более реалистичным.

  • —stylize 0-100 (подбирайте значение в этом диапазоне под нужный результат). Регулирует художественность результата. Чем ниже значение, тем точнее генерация следует промпту.

  • —q 1. Устанавливает максимальное качество рендера.

  • —sw 0-30 (подбирайте значение в этом диапазоне под нужный результат). Усиливает эффект флага —style.

Если генерация строится на референсе, подключаются:

  • —cref — опора на конкретное изображение;

  • —sref — перенос визуального стиля.

Референс лучше загрузить на файлообменник и в конце промпта вставить ссылку с нужным флагом.

Важно понимать: даже хорошие флаги не компенсируют слабый промпт. Если сцена описана размыто, результат всё равно будет случайным.

После подготовки промпта запустите команду /imagine, вставьте промпт, отправьте в MidJourney и нейросеть сгенерирует сетку из четырёх изображений.

Дальше можно:

  • увеличивать понравившийся вариант через увеличение разрешения (Upscale, кнопки U1–U4);

  • делать вариации, то есть ИИ сгенерирует новое изображение с небольшим отличием от выбранного (кнопки V1–V4);

  • перегенерировать сетку (команда Reroll);

  • менять и уточнять промпт до желаемого результата.

Изменение первичной генерации в MidJourney

После выбора одного из вариантов MidJourney предлагает инструменты доработки.

Upscale (Subtle) — увеличивает изображение без сильных изменений.

Upscale (Creative) — увеличивает изображение и добавляет новые детали.

Vary (Subtle) — создаёт небольшие вариации: детали одежды, лица, света.

Vary (Strong) — сильнее меняет композицию, ракурс, черты лица.

Vary (Region) — позволяет выделить конкретную область и перегенерировать только её. Можно добавить новый промпт для конкретной части изображения.

Zoom Out — расширяет сцену, создавая эффект отъезда камеры.

Стрелки — достраивает изображение в выбранную сторону.

Минус доработки изображения в MidJourney — невозможность контролировать изменения и непредсказуемый результат. Поэтому я предпочитаю доводить генерацию в Stable Diffusion.

Доводка генерации в Stable Diffusion

MidJourney хорошо подходит для быстрого поиска визуального направления, а Stable Diffusion — для контроля и финальной полировки.

Stable Diffusion позволяет:

  • выбирать модель под конкретную задачу (реалистичные портреты, предметная съемка, интерьеры);

  • точечно править отдельные области;

  • управлять параметрами генерации;

  • увеличивать изображение под печать или крупные форматы.

Модели — это «мозг» генератора. Разные модели дадут отличные друг от друга результаты на одном промпте.

Для реалистичных генераций от себя рекомендую:

  • Realism Illustrations.

  • Babes Illustrations.
    Важно! Изначально модель создавалась для генерации контента 18+. Будьте аккуратны с формулировками промпта во избежание непредвиденного результата.

  • Into Realism.

Модели можно скачать на сайтах-агрегаторах, например, популярный Civitai.com. Скачанные файлы положите в папку models/Checkpoints (для Automatic1111) или models/checkpoints (для ComfyUI). Перезагрузите страницу веб-интерфейса StableDiffusion и модели подгрузятся.

Когда модели выбраны и загружены, можно приступать к работе над изображением.

В Stable Diffusion есть три основных режима:

  1. txt2img — генерация изображения с нуля по текстовому запросу.

  2. img2img — доработка существующей генерации. Подходит, если нужно усилить реализм или слегка изменить сцену.

  3. inpaint — локальная правка отдельных областей: лица, рук, одежды, фона или объектов.

На практике img2img и inpaint чаще всего используются для фотореалистичных изображений.

Процесс работы обычно выглядит так:

  • загрузить изображение;

  • выбрать режим;

  • при необходимости выделить область для правки (если работаете в inpaint);

  • добавить промпт (опишите, чего не хватает/хочется изменить, укажите область для режима Inpaint) ;

  • настроить параметры рендера;
    Для img2img:
    — Just resize
    — Sampling method: DPM++ 2M SDE
    — Schedule type: Automatic
    — Sampling steps: 25
    — Resize to: Width: 1920. Height: 1080
    — Batch count: 1
    — Batch size: 1
    — CFG Scale: 5
    — Denoising strength: 0.35
    — Seed: -1
    — Script: None

    Для inpaint:
    — Just resize
    — Mask blur: 4
    — Mask mode:
    — Inpaint masked
    — Masked content: original
    — Inpaint area:
    — Only masked
    — Only masked padding, pixels: 32
    — Sampling method: DPM++ 2M SDE
    — Schedule type: Automatic
    — Sampling steps: 25
    — Resize by: Scale: 1
    — Batch count: 1
    — Batch size: 1
    — CFG Scale: 5
    — Denoising strength: 0.35
    — Seed: -1
    — Script: None

Настройки img2img

Настройки img2img
Настройки inpaint

Настройки inpaint
  • запустить генерацию;

  • сохранить изображение.

Типовые «триггеры фейка» и как их исправлять

Даже удачные генерации часто выдают себя в деталях.

Самая частая проблема — слишком гладкая кожа. В таких случаях помогают уточнения вроде: заметная текстура кожи (visible skin texture), видимые поры (pores visible), естественный цвет лица (natural complexion).

Иногда лицо получается «идеальным» и неестественным. Тогда стоит добавлять легкую асимметрию (slight asymmetry), естественные несовершенства (natural imperfections).

У фотореалистичных портретов часто встречаются «стеклянные» глаза без живых отражений. Исправить это помогают формулировки про естественные блики и взгляд: естественное отражение в глазах (natural eye reflection), warm gaze (теплый взгляд).

Отдельная категория проблем — руки и анатомия. Здесь MidJourney всё ещё ошибается, поэтому такие детали обычно проще исправлять позже через inpaint в Stable Diffusion.

Также стоит внимательно следить за тенями и отражениями. Если источник света описан расплывчато, модель легко создаёт физически невозможное освещение.

Почему не генерировать сразу в Stable Diffusion

Технически это возможно. На практике MidJourney выдаёт сильную композицию, свет и атмосферу, но оставляет артефакты. А Stable Diffusion как раз хорошо справляется с локальными доработками и усилением реализма. Плюс SD рендерит генерации локально на компьютере и одна генерация может занимать до 40 минут.

Совмещение MidJourney и Stable Diffusion оказывается быстрее и стабильнее, чем попытка получить идеальный результат в одной системе.

Выводы: что даёт стек GPT Plus + Discord + MidJourney + Stable Diffusion

Главное преимущество — скорость итераций. Вместо долгого поиска референсов и стоковых изображений — быстрая генерация уникального визуала под проект. Появляется больше контроля над результатом.

Генерация фотореалистичных изображений — не замена дизайнера, а его суперсила. Работа с искусственным интеллектом остаётся инструментом в руках специалиста, а не полностью автономным решением.

Быстрый старт:

  1. Создайте Discord аккаунт.

  2. Создайте аккаунт в GPT, оформите Plus.

  3. Создайте аккаунт в MidJourney, оформите платную подписку.

  4. Установите Stable Diffusion и загрузите нужные модели.

  5. Сформируйте промпт для генерации изображения в MidJourney с помощью GPT.

  6. Добавьте в промпт флаги для генерации в MidJourney и отправьте его в Discord -бот.

  7. Выберите понравившееся изображение, если нужно доработайте его инструментами MidJourney.

  8. Загрузите изображение в Stable Diffusion, выберите режим, вставьте промпт, настройте параметры рендера и сгенерируйте финальное изображение.

ссылка на оригинал статьи https://habr.com/ru/articles/1044864/