Генерируем фотореалистичные изображения

Привет, меня зовут Николай Разумовский, я дизайнер в команде цифровой трансформации Ареал. Как дизайнер я регулярно сталкиваюсь с задачей: нужно быстро получить уникальные изображения для интернет-магазинов, корпоративных сайтов, лендингов и презентаций. Если опираться только на стоки, процесс затягивается, а визуально проекты становятся похожими друг на друга.

Генерация через нейросети решает сразу несколько задач:

Скорость. Вместо нескольких часов поиска на стоках — несколько минут на генерацию.
Уникальность. Можно управлять практически всем: композицией, освещением, цветом, материалами, эмоцией и окружением. Это позволяет собирать изображения под конкретный продукт.
Соответствие бренду. Генерации проще подстраивать под фирменную палитру, стиль и визуальный язык продукта.
Снижение рисков с лицензированием. Здесь важно быть аккуратными с формулировками: ИИ-изображения действительно упрощают работу с правами по сравнению со стоками, но не отменяют юридические ограничения полностью. Если вы планируете коммерческое использование, проверьте условия лицензии конкретного сервиса и учитывайте особенности своей юрисдикции.

При этом нейросети пока не заменяют дизайнера. Хороший результат всё ещё зависит от насмотренности, понимания композиции, света и умения формулировать задачу.

Я выработал схему генерации, которая помогает мне быстро и эффективно создавать фотореалистичные изображения для проектов.

Настройка стека

Важно отметить, что я работаю с MidJourney через официальный бот на сервер Discord. Покупаю подписку на внешних агрегаторах именно для использования бота. Если работать с MidJourney напрямую, могут возникнуть сложности: блокировка по региону, принудительная смена пароля при работе из общего аккаунта. Дополнительно в боте есть удобные кнопки увеличения разрешения (U — Upscale), генерации вариаций (V — Variation), повторной генерации (Reroll). Не нужно переписывать промпт. Изменения происходят в реальном времени, результат сразу виден в чате.

В этой связке используются четыре сервиса:

Discord — как рабочая среда. Работает бесплатно на Windows, macOS, Linux, Web. Кроме web-версии есть приложение. Создайте аккаунт.
GPT Plus — для подготовки промптов. Зарегистрируйтесь в GPT и купите Plus. Plus нужен, чтобы снять ограничения обработки изображений-рефов.
MidJourney — для основной генерации. Лучше регистрироваться через аккаунт Discord — так вы сразу получите доступ к серверу MidJourney на платформе.
Stable Diffusion — генератор для точечной доработки изображений. Работает бесплатно на Windows, macOS, Linux. Установите локально. Можно воспользоваться готовой сборкой (Automatic1111, ComfyUI). Не придется разбираться с Python, CUDA и сложной настройкой. Гайд для видеокарт NVIDIA, гайд для видеокарт Radeon

Связка Discord с MidJourney bot

MidJourney bot можно найти:

через общий поиск
через поиск в списке приложений
в одном из каналов (status, daily theme, newbies даже если канал архивирован)

Работа с ботом ведется через личные сообщения, либо через добавление его к себе на сервер.

нутри Discord удобно выстроить рабочий процесс: хранить историю итераций, обсуждать варианты с командой и собирать библиотеку удачных промптов.

Под генерацию можно выделить отдельный сервер или структуру каналов:

информация и правила;
гайды и лимиты;
обсуждения;
логи итераций;
отдельные каналы под проекты.

Со временем сервер перерастет в полноценную базу знаний команды.

GPT Plus — получаем промпт для MidJourney

Чтобы не писать промпт с нуля, проще начать с референса. Найдите изображение, максимально близкое к желаемому результату, загрузите его в GPT и попросите преобразовать визуал в промпт для MidJourney.

Важно, что по умолчанию GPT не учитывает флаги SFW и NSFW. Поэтому всегда пишите «SFW промпт» в запросах к GPT:

SFW (Safe for Work) — Разрешенный контент
NSFW (Not Safe for Work) — Контент 18+. За каждый промпт, слова в котором будут попадать под флаг NSFW, можно получить бан на час в MidJourney.

Для фотореалистичных генераций лучше работает подход «как это снять», а не «что изображено на картинке». То есть промпт должен быть похож на инструкцию для фотографа.

Шаблон запроса может выглядеть так:

Представь, что ты фотограф. Проанализируй фото (не описывая в чате) и преврати его в SFW-промпт для генерации фотореалистичного изображения в MidJourney —v 7 –ar 16:9. Промпт должен быть инструкцией, как снять такую сцену: композиция, ракурс, объектив, свет, настроение, фактуры и окружение.

Флаг —ar устанавливает соотношение сторон.

Хорошо работает схема с несколькими референсами:

основной — портрет женщины с нужной мимикой и светом;
дополнительный — текстура;
ещё один — композиция или интерьер.

Так модель получает больше контекста и выдаёт более предсказуемый результат.

Хороший промпт решает большую часть задачи. Слабый промпт почти всегда приводит к лишним итерациям и хаотичным результатам.

Работаем с MidJourney

На сервере MidJourney в Discord есть базовые каналы с правилами, обновлениями и туториалами. Перед началом работы стоит внимательно прочитать обучающие разделы — это избавит от случайных блокировок и проблем с генерацией.

Перед использованием промпта его обычно дополняют техническими флагами. Они управляют стилем и поведением модели.

Чаще для фотореализма используют:

—style raw. Уменьшает «нейросеточную» стилизацию, Делает изображение более реалистичным.
—stylize 0-100 (подбирайте значение в этом диапазоне под нужный результат). Регулирует художественность результата. Чем ниже значение, тем точнее генерация следует промпту.
—q 1. Устанавливает максимальное качество рендера.
—sw 0-30 (подбирайте значение в этом диапазоне под нужный результат). Усиливает эффект флага —style.

Если генерация строится на референсе, подключаются:

—cref — опора на конкретное изображение;
—sref — перенос визуального стиля.

Референс лучше загрузить на файлообменник и в конце промпта вставить ссылку с нужным флагом.

Важно понимать: даже хорошие флаги не компенсируют слабый промпт. Если сцена описана размыто, результат всё равно будет случайным.

После подготовки промпта запустите команду /imagine, вставьте промпт, отправьте в MidJourney и нейросеть сгенерирует сетку из четырёх изображений.

Дальше можно:

увеличивать понравившийся вариант через увеличение разрешения (Upscale, кнопки U1–U4);
делать вариации, то есть ИИ сгенерирует новое изображение с небольшим отличием от выбранного (кнопки V1–V4);

перегенерировать сетку (команда Reroll);
менять и уточнять промпт до желаемого результата.

Изменение первичной генерации в MidJourney

После выбора одного из вариантов MidJourney предлагает инструменты доработки.

Upscale (Subtle) — увеличивает изображение без сильных изменений.

Upscale (Creative) — увеличивает изображение и добавляет новые детали.

Vary (Subtle) — создаёт небольшие вариации: детали одежды, лица, света.

Vary (Strong) — сильнее меняет композицию, ракурс, черты лица.

Vary (Region) — позволяет выделить конкретную область и перегенерировать только её. Можно добавить новый промпт для конкретной части изображения.

Zoom Out — расширяет сцену, создавая эффект отъезда камеры.

Стрелки — достраивает изображение в выбранную сторону.

Минус доработки изображения в MidJourney — невозможность контролировать изменения и непредсказуемый результат. Поэтому я предпочитаю доводить генерацию в Stable Diffusion.

Доводка генерации в Stable Diffusion

MidJourney хорошо подходит для быстрого поиска визуального направления, а Stable Diffusion — для контроля и финальной полировки.

Stable Diffusion позволяет:

выбирать модель под конкретную задачу (реалистичные портреты, предметная съемка, интерьеры);
точечно править отдельные области;
управлять параметрами генерации;
увеличивать изображение под печать или крупные форматы.

Модели — это «мозг» генератора. Разные модели дадут отличные друг от друга результаты на одном промпте.

Для реалистичных генераций от себя рекомендую:

Realism Illustrations.
Babes Illustrations.
Важно! Изначально модель создавалась для генерации контента 18+. Будьте аккуратны с формулировками промпта во избежание непредвиденного результата.
Into Realism.

Модели можно скачать на сайтах-агрегаторах, например, популярный Civitai.com. Скачанные файлы положите в папку models/Checkpoints (для Automatic1111) или models/checkpoints (для ComfyUI). Перезагрузите страницу веб-интерфейса StableDiffusion и модели подгрузятся.

Когда модели выбраны и загружены, можно приступать к работе над изображением.

В Stable Diffusion есть три основных режима:

txt2img — генерация изображения с нуля по текстовому запросу.
img2img — доработка существующей генерации. Подходит, если нужно усилить реализм или слегка изменить сцену.
inpaint — локальная правка отдельных областей: лица, рук, одежды, фона или объектов.

На практике img2img и inpaint чаще всего используются для фотореалистичных изображений.

Процесс работы обычно выглядит так:

загрузить изображение;
выбрать режим;
при необходимости выделить область для правки (если работаете в inpaint);
добавить промпт (опишите, чего не хватает/хочется изменить, укажите область для режима Inpaint) ;
настроить параметры рендера;
Для img2img:
— Just resize
— Sampling method: DPM++ 2M SDE
— Schedule type: Automatic
— Sampling steps: 25
— Resize to: Width: 1920. Height: 1080
— Batch count: 1
— Batch size: 1
— CFG Scale: 5
— Denoising strength: 0.35
— Seed: -1
— Script: None

Для inpaint:
— Just resize
— Mask blur: 4
— Mask mode:
— Inpaint masked
— Masked content: original
— Inpaint area:
— Only masked
— Only masked padding, pixels: 32
— Sampling method: DPM++ 2M SDE
— Schedule type: Automatic
— Sampling steps: 25
— Resize by: Scale: 1
— Batch count: 1
— Batch size: 1
— CFG Scale: 5
— Denoising strength: 0.35
— Seed: -1
— Script: None

запустить генерацию;
сохранить изображение.

Типовые «триггеры фейка» и как их исправлять

Даже удачные генерации часто выдают себя в деталях.

Самая частая проблема — слишком гладкая кожа. В таких случаях помогают уточнения вроде: заметная текстура кожи (visible skin texture), видимые поры (pores visible), естественный цвет лица (natural complexion).

Иногда лицо получается «идеальным» и неестественным. Тогда стоит добавлять легкую асимметрию (slight asymmetry), естественные несовершенства (natural imperfections).

У фотореалистичных портретов часто встречаются «стеклянные» глаза без живых отражений. Исправить это помогают формулировки про естественные блики и взгляд: естественное отражение в глазах (natural eye reflection), warm gaze (теплый взгляд).

Отдельная категория проблем — руки и анатомия. Здесь MidJourney всё ещё ошибается, поэтому такие детали обычно проще исправлять позже через inpaint в Stable Diffusion.

Также стоит внимательно следить за тенями и отражениями. Если источник света описан расплывчато, модель легко создаёт физически невозможное освещение.

Почему не генерировать сразу в Stable Diffusion

Технически это возможно. На практике MidJourney выдаёт сильную композицию, свет и атмосферу, но оставляет артефакты. А Stable Diffusion как раз хорошо справляется с локальными доработками и усилением реализма. Плюс SD рендерит генерации локально на компьютере и одна генерация может занимать до 40 минут.

Совмещение MidJourney и Stable Diffusion оказывается быстрее и стабильнее, чем попытка получить идеальный результат в одной системе.

Выводы: что даёт стек GPT Plus + Discord + MidJourney + Stable Diffusion

Главное преимущество — скорость итераций. Вместо долгого поиска референсов и стоковых изображений — быстрая генерация уникального визуала под проект. Появляется больше контроля над результатом.

Генерация фотореалистичных изображений — не замена дизайнера, а его суперсила. Работа с искусственным интеллектом остаётся инструментом в руках специалиста, а не полностью автономным решением.

Быстрый старт:

Создайте Discord аккаунт.
Создайте аккаунт в GPT, оформите Plus.
Создайте аккаунт в MidJourney, оформите платную подписку.
Установите Stable Diffusion и загрузите нужные модели.
Сформируйте промпт для генерации изображения в MidJourney с помощью GPT.
Добавьте в промпт флаги для генерации в MidJourney и отправьте его в Discord -бот.
Выберите понравившееся изображение, если нужно доработайте его инструментами MidJourney.
Загрузите изображение в Stable Diffusion, выберите режим, вставьте промпт, настройте параметры рендера и сгенерируйте финальное изображение.

ссылка на оригинал статьи https://habr.com/ru/articles/1044864/