Почему нельзя просто взять и сгенерировать идеальную иллюстрацию

Графические нейронки подарили редакторам сайтов, телеграм-каналов и прочим вебмастерам хорошую возможность – создать иллюстрации по текстовому описанию. Текст есть, ИИ-генератор есть, в чем же проблема?

Проблема не столько в том, что иллюстрация может не подойти к материалу или к стилю сайта. Проблема в том, что ИИ-модели, даже самые мощные, не так-то просто заставить креативить. То есть, выдавать что-то небанальное и интересное.

Особенно если вы не готовы сформулировать максимально точно, что хотите получить.

Возьмем для примера вполне реальный кейс – у вас есть тематический сайт или канал, где выходит определенное количество публикаций в день, и есть задача – добавлять к каждой публикации картинку.

От иллюстрации не требуется быть шедевром, но она должна:

более-менее соответствовать тексту материала;
иллюстрировать содержание или как-то обыгрывать его;
сохранять преемственность с другими картинками – это может быть одна общая концепция, может быть фирменный стиль или цвет;
не быть нейрослопом – ну, то есть, у читателя как минимум не должно возникать желание вставить себе миксер в глаза, в идеале – чтобы картинку хотелось разглядывать;
создаваться быстро – ясно что не моментально, но у вас нет 30 минут на выписывание промпта для каждой картинки.

Если вы постите 1 статью в неделю, то можно перепробовать с десяток вариантов и выбрать самый нормальный. Но что, если у вас контент-план на 10-20 материалов в день?

Столкнувшись с этой задачей, я подошел к делу, как мне казалось, основательно.

Схема контент-генерации была примерно такой:

нужен один универсальный шаблон промпта, по которому ИИ будет генерировать текстовый промпт для генерации картинки;
для каждой иллюстрации к этому шаблону добавляется фактура: либо текст нашего материала, либо ссылка на первоисточник (если рерайт);
полученный промежуточный промпт скармливается любой текстовой/универсальной LLM – той, которая больше нравится или по опыту справляется лучше с этой задачей;
полученный на выходе текстовый промпт для генерации изображения – правильно структурированный, с детально прописанным стилем и техническими параметрами, плюс его при желании можно еще подправить руками;
этот текстовый промпт отдаем подходящей графической нейронке – и получаем готовую иллюстрацию.

В теории, все должно работать. Мы знаем, что графическая нейросеть заточена изображать то, что написано в промпте. У нее значительно меньше контекстное окно и в целом более скромные навыки ризонинга. Поэтому на промежуточном этапе мы отдаем сложную вычислительную задачу мощной текстовой LLM.

То есть, большая мощная LLM на все свои 20-50-100 миллиардов параметров придумывает нам сюжет картинки, детально его прописывает, учитывает все требования по стилю и ограничения. А потом глубоко специализированная графическая модель рисует картинку по этому заданию.

Первые тесты, тогда еще с Nano Banana 1, показали неплохие (по тем временам) результаты:

Что получилось

Это была новость о том, как дроны с ИИ помогают выращивать рис

В итоге я начал использовать этот алгоритм на постоянной основе – лишь периодически что-то подправлял в универсальном шаблоне промпта. Ну и имел по одному разному шаблону на каждый проект.

Но со временем результат перестал радовать. По основным проектам мне было нужно, чтобы картинки были забавными и слегка саркастичными. Я усиливал и усиливал промпт увеличением количества слова sarcastic в разных вариантах, менял структуру, но сарказма не прибавлялось совсем.

Проблема была в том, что сюжет картинки хоть и формально коррелировал с содержанием материала, с первого взгляда связь было уловить сложно. Чтобы увидеть сарказм, нужно было внимательно прочитать текст (дважды), а потом внимательно рассмотреть картинку. И даже тогда смысл был, ну прямо скажем, не очевидным.

Для начала я перепробовал практически все современные LLM для генерации текстового промпта. В итоге больше всего понравился DeepSeek для «ироничных» иллюстраций в псевдо-реалистичном стиле, и Gemini 3.1 Pro для картинок в техно-стиле. GPT-5.4 и Claude Sonnet 4.6 почему-то справлялись чуть похуже, как и Sonar от Perplexity.

Переход на другие графические нейронки тоже не помог. Например, на Nano Banana Pro/2 привычный алгоритм в половине генераций начал выдавать ошибку (как я понял, модель сильно «задушили» по части изображения реальных людей и брендов). А стиль стал сильно прыгать от мультяшного к гиперреалистичному. Так что промпты с участием реальных людей приходится отдавать GPT-Image, хотя и она далеко не идеальна.

Примерно тогда я наткнулся на Хабре на статью «Это вам не шутки: как я пыталась отучить LLM петросянить».

Тогда пазл и сложился окончательно: если LLM еще как-то может определить наличие сарказма в готовом материале (вычислив его по паттернам саркастических материалов, на которых обучалась), то пройти этот путь в обратном направлении – уже нет. Поэтому научить нейронку шутить на автомате – задача практически невыполнимая.

Как я в итоге вышел из ситуации: для креатива подключил человеческий мозг, оставив за LLM лишь додумывание деталей и техническую работу.

На практике это означает, что кроме исходного шаблона я каждый раз дописываю руками в 1-2 предложения общую идею картинки.

К примеру, у нас есть новость о том, что Luma Labs открывает доступ по API к модели Uni-1.1. Как это описать словами? Ну, предположим: «робот-художник, к которому по USB-кабелю можно подключить смартфон». Создаем промпт, по промпту создаем картинку:

Не идеально, и в первом варианте на переднем плане была еще одна рука с телефоном

Или новость про новую голосовую модель Thinking Machines Lab от Миры Мурати. Пусть будет «в стиле кадров из фильмов про шпионов и спецслужбы времен Холодной войны. Робот сидит на прослушке в наушниках и делает записи в журнале»:

Издержки человеческого интеллекта - ИИ в основном ассоциируется с роботам — Издержки человеческого интеллекта — ИИ в основном ассоциируется с роботам

Важно, что LLM получает не только одно это предложение с сюжетом картинки, но и весь исходный текст. Вся фактура в итоге учитывается в деталях картинки. Например, мне важно, чтобы в картинке был один цветовой акцент – DeepSeek прописывает, в чем именно он должен выражаться.

Но вообще, это все очень далеко от идеала. Во-первых, не всегда есть идеи, а во-вторых, далеко не всегда нейронка способна эту идею изобразить корректно. Но в целом процент иллюстраций, которые можно принять с первого раза, достаточно большой. Точно выше, чем если творчеством занимается только ИИ.

Остается лишь надеяться, что следующие версии LLM смогут в реверс-инжиниринг человеческого юмора, и нам не придется выдумывать все эти костыли.

ссылка на оригинал статьи https://habr.com/ru/articles/1035356/