Почему нейросети рисуют иероглифы на картинках вместо текста — и что с этим делать

Вы попросили нейросеть сделать красивый баннер с надписью. Получили потрясающую картинку — и размытые закорючки там, где должен был быть текст.

Или того хуже: буквы есть, но они перепутаны местами, слеплены друг с другом, наполовину превратились в иероглифы. Иногда похоже на арабский. Иногда на выдуманный алфавит несуществующей цивилизации.

Это не баг и не случайность. У этого явления есть конкретная техническая причина. И есть нейросеть, которая эту проблему решила.

Как нейросеть вообще рисует картинки

Чтобы понять почему текст не получается — нужно понять как работает генерация изображений в принципе.

Большинство современных генераторов — Stable Diffusion, Midjourney, DALL-E — работают по принципу диффузии. Грубо говоря, это выглядит так:

Берётся случайный шум — картинка из случайных пикселей.
Нейросеть постепенно «убирает» шум, делая изображение более осмысленным.
Каждый шаг она сверяется с промтом: «похоже ли то, что получается, на описание?»
После нескольких десятков шагов из шума появляется изображение.

Ключевое слово здесь — похоже. Нейросеть не рисует в привычном смысле. Она не знает что такое «буква А» как отдельная сущность. Она знает как выглядит «изображение с текстом» статистически — по миллиардам картинок, на которых она обучалась.

Иероглифы вместо текста на картинках нейросети

Почему получаются иероглифы

Вот здесь самое интересное.

Когда нейросеть обучалась, она видела огромное количество изображений с текстом. Вывески, плакаты, обложки книг, баннеры, скриншоты. Она научилась имитировать визуальный паттерн текста — то есть то, как текст выглядит на изображении в целом.

Но есть проблема. Нейросеть работает с пикселями, а не с символами. Для неё буква «А» — это не знак с конкретным значением. Это просто определённое распределение пикселей, которое часто встречается рядом с другими похожими распределениями.

Она не «пишет» — она имитирует внешний вид письма.

Отсюда всё и вытекает:

Откуда иероглифы. В обучающей выборке были картинки с китайским, японским, арабским, хинди текстом. Модель не различает «это русские буквы» и «это иероглифы» на уровне смысла. Она различает паттерны. И когда не уверена — мешает всё подряд.

Почему буквы плывут и слипаются. Диффузионная модель оптимизирует общий вид изображения, а не поэлементную точность символов. Буква может выглядеть «достаточно похоже» на уровне всей картинки — и при этом быть нечитаемой вблизи.

Почему длинные слова хуже коротких. Чем длиннее надпись, тем больше отдельных символов нужно воспроизвести точно и последовательно. Вероятность ошибки в каждом символе накапливается — и к пятой-шестой букве всё разваливается.

Почему кириллица хуже латиницы. Большинство обучающих данных — на английском. Латинские буквы встречались в выборке в десятки раз чаще, чем русские. Поэтому с латиницей результат чуть лучше — но и там ненадёжно.

По сути, нейросеть делает то же, что человек, который никогда не учил китайский, но попытался бы перерисовать иероглиф от руки по памяти. Внешнее сходство есть, смысла нет.

Почему это вообще не починили

Резонный вопрос. Если проблема известна — почему большинство моделей до сих пор рисует иероглифы?

Потому что архитектура диффузионных моделей изначально не предназначена для точной работы с символами. Это как спросить почему кисть не рисует идеальные прямые линии — инструмент создавался для другого.

Решить это по-настоящему — значит переосмыслить как модель обрабатывает текстовые элементы. Не просто лучше имитировать, а понимать что такое символ, строка, шрифт. Это другой уровень архитектуры.

Большинство команд эту задачу не ставили в приоритет — им важнее была общая визуальная красота. Пока не появились задачи где текст на картинке критически важен: баннеры, обложки, рекламные материалы, превью для YouTube.

Nano Banana Pro: нейросеть которая умеет писать

Nano Banana Pro решила эту проблему архитектурно — а не просто «больше примеров текста в обучении».

Модель работает с текстом на изображении как с отдельным слоем с собственной логикой. Она понимает разницу между визуальным элементом и текстовым, знает что символы должны быть последовательными и читаемыми, умеет работать с кириллицей, латиницей и цифрами одновременно. Может писать на любом языке, в том числе на разных языках на одной картинке!

Результат: надписи получаются чёткими, буквы на месте, слова читаются.

Нано Банана Про: надписи на разных языках на одной картинке

Это открывает задачи, которые раньше были недоступны для нейросетей:

Баннеры для сайтов и соцсетей. Нано Банана про может поместить текст поверх красивого визуала — без PhotoShop и без дизайнера.

Обложки для YouTube и Reels. Заголовок прямо на картинке, с правильными буквами и нужным стилем шрифта.

Рекламные материалы. Акционная плашка, цена, призыв к действию — всё в одной генерации.

Карточки для маркетплейсов. Нано Банана про отлично сделает карточку любого товара, где будет и объект, и текст, и все это с подходящим дизайном.

Превью для статей и постов. Заголовок, подзаголовок, минимализм — быстро и без верстальщика.

Сравнение: Stable Diffusion vs Nano Banana Pro

Одна задача. Два инструмента. Смотрим разницу.

Задача: баннер для акции кофейни. Надпись «Кофе дня — 199 ₽» на тёмном фоне с чашкой кофе.

Промт (одинаковый для обоих):

Coffee shop promotional banner. Dark moody background, a cup of coffee with steam. Large clear text: "Кофе дня — 199 ₽". Clean modern design.

Stable Diffusion — результат:

Красивый тёмный фон. Атмосферная чашка с паром. И надпись — конечно с ошибками, даже учитывая то, что текст небольшой. Знак рубля тоже неправильный. Использовать для рекламы невозможно — надо доделывать в редакторе.

Nano Banana Pro — результат:

Тот же тёмный фон, та же чашка. Надпись «Кофе дня — 199 ₽» — чёткая, читаемая, правильные буквы, символ рубля на месте. Готово к публикации без дополнительной обработки. Есть нюанс — ИИ добавил надпись «каждый день». смотрится хорошо, но если она не нужна можно сгенерировать еще раз.

Второй тест. Задача сложнее.

Промт (одинаковый для обоих):

YouTube thumbnail. Bold vivid background with dramatic lighting, business theme. Large bold headline text: "10 ошибок которые убивают ваш бизнес". High contrast, attention-grabbing design, 16:9 format.

Задача: обложка для YouTube-видео. Заголовок «10 ошибок которые убивают ваш бизнес» на ярком фоне.

Stable Diffusion: слово «ошибок» превращается в «олувок» . Вместо текста микс кириллицы и латиницы. Цветовое решение тоже не самое лучшее.

Nano Banana Pro: заголовок полностью, все буквы правильные, строки выровнены. Готовая обложка.

Как правильно просить Nano Banana Pro нарисовать текст

Несколько правил, которые улучшают результат генерации в Нано Банана про.

Выносите текст в кавычки. Пишите text: "Заголовок здесь" — это сигнал модели что именно нужно воспроизвести буквально.

Указывайте стиль шрифта. «Bold sans-serif», «elegant serif», «handwritten» — модель адаптирует под описание.

Не перегружайте. Одна-две строки текста — надёжно. Три-четыре — уже сложнее. Если нужно много текста — лучше сделать несколько генераций.

Уточняйте позицию. «Text in the center», «headline at the top», «price tag in the bottom right» — это помогает с композицией.

Используйте английский для промта. Даже если сам текст на баннере будет русским — описание задачи на английском работает точнее.

Итог

Иероглифы вместо букв — не случайность. Это логичное следствие того, как устроены диффузионные модели. Они имитируют текст визуально, не понимая его как систему символов.

Nano Banana Pro подошла к задаче иначе — и закрыла целый класс задач, которые раньше требовали дизайнера или дополнительной работы в редакторе.

Попробовать можно на Study AI — там Nano Banana Pro доступна вместе с остальными инструментами в одном интерфейсе.

✨ Попробовать Nano Banana Pro на Study AI

ссылка на оригинал статьи https://habr.com/ru/articles/1029596/