26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.
Что это за модель
«Nano Banana» — это неофициальное имя для модели gemini-2.5-flash-image-preview. По сути, она представляет собой SOTA-решение в области image generation/editing, оптимизированное под высокую скорость и сохранение визуальной консистентности.
-
Вход: текст, изображение или их комбинация (multimodal input)
-
Выход: изображение, JSON, структурированный ответ (structured outputs)
-
Ограничение: контекстное окно 32 768 токенов (вход + выход)
-
Нет: генерации аудио, real-time поиска, дообучения, вызова функций
Модель уже встроена в:
-
Gemini App (веб/мобильное приложение) — бесплатно
-
Gemini API — платный доступ через Google Cloud
-
Vertex AI — для enterprise-пользователей
-
Krea — доступна по подписке, встроена в визуальный редактор
Что умеет Nano Banana
1. Генерация изображений по тексту
Prompt: "A character in cyberpunk armor standing in neon-lit Tokyo street at night"
Результат: фотореалистичный персонаж, выдержанный в заданном стиле, с корректной композицией, освещением и фоном. Главное стабильность. Персонаж может быть использован в других сценах и он останется узнаваемым.
2. Локальное редактирование по описанию
Prompt: "Same image, but replace the background with a desert and make the lighting warm"
Модель заменит фон, адаптирует цветовую температуру и сохранит лицо, позу и детали.
3. Поддержка стилистики и преобразований
Модель понимает сложные команды вроде:
"Convert the entire scene into watercolor style" "Make it look like an 80s anime frame"
Отличия от других решений
-
Поддержка мультимодальности уже в preview-версии
-
Скорость: до 30x быстрее предыдущих моделей Google (по latency)
-
Память и консистентность: стабильные лица, позы, освещение от сцены к сцене
-
Лёгкость API-интеграции: через стандартный Gemini SDK
Стоимость
-
В Gemini App — бесплатно
-
В API — ~$0.039/изображение
-
В Krea — только по подписке (Pro-план)
Возможности для разработчиков
-
Интеграция через Gemini API или Vertex AI
-
Возможность генерации десятков вариантов из одного запроса
-
Поддержка structured output (например, генерация изображения + описание объекта в сцене)
Пример использования в API:
{ "model": "gemini-2.5-flash-image-preview", "prompt": "A futuristic city skyline in sunset with flying cars", "output_format": "image/png" }
Nano Banana — это не столько маркетинговый ход, сколько рабочий инструмент, предназначенный для быстрой генерации качественного визуального контента. Особенно полезна модель для:
-
digital-агентств,
-
game art-пайплайнов,
-
стартапов в e-commerce,
-
систем визуального сторителлинга,
-
внутреннего использования в продуктах с генеративным UI.
Пока модель работает в режиме preview, но уже сейчас доступна для коммерческого и творческого применения.
Ссылки
-
Презентация от Google AI Studio: [X/Twitter @GoogleAIDev]
-
Документация по Gemini API: https://ai.google.dev/gemini-api/docs
-
Обзорные примеры: https://www.reddit.com/r/MediaSynthesis
ссылка на оригинал статьи https://habr.com/ru/articles/941086/
Добавить комментарий