Когда таймлайн сам рисует кадры: встроенный ИИ‑генератор в MultiTrack

В прошлой статье я рассказывал, как собрал мобильный видеоредактор с мультитреком, кейфреймами и ИИ‑ассистентом, который монтирует по промпту. Тогда ассистент умел резать, двигать, накладывать эффекты — но создавать картинки и видео приходилось где‑то сбоку: сгенерировал, скачал, импортировал, подогнал под проект.

Это раздражало. Монтаж — это поток. Любая лишняя вкладка в браузере — как пауза посреди джазовой импровизации.

Поэтому в MultiTrack появился встроенный ИИ‑генератор — отдельная панель «AI Generation» на базе Higgsfield. Не заглушка «попробуйте нейросеть», а полноценный цикл: промпт → генерация → скачивание → Import to Project → клип сразу в библиотеке и на таймлайне. Без выхода из редактора.

Зачем генератор внутри монтажки, а не в отдельном приложении

Профессиональный монтаж — это не «сделать один красивый кадр». Это собрать сцену из кусков: исходник, титр, цветовой фон, B‑roll, переход, звук. Генеративный ИИ сегодня закрывает дырки, которых в исходниках нет: нет нужного плана — нарисуй; нужен короткий establishing shot — оживи статику.

Раньше цепочка выглядела так:

промпт в веб‑сервисе → ожидание → скачивание → Files → импорт в редактор → подгонка длительности

Теперь:

промпт в MultiTrack → генерация → Import to Project → Track 1, готово

Разница не в количестве кликов — в сохранении контекста. Вы остаётесь в том же проекте, с тем же курсором, с теми же треками. Сгенерированный клип называется generated_N и ведёт себя как обычный медиаклип: его можно резать, ускорять через TimeWarp, вешать эффекты, анимировать transform.

Два режима: Image и Video

Панель разделена на вкладки Image и Video. Это не косметика — у каждого режима свой набор моделей и свой сценарий работы.

Text → Image

Для картинок доступны две семейства моделей:

Модель	Что умеет	Параметры
Reve	Быстрый text-to-image	промпт, aspect ratio
Soul (Higgsfield)	Фотореализм Higgsfield	промпт, aspect ratio, resolution (720p / 1080p / 2K)

Соотношения сторон: 16:9, 9:16, 1:1, 4:3, 3:4 — сразу под горизонтальный монтаж, Reels или квадрат.

Скриншот 1 — генерация в процессе. Модель Reve, промпт на русском (с опечатками — нейросеть всё равно поняла), прогресс скачивания 50%, подсказка «обычно 1–3 минуты»:

*Генерация изображения: промпт, прогресс скачивания*

Скриншот 2 — результат. Уолтер в жёлтом костюме, Джесси, лаборатория — промпт отработан буквально. Кнопка Import to Project — следующий шаг одним тапом:

*Сгенерированное изображение, кнопка Import to Project*

Да, тестовый промпт про «Во все тяжкие» — чисто для демо. Но он хорошо показывает главное: русский промпт без перевода, интерфейс на английском, мозги — где угодно.

Image → Video

Видео здесь не «из воздуха» одной кнопкой — это оживление картинки. Берёте source image (только что сгенерированную или любую из проекта), описываете движение промптом, выбираете длительность.

Модели:

Модель	Особенности
DoP	Higgsfield image-to-video, 5 или 10 секунд
Kling 2.1 Pro	image-to-video, высокое качество
Seedance 1.0 Pro	ByteDance image-to-video

Скриншот 3 — цепочка image→video: та же сцена с лабораторией как source, промпт «Уолтер махает рукой, Джесси подходит, оба смотрят в камеру», модель DoP, 5 секунд, скачивание 34%:

*Image-to-video: source image, промпт движения, прогресс*

Скриншот 4 — готовый ролик в превью. Персонажи ожили, сцена кинематографичная. Снова Import to Project:

Получается классический двухшаговый пайплайн прямо в редакторе: сначала кадр, потом движение. Без сторонних сервисов и без ручного перетаскивания файлов.

На таймлайне — как обычные клипы

Скриншот 5 — финал: оба ассета в проекте «тест», Full HD 1080p / 30 fps:

Track 1 — generated_3 (иконка изображения, 05:00)
Track 2 — generated_4 (иконка видео, 05:11)

*Таймлайн с generated_3 и generated_4 на разных треках*

Сгенерированное не «магический слой» — это обычные клипы в библиотеке. Дальше — fade, color, effects, warp, всё что уже есть в MultiTrack.

Техническая кухня (кратко, для любопытных)

Архитектура сознательно разделена на слои:

UI — VideoGenerationScreen: выбор модели, промпт, прогресс, превью, импорт.
Контроллер сессии — VideoGenerationController: состояние фазы (idle → generating → ready), отмена, прогресс скачивания в байтах.
Higgsfield API — HiggsfieldGenerationService: постановка задачи, polling, скачивание во временный файл.
Импорт — VideoGenerationImportService: копия в persistent storage, probe видео (длительность, ориентация), клип в библиотеку.
Мост для ИИ‑ассистента — AiGenerationToolService: та же логика headless, команда generate_media.

Каталог моделей — HiggsfieldModelCatalog — curated-список с дефолтами (aspect ratio 16:9, Soul 720p, DoP 5 сек). API Key ID и Secret пользователь вводит в настройках; в панели есть «How to top up balance» с подсказками для пополнения баланса Higgsfield, в том числе для РФ.

Генерация стриминговая по смыслу, но не по кадрам: сначала облако рисует, потом приложение качает готовый файл с прогресс-баром (как на скриншотах — «1.3 MB / 2.5 MB»). Временные файлы живут в sandbox и удаляются после импорта.

И ассистент тоже умеет генерировать

Отдельная фишка: ИИ‑монтажёр и генератор — одна экосистема.

Ассистенту доступна команда generate_media. Примеры сценариев:

«Нарисуй закат над морем 16:9» → mediaKind: image, Reve или Soul.
«Сделай 5‑секундное видео: кот смотрит в камеру» → цепочка: image, затем video с sourceClipId от первого шага.
«Оживи выделенный кадр» → только video, source — клип из таймлайна.

Исполнитель (AiCommandExecutor) ждёт окончания генерации и импорта, потом выполняет следующие команды: move_clip, set_keyframes, add_effect. Можно попросить одним промптом: «сгенерируй фон, положи на Track 3, добавь fade-in 2 секунды» — ассистент разложит это в цепочку.

Ручная панель и голосовой/текстовый ассистент используют один и тот же движок — дублирования логики нет.

Практика: что это даёт монтажёру

Несколько реальных сценариев (не только Breaking Bad для прикола):

B‑roll за 3 минуты — нет подходящего плана? Промпт → картинка → оживление → на трек под голос.
Обложка и заставка — Soul/Reve в 2K, сразу в проект, дальше титры и motion.
Вертикальный контент — 9:16 из коробки, без кропа потом.
Итерации — «Generate Again» без смены контекста; удачный вариант — Import, неудачный — в корзину истории.

Ограничения честные: нужен баланс на Higgsfield, генерация 1–3 минуты, модерация контента (NSFW отсекается), для видео нужен source image. Это не замена съёмке — дополнение к монтажу на выезде, когда «снять» уже нельзя, а «доделать» — надо.

Что дальше

Поле для полировки огромное: text-to-video без промежуточного кадра, пресеты промптов под жанры, пакетная генерация раскадровки, привязка стиля к color grade проекта. Но уже сейчас MultiTrack закрывает разрыв между «нейросеть в браузере» и «монтаж на планшете» — в одном приложении, на одном таймлайне.

Если в первой статье речь шла о том, как я собрал редактор, то здесь — о том, что в него пришло новым слоём: генеративный контент как первоклассный гражданин таймлайна, а не прицепной вагон.

MultiTrack — Android (RuStore), macOS (appstorrent.ru). Версия для iPhone в планах.

P.S. Тестовые кадры с Уолтером и Джесси — демо пайплайна. В продакшене, разумеется, следите за правами на персонажей и бренды. Для Хабра — идеальный мем, для YouTube — лучше свой промпт.

ссылка на оригинал статьи https://habr.com/ru/articles/1047332/