Когда таймлайн сам рисует кадры: встроенный ИИ‑генератор в MultiTrack

от автора

В прошлой статье я рассказывал, как собрал мобильный видеоредактор с мультитреком, кейфреймами и ИИ‑ассистентом, который монтирует по промпту. Тогда ассистент умел резать, двигать, накладывать эффекты — но создавать картинки и видео приходилось где‑то сбоку: сгенерировал, скачал, импортировал, подогнал под проект.

Это раздражало. Монтаж — это поток. Любая лишняя вкладка в браузере — как пауза посреди джазовой импровизации.

Поэтому в MultiTrack появился встроенный ИИ‑генератор — отдельная панель «AI Generation» на базе Higgsfield. Не заглушка «попробуйте нейросеть», а полноценный цикл: промпт → генерация → скачивание → Import to Project → клип сразу в библиотеке и на таймлайне. Без выхода из редактора.

Зачем генератор внутри монтажки, а не в отдельном приложении

Профессиональный монтаж — это не «сделать один красивый кадр». Это собрать сцену из кусков: исходник, титр, цветовой фон, B‑roll, переход, звук. Генеративный ИИ сегодня закрывает дырки, которых в исходниках нет: нет нужного плана — нарисуй; нужен короткий establishing shot — оживи статику.

Раньше цепочка выглядела так:

промпт в веб‑сервисе → ожидание → скачивание → Files → импорт в редактор → подгонка длительности

Теперь:

промпт в MultiTrack → генерация → Import to Project → Track 1, готово

Разница не в количестве кликов — в сохранении контекста. Вы остаётесь в том же проекте, с тем же курсором, с теми же треками. Сгенерированный клип называется generated_N и ведёт себя как обычный медиаклип: его можно резать, ускорять через TimeWarp, вешать эффекты, анимировать transform.

Два режима: Image и Video

Панель разделена на вкладки Image и Video. Это не косметика — у каждого режима свой набор моделей и свой сценарий работы.

Text → Image

Для картинок доступны две семейства моделей:

Модель

Что умеет

Параметры

Reve

Быстрый text-to-image

промпт, aspect ratio

Soul (Higgsfield)

Фотореализм Higgsfield

промпт, aspect ratio, resolution (720p / 1080p / 2K)

Соотношения сторон: 16:9, 9:16, 1:1, 4:3, 3:4 — сразу под горизонтальный монтаж, Reels или квадрат.

Скриншот 1 — генерация в процессе. Модель Reve, промпт на русском (с опечатками — нейросеть всё равно поняла), прогресс скачивания 50%, подсказка «обычно 1–3 минуты»:

Генерация изображения: промпт, прогресс скачивания

Генерация изображения: промпт, прогресс скачивания

Скриншот 2 — результат. Уолтер в жёлтом костюме, Джесси, лаборатория — промпт отработан буквально. Кнопка Import to Project — следующий шаг одним тапом:

Сгенерированное изображение, кнопка Import to Project

Сгенерированное изображение, кнопка Import to Project

Да, тестовый промпт про «Во все тяжкие» — чисто для демо. Но он хорошо показывает главное: русский промпт без перевода, интерфейс на английском, мозги — где угодно.

Image → Video

Видео здесь не «из воздуха» одной кнопкой — это оживление картинки. Берёте source image (только что сгенерированную или любую из проекта), описываете движение промптом, выбираете длительность.

Модели:

Модель

Особенности

DoP

Higgsfield image-to-video, 5 или 10 секунд

Kling 2.1 Pro

image-to-video, высокое качество

Seedance 1.0 Pro

ByteDance image-to-video

Скриншот 3 — цепочка image→video: та же сцена с лабораторией как source, промпт «Уолтер махает рукой, Джесси подходит, оба смотрят в камеру», модель DoP, 5 секунд, скачивание 34%:

Image-to-video: source image, промпт движения, прогресс

Image-to-video: source image, промпт движения, прогресс

Скриншот 4 — готовый ролик в превью. Персонажи ожили, сцена кинематографичная. Снова Import to Project:

Сгенерированное видео 5 секунд

Сгенерированное видео 5 секунд

Получается классический двухшаговый пайплайн прямо в редакторе: сначала кадр, потом движение. Без сторонних сервисов и без ручного перетаскивания файлов.

На таймлайне — как обычные клипы

Скриншот 5 — финал: оба ассета в проекте «тест», Full HD 1080p / 30 fps:

  • Track 1 — generated_3 (иконка изображения, 05:00)

  • Track 2 — generated_4 (иконка видео, 05:11)

Таймлайн с generated_3 и generated_4 на разных треках

Таймлайн с generated_3 и generated_4 на разных треках

Сгенерированное не «магический слой» — это обычные клипы в библиотеке. Дальше — fade, color, effects, warp, всё что уже есть в MultiTrack.

Техническая кухня (кратко, для любопытных)

Архитектура сознательно разделена на слои:

  1. UI — VideoGenerationScreen: выбор модели, промпт, прогресс, превью, импорт.

  2. Контроллер сессии — VideoGenerationController: состояние фазы (idle → generating → ready), отмена, прогресс скачивания в байтах.

  3. Higgsfield API — HiggsfieldGenerationService: постановка задачи, polling, скачивание во временный файл.

  4. Импорт — VideoGenerationImportService: копия в persistent storage, probe видео (длительность, ориентация), клип в библиотеку.

  5. Мост для ИИ‑ассистента — AiGenerationToolService: та же логика headless, команда generate_media.

Каталог моделей — HiggsfieldModelCatalog — curated-список с дефолтами (aspect ratio 16:9, Soul 720p, DoP 5 сек). API Key ID и Secret пользователь вводит в настройках; в панели есть «How to top up balance» с подсказками для пополнения баланса Higgsfield, в том числе для РФ.

Генерация стриминговая по смыслу, но не по кадрам: сначала облако рисует, потом приложение качает готовый файл с прогресс-баром (как на скриншотах — «1.3 MB / 2.5 MB»). Временные файлы живут в sandbox и удаляются после импорта.


И ассистент тоже умеет генерировать

Отдельная фишка: ИИ‑монтажёр и генератор — одна экосистема.

Ассистенту доступна команда generate_media. Примеры сценариев:

  • «Нарисуй закат над морем 16:9» → mediaKind: image, Reve или Soul.

  • «Сделай 5‑секундное видео: кот смотрит в камеру» → цепочка: image, затем video с sourceClipId от первого шага.

  • «Оживи выделенный кадр» → только video, source — клип из таймлайна.

Исполнитель (AiCommandExecutorждёт окончания генерации и импорта, потом выполняет следующие команды: move_clipset_keyframesadd_effect. Можно попросить одним промптом: «сгенерируй фон, положи на Track 3, добавь fade-in 2 секунды» — ассистент разложит это в цепочку.

Ручная панель и голосовой/текстовый ассистент используют один и тот же движок — дублирования логики нет.


Практика: что это даёт монтажёру

Несколько реальных сценариев (не только Breaking Bad для прикола):

  • B‑roll за 3 минуты — нет подходящего плана? Промпт → картинка → оживление → на трек под голос.

  • Обложка и заставка — Soul/Reve в 2K, сразу в проект, дальше титры и motion.

  • Вертикальный контент — 9:16 из коробки, без кропа потом.

  • Итерации — «Generate Again» без смены контекста; удачный вариант — Import, неудачный — в корзину истории.

Ограничения честные: нужен баланс на Higgsfield, генерация 1–3 минуты, модерация контента (NSFW отсекается), для видео нужен source image. Это не замена съёмке — дополнение к монтажу на выезде, когда «снять» уже нельзя, а «доделать» — надо.

Что дальше

Поле для полировки огромное: text-to-video без промежуточного кадра, пресеты промптов под жанры, пакетная генерация раскадровки, привязка стиля к color grade проекта. Но уже сейчас MultiTrack закрывает разрыв между «нейросеть в браузере» и «монтаж на планшете» — в одном приложении, на одном таймлайне.

Если в первой статье речь шла о том, как я собрал редактор, то здесь — о том, что в него пришло новым слоём: генеративный контент как первоклассный гражданин таймлайна, а не прицепной вагон.


MultiTrack — Android (RuStore), macOS (appstorrent.ru). Версия для iPhone в планах.

P.S. Тестовые кадры с Уолтером и Джесси — демо пайплайна. В продакшене, разумеется, следите за правами на персонажей и бренды. Для Хабра — идеальный мем, для YouTube — лучше свой промпт.

ссылка на оригинал статьи https://habr.com/ru/articles/1047332/