WAN: как пользоваться в России без VPN в 2026 году. Оживление фото: полная инструкция, обзор и промпты

от автора

WAN — одна из самых заметных open-source моделей для генерации видео. Ее используют также для анимации персонажей, редактирования видео и локальных пайплайнов через Hugging Face, GitHub и ComfyUI.

В отличие от Kling, Runway, Pika и других сервисов, WAN — это открытая экосистема: в ней не просто дают инструмент, а выкладывают сами нейросети, которые можно скачать, запустить на своем компьютере, дообучить под свой кейс. У WAN есть официальные модели, хранилища (там лежат модели, датасеты и скрипты), разные версии на Hugging Face (чтобы было удобно пробовать и скачивать) и сборки для запуска у себя на компьютере — например, через Diffusers.

В статье разберем, что именно умеет WAN, в каких сценариях он дает сильный результат, как писать промпты и главное — как пользоваться нейросетью из России.

Что такое WAN

WAN, или Wan2.x, — семейство больших генеративных видеомоделей, связанное с Alibaba / Wan Team. В открытой экосистеме доступны разные версии: Wan2.1, Wan2.2, модели для text-to-video, image-to-video, video-to-video, анимации, S2V и Diffusers-варианты. На Hugging Face у Wan-AI есть отдельные коллекции Wan2.1, Wan2.2 и Wan2.2-diffusers.

В научном отчете о WAN нейросеть описывается как открытая серия крупномасштабных видеогенеративных моделей.  Есть две основные версии: поменьше — на 1,3 миллиарда параметров и побольше — на 14 миллиардов. Версия на 1,3 B лучше подходит для обычных видеокарт (вроде тех, что ставят в игровые компьютеры), а версия на 14 B дает более качественное видео, но требует более мощного оборудования.

Важно: WAN — не один сайт, а набор моделей и способов запуска. Один пользователь может открыть готовый интерфейс и сделать короткое видео из картинки. Другой — поставить модель локально, встроить ее в ComfyUI и собрать собственный pipeline для серийной генерации.

Как устроен интерфейс WAN

Зависит от того, где вы его используете: на официальном сайте, в стороннем веб-сервисе, через Hugging Face, ComfyUI или локальный запуск. Но механизм почти везде одинаковый: нужно выбирать режим, задать промпт, настроить формат ролика и запустить генерацию.

В стандартном веб-интерфейсе есть несколько ключевых зон.

Первая — выбор режима. 

Для видео чаще всего нужны text-to-video и image-to-video. 

Вторая — поле промпта. 

Сюда пишут визуальные параметры: camera movement, angle, lens, lighting, color grading, style, what to preserve. Чем точнее описаны камера, свет и ограничения, тем меньше модель додумывает. Ближе к концу статьи мы подготовили две большие шпаргалки по настройкам кадра. 

Третья — negative prompt. 

Это поле нужно, чтобы убрать типовые ошибки: текст, логотипи, деформации лица, нестабильный фон, мерцание, изменение формы объекта.

Четвертая — формат видео.

Обычно выбирают aspect ratio: 9:16 для Reels, Shorts и TikTok; 16:9 для YouTube, сайта и презентаций; 1:1 или 4:5 для ленты. Формат лучше выбирать до генерации, а не обрезать ролик потом.

Пятая — длительность и качество. 

Короткие ролики стабильнее длинных. Для AI-видео лучше генерить сцены по 3–5 секунд: один объект, одно движение камеры, одно действие. А потом длинный ролик надежнее собирать монтажом из нескольких коротких фрагментов.

Шестая — seed и вариации. 

Seed помогает повторить похожий результат или сделать близкие версии удачного кадра. Если ролик  почти получился, лучше менять промпт точечно и фиксировать seed. Если результат полностью не тот, seed можно сменить.

Тарифы и лимиты WAN: на что смотреть перед оплатой

Free (бесплатно)

План подходит для знакомства с сервисом и нерегулярного использования. В него входит:

  • отправка до 1 видео и 1 изображения одновременно;

  • доступ к 6 стилям изображений;

  • неограниченная генерация без расходования кредитов.

Pro ($5 в месяц, при годовой оплате — скидка 50 %; полная цена — $10 в месяц)

Это «самый популярный» план: баланс цены и расширенных возможностей. Основные преимущества:

  • 300 кредитов в месяц;

  • ускорение генерации: до 1200 изображений или 60 видео;

  • отправка до 3 видео и 3 изображений одновременно;

  • создание видео в высоком разрешении (1080p) и увеличенной длительности (10 и 15 секунд);

  • апскейл (увеличение разрешения) изображений;

  • доступ ко всем стилям изображений;

  • скачивание видео и изображений без водяных знаков;

  • неограниченная генерация без кредитов.

Premium ($20 в месяц, при годовой оплате — скидка 50 %; полная цена — $40 в месяц)

Максимальный план для активной работы и коммерческих задач:

  • 1200 кредитов в месяц;

  • ускорение генерации: до 4800 изображений или 240 видео;

  • отправка до 8 видео и 5 изображений одновременно;

  • скачивание видео и изображений без водяных знаков;

  • создание видео в 1080p и увеличенной длительности (10 и 15 секунд);

  • апскейл изображений;

  • доступ ко всем стилям изображений;

  • неограниченная генерация без кредитов.

Важные нюансы

Годовая подписка дает скидку 50 % — это существенно снижает ежемесячную стоимость.

Кредиты используются для ускоренной генерации: чем больше кредитов, тем быстрее обрабатываются сложные запросы.

Неограниченная генерация без кредитов есть во всех планах, но она выполняется в стандартной очереди — скорость будет ниже, чем при использовании кредитов.

Как пользоваться WAN в России

Есть пять практических способов.

Первый — официальный сайт Wan.

Это самый простой путь для теста text-to-video, image-to-video и image editing, если сайт открывается и доступен нужный функционал.

Второй — Hugging Face. 

На этой площадке собирают и выкладывают готовые нейросети, наборы данных и мини‑программы для них. Там доступны модели Wan-AI, включая Wan2.2-T2V, Wan2.2-I2V, Wan2.2-S2V, Wan2.2-Animate и Diffusers-версии. Этот путь подходит тем, кто хочет понять, какие модели существуют, протестировать демо или использовать веса в своем окружении. 

Третий — GitHub. 

Здесь хранят и совместно редактируют код. Репозитории Wan2.1 и Wan2.2 (наборы файлов) нужны для локального запуска, экспериментов, настройки окружения и интеграции в собственные пайплайны.

Четвертый — ComfyUI. 

Это программа, чтобы генерировать картинки (а иногда и видео) с помощью нейросетей. Хороший вариант для креаторов и технических специалистов, которые собирают workflow из узлов: генерация изображения, image-to-video, апскейл, интерполяция, цвет, постобработка.

Пятый — агрегаторы. 

Вариант для тех, кому нужен результат без VPN, локальной настройки, скачивания весов и работы с зависимостями.

Главные режимы WAN

У WAN несколько рабочих режимов. Их не стоит смешивать: каждый решает свою задачу и требует разного подхода к промпту.

Text-to-video

Это генерация видео по текстовому описанию. Пользователь описывает сцену, действие, камеру, свет, стиль и ограничения, а модель создает короткий ролик.

Этот режим подходит для:

  • визуальных концептов;

  • коротких сцен;

  • mood-видео;

  • фонов;

  • b-roll;

  • рекламных черновиков;

  • превизов;

  • идей для Reels, Shorts и Telegram;

  • теста визуального направления до съемки.

Text-to-video хуже подходит, если нужно сохранить конкретного персонажа, точный продукт, фирменный стиль или композицию. Модель сама придумывает кадр, поэтому результат может быть красивым, но не совпасть с задачей.

Пример промпта:

«Черный электромобиль едет по мокрой ночной улице, отражения неоновых вывесок на асфальте, медленное движение камеры сбоку, реалистичный стиль, кинематографичный свет, без текста, без логотипов, без деформации колес».

Image-to-video

Самый полезный режим для большинства креаторов. Пользователь сначала создает или загружает исходный кадр, а потом просит WAN оживить его.

Этот режим дает больше контроля, чем text-to-video. Вы уже задаете композицию, персонажа, продукт, фон, цвет, стиль и ракурс. Модель отвечает в основном за движение.

Image-to-video подходит для:

  • оживления портретов;

  • product shot;

  • анимированных обложек;

  • motion-креативов;

  • оживления изображений из Midjourney, Flux или Stable Diffusion;

  • коротких видео для соцсетей;

  • заставок;

  • визуальных тестов для рекламы;

  • оживления concept art;

  • легкого движения камеры в статичной сцене.

Пример промпта:

«Оживи исходное изображение: камера медленно приближается, волосы слегка двигаются от ветра, фон остается стабильным, лицо не менять, одежду не менять, стиль и композицию сохранить».

Главное правило: если важен контроль, начинайте не с text-to-video, а с сильного исходного изображения. Чем точнее первый кадр, тем меньше модель будет додумывать.

Video-to-video и редактирование

Подходит, когда у вас уже есть ролик, но нужно изменить стиль, усилить движение, сделать вариацию сцены или преобразовать видео в другой визуальный формат.

В Wan2.2 на Hugging Face есть Animate- и video-to-video-направления. В экосистеме Wan также упоминаются instruction-guided video editing: модель получает видео или визуальный материал и инструкцию, что изменить.

Video-to-video полезен для:

  • стилизации ролика;

  • чернового превиза;

  • изменения атмосферы;

  • создания вариаций;

  • анимации персонажа;

  • теста движения перед продакшном;

  • превращения статичного или слабого видео в более выразительный вариант.

Но этот режим требует контроля. Модель может изменить больше, чем нужно: лицо, одежду, фон, пропорции, фактуру объекта. Поэтому в промпте нужно прямо писать, что сохранять.

Пример:

«Сохрани композицию, лицо, одежду и положение персонажа. Измени только стиль света: сделать сцену более холодной, добавить мягкий контровой свет, не менять фон и пропорции тела».

Animate

Wan2.2-Animate — направление для анимации и video-to-video-сценариев. На Hugging Face модель Wan2.2-Animat

Нужно преимущественно для персонажной анимации, оживления поз, движения тела, сцен с человеком и controlled animation. Такой режим не стоит использовать как «сделай красивый ролик». Ему лучше давать конкретную задачу: что должно двигаться, что должно остаться стабильным, какие элементы нельзя менять.

Пример:

«Анимируй персонажа: легкий поворот головы вправо, моргание, небольшое движение плеч, камера статична, фон не менять, лицо и прическу сохранить».

S2V

Wan2.2-S2V связан с Speech-to-Video / audio-driven digital human video. Портретные фото могут превращаться в аватары, которые говорят, поют и двигаются.

Это уже не просто «оживить картинку». S2V нужен для сценариев, где есть изображение человека и аудио: аватар, речь, пение, lip-sync, цифровой ведущий, обучающий ролик, презентационный формат.

Например:

  • говорящий аватар;

  • обучающее видео;

  • короткий ролик с ведущим;

  • digital human для продукта;

  • тест персонажа перед продакшном;

  • локализация ролика с новым голосом;

  • прототип видеоинструкции.

Как писать промпт для WAN

Хороший промпт должен задавать управляемую сцену.

Рабочая формула:

объект → действие → сцена (где все происходит) → настройки камеры → свет → стиль → ограничения

Пример полного промпта:

«Матовый черный флакон духов на стеклянной поверхности в минималистичной студии. Медленный поворот флакона на 15 градусов, камера слегка приближается, мягкий студийный свет, реалистичный стиль, отражение на поверхности. Без текста, без логотипов, без рук в кадре, форму флакона не менять».

Кому WAN нужен

WAN нужен не всем.

Он полезен:

  • AI-креаторам, которые делают короткие ролики;

  • дизайнерам, которым нужно оживлять визуалы;

  • motion-специалистам для быстрых тестов;

  • маркетологам для креативных гипотез;

  • редакциям для визуальных вставок;

  • продакшн-командам для превиза;

  • разработчикам для open-source video pipeline;

  • студиям, которые хотят контролировать генерацию;

  • тем, кто уже работает с ComfyUI.

WAN не лучший выбор, если нужно одно финальное видео без отбора дублей, длинная сложная сцена, стабильный персонаж на протяжении минуты, точный текст в кадре или гарантированный результат с первого промпта.

Какой способ использования выбрать

Если нужно просто попробовать WAN, подойдет готовый веб-интерфейс. Если нужен быстрый результат без настройки окружения — агрегатор или сайт. Если нужен контроль над пайплайном — ComfyUI. Если нужен исследовательский или технический сценарий — Hugging Face и GitHub. Если нужна серийная генерация и воспроизводимость — локальный запуск с фиксацией параметров.

Для большинства пользователей оптимальный старт — image-to-video. Сначала создается сильный кадр, потом WAN добавляет движение. Так проще получить управляемый результат и меньше случайных деталей.

Вывод

WAN — один из самых интересных инструментов для AI-видео, потому что это не только генератор роликов, а целая модельная экосистема. Через него можно делать text-to-video, image-to-video, video-to-video, анимацию, S2V-сценарии и локальные пайплайны.

Для пользователя из России варианты доступа стандартные — VPN, веб-интерфейсы, Hugging Face, GitHub, ComfyUI или агрегаторы. Главное — понимать, какой режим выбрать и как контролировать результат.

Для рабочих задач лучше начинать с image-to-video, коротких сцен, понятного движения камеры, сильного исходного кадра и жестких ограничений в промпте. WAN хорошо подходит для концептов, motion-креативов, превизов, b-roll и коротких визуальных сцен. Но он не заменяет полноценный продакшн, не гарантирует стабильность деталей и почти всегда требует отбора дублей.

Если не хочется разбираться с локальным запуском, ComfyUI, весами моделей и настройкой окружения, WAN и другие видео-нейросети можно использовать через SpeShu.AI. Там собраны более 300 мировых моделей, с котороыми можно работать без VPN. Для читателей действует промокод HABRTSNIS15 — он дает +15% на счет агрегатора.

ссылка на оригинал статьи https://habr.com/ru/articles/1054704/