WAN — одна из самых заметных open-source моделей для генерации видео. Ее используют также для анимации персонажей, редактирования видео и локальных пайплайнов через Hugging Face, GitHub и ComfyUI.
В отличие от Kling, Runway, Pika и других сервисов, WAN — это открытая экосистема: в ней не просто дают инструмент, а выкладывают сами нейросети, которые можно скачать, запустить на своем компьютере, дообучить под свой кейс. У WAN есть официальные модели, хранилища (там лежат модели, датасеты и скрипты), разные версии на Hugging Face (чтобы было удобно пробовать и скачивать) и сборки для запуска у себя на компьютере — например, через Diffusers.
В статье разберем, что именно умеет WAN, в каких сценариях он дает сильный результат, как писать промпты и главное — как пользоваться нейросетью из России.

Что такое WAN
WAN, или Wan2.x, — семейство больших генеративных видеомоделей, связанное с Alibaba / Wan Team. В открытой экосистеме доступны разные версии: Wan2.1, Wan2.2, модели для text-to-video, image-to-video, video-to-video, анимации, S2V и Diffusers-варианты. На Hugging Face у Wan-AI есть отдельные коллекции Wan2.1, Wan2.2 и Wan2.2-diffusers.
В научном отчете о WAN нейросеть описывается как открытая серия крупномасштабных видеогенеративных моделей. Есть две основные версии: поменьше — на 1,3 миллиарда параметров и побольше — на 14 миллиардов. Версия на 1,3 B лучше подходит для обычных видеокарт (вроде тех, что ставят в игровые компьютеры), а версия на 14 B дает более качественное видео, но требует более мощного оборудования.
Важно: WAN — не один сайт, а набор моделей и способов запуска. Один пользователь может открыть готовый интерфейс и сделать короткое видео из картинки. Другой — поставить модель локально, встроить ее в ComfyUI и собрать собственный pipeline для серийной генерации.
Как устроен интерфейс WAN
Зависит от того, где вы его используете: на официальном сайте, в стороннем веб-сервисе, через Hugging Face, ComfyUI или локальный запуск. Но механизм почти везде одинаковый: нужно выбирать режим, задать промпт, настроить формат ролика и запустить генерацию.
В стандартном веб-интерфейсе есть несколько ключевых зон.
Первая — выбор режима.
Для видео чаще всего нужны text-to-video и image-to-video.
Вторая — поле промпта.
Сюда пишут визуальные параметры: camera movement, angle, lens, lighting, color grading, style, what to preserve. Чем точнее описаны камера, свет и ограничения, тем меньше модель додумывает. Ближе к концу статьи мы подготовили две большие шпаргалки по настройкам кадра.
Третья — negative prompt.
Это поле нужно, чтобы убрать типовые ошибки: текст, логотипи, деформации лица, нестабильный фон, мерцание, изменение формы объекта.
Четвертая — формат видео.
Обычно выбирают aspect ratio: 9:16 для Reels, Shorts и TikTok; 16:9 для YouTube, сайта и презентаций; 1:1 или 4:5 для ленты. Формат лучше выбирать до генерации, а не обрезать ролик потом.
Пятая — длительность и качество.
Короткие ролики стабильнее длинных. Для AI-видео лучше генерить сцены по 3–5 секунд: один объект, одно движение камеры, одно действие. А потом длинный ролик надежнее собирать монтажом из нескольких коротких фрагментов.
Шестая — seed и вариации.
Seed помогает повторить похожий результат или сделать близкие версии удачного кадра. Если ролик почти получился, лучше менять промпт точечно и фиксировать seed. Если результат полностью не тот, seed можно сменить.

Тарифы и лимиты WAN: на что смотреть перед оплатой
Free (бесплатно)
План подходит для знакомства с сервисом и нерегулярного использования. В него входит:
-
отправка до 1 видео и 1 изображения одновременно;
-
доступ к 6 стилям изображений;
-
неограниченная генерация без расходования кредитов.
Pro ($5 в месяц, при годовой оплате — скидка 50 %; полная цена — $10 в месяц)
Это «самый популярный» план: баланс цены и расширенных возможностей. Основные преимущества:
-
300 кредитов в месяц;
-
ускорение генерации: до 1200 изображений или 60 видео;
-
отправка до 3 видео и 3 изображений одновременно;
-
создание видео в высоком разрешении (1080p) и увеличенной длительности (10 и 15 секунд);
-
апскейл (увеличение разрешения) изображений;
-
доступ ко всем стилям изображений;
-
скачивание видео и изображений без водяных знаков;
-
неограниченная генерация без кредитов.
Premium ($20 в месяц, при годовой оплате — скидка 50 %; полная цена — $40 в месяц)
Максимальный план для активной работы и коммерческих задач:
-
1200 кредитов в месяц;
-
ускорение генерации: до 4800 изображений или 240 видео;
-
отправка до 8 видео и 5 изображений одновременно;
-
скачивание видео и изображений без водяных знаков;
-
создание видео в 1080p и увеличенной длительности (10 и 15 секунд);
-
апскейл изображений;
-
доступ ко всем стилям изображений;
-
неограниченная генерация без кредитов.
Важные нюансы
Годовая подписка дает скидку 50 % — это существенно снижает ежемесячную стоимость.
Кредиты используются для ускоренной генерации: чем больше кредитов, тем быстрее обрабатываются сложные запросы.
Неограниченная генерация без кредитов есть во всех планах, но она выполняется в стандартной очереди — скорость будет ниже, чем при использовании кредитов.
Как пользоваться WAN в России
Есть пять практических способов.
Первый — официальный сайт Wan.
Это самый простой путь для теста text-to-video, image-to-video и image editing, если сайт открывается и доступен нужный функционал.
Второй — Hugging Face.
На этой площадке собирают и выкладывают готовые нейросети, наборы данных и мини‑программы для них. Там доступны модели Wan-AI, включая Wan2.2-T2V, Wan2.2-I2V, Wan2.2-S2V, Wan2.2-Animate и Diffusers-версии. Этот путь подходит тем, кто хочет понять, какие модели существуют, протестировать демо или использовать веса в своем окружении.
Третий — GitHub.
Здесь хранят и совместно редактируют код. Репозитории Wan2.1 и Wan2.2 (наборы файлов) нужны для локального запуска, экспериментов, настройки окружения и интеграции в собственные пайплайны.
Четвертый — ComfyUI.
Это программа, чтобы генерировать картинки (а иногда и видео) с помощью нейросетей. Хороший вариант для креаторов и технических специалистов, которые собирают workflow из узлов: генерация изображения, image-to-video, апскейл, интерполяция, цвет, постобработка.
Пятый — агрегаторы.
Вариант для тех, кому нужен результат без VPN, локальной настройки, скачивания весов и работы с зависимостями.
Главные режимы WAN
У WAN несколько рабочих режимов. Их не стоит смешивать: каждый решает свою задачу и требует разного подхода к промпту.
Text-to-video
Это генерация видео по текстовому описанию. Пользователь описывает сцену, действие, камеру, свет, стиль и ограничения, а модель создает короткий ролик.
Этот режим подходит для:
-
визуальных концептов;
-
коротких сцен;
-
mood-видео;
-
фонов;
-
b-roll;
-
рекламных черновиков;
-
превизов;
-
идей для Reels, Shorts и Telegram;
-
теста визуального направления до съемки.
Text-to-video хуже подходит, если нужно сохранить конкретного персонажа, точный продукт, фирменный стиль или композицию. Модель сама придумывает кадр, поэтому результат может быть красивым, но не совпасть с задачей.
Пример промпта:
«Черный электромобиль едет по мокрой ночной улице, отражения неоновых вывесок на асфальте, медленное движение камеры сбоку, реалистичный стиль, кинематографичный свет, без текста, без логотипов, без деформации колес».
Image-to-video
Самый полезный режим для большинства креаторов. Пользователь сначала создает или загружает исходный кадр, а потом просит WAN оживить его.
Этот режим дает больше контроля, чем text-to-video. Вы уже задаете композицию, персонажа, продукт, фон, цвет, стиль и ракурс. Модель отвечает в основном за движение.
Image-to-video подходит для:
-
оживления портретов;
-
product shot;
-
анимированных обложек;
-
motion-креативов;
-
оживления изображений из Midjourney, Flux или Stable Diffusion;
-
коротких видео для соцсетей;
-
заставок;
-
визуальных тестов для рекламы;
-
оживления concept art;
-
легкого движения камеры в статичной сцене.
Пример промпта:
«Оживи исходное изображение: камера медленно приближается, волосы слегка двигаются от ветра, фон остается стабильным, лицо не менять, одежду не менять, стиль и композицию сохранить».
Главное правило: если важен контроль, начинайте не с text-to-video, а с сильного исходного изображения. Чем точнее первый кадр, тем меньше модель будет додумывать.

Video-to-video и редактирование
Подходит, когда у вас уже есть ролик, но нужно изменить стиль, усилить движение, сделать вариацию сцены или преобразовать видео в другой визуальный формат.
В Wan2.2 на Hugging Face есть Animate- и video-to-video-направления. В экосистеме Wan также упоминаются instruction-guided video editing: модель получает видео или визуальный материал и инструкцию, что изменить.
Video-to-video полезен для:
-
стилизации ролика;
-
чернового превиза;
-
изменения атмосферы;
-
создания вариаций;
-
анимации персонажа;
-
теста движения перед продакшном;
-
превращения статичного или слабого видео в более выразительный вариант.
Но этот режим требует контроля. Модель может изменить больше, чем нужно: лицо, одежду, фон, пропорции, фактуру объекта. Поэтому в промпте нужно прямо писать, что сохранять.
Пример:
«Сохрани композицию, лицо, одежду и положение персонажа. Измени только стиль света: сделать сцену более холодной, добавить мягкий контровой свет, не менять фон и пропорции тела».

Animate
Wan2.2-Animate — направление для анимации и video-to-video-сценариев. На Hugging Face модель Wan2.2-Animat
Нужно преимущественно для персонажной анимации, оживления поз, движения тела, сцен с человеком и controlled animation. Такой режим не стоит использовать как «сделай красивый ролик». Ему лучше давать конкретную задачу: что должно двигаться, что должно остаться стабильным, какие элементы нельзя менять.
Пример:
«Анимируй персонажа: легкий поворот головы вправо, моргание, небольшое движение плеч, камера статична, фон не менять, лицо и прическу сохранить».
S2V
Wan2.2-S2V связан с Speech-to-Video / audio-driven digital human video. Портретные фото могут превращаться в аватары, которые говорят, поют и двигаются.
Это уже не просто «оживить картинку». S2V нужен для сценариев, где есть изображение человека и аудио: аватар, речь, пение, lip-sync, цифровой ведущий, обучающий ролик, презентационный формат.
Например:
-
говорящий аватар;
-
обучающее видео;
-
короткий ролик с ведущим;
-
digital human для продукта;
-
тест персонажа перед продакшном;
-
локализация ролика с новым голосом;
-
прототип видеоинструкции.
Как писать промпт для WAN
Хороший промпт должен задавать управляемую сцену.
Рабочая формула:
объект → действие → сцена (где все происходит) → настройки камеры → свет → стиль → ограничения
Пример полного промпта:
«Матовый черный флакон духов на стеклянной поверхности в минималистичной студии. Медленный поворот флакона на 15 градусов, камера слегка приближается, мягкий студийный свет, реалистичный стиль, отражение на поверхности. Без текста, без логотипов, без рук в кадре, форму флакона не менять».

Кому WAN нужен
WAN нужен не всем.
Он полезен:
-
AI-креаторам, которые делают короткие ролики;
-
дизайнерам, которым нужно оживлять визуалы;
-
motion-специалистам для быстрых тестов;
-
маркетологам для креативных гипотез;
-
редакциям для визуальных вставок;
-
продакшн-командам для превиза;
-
разработчикам для open-source video pipeline;
-
студиям, которые хотят контролировать генерацию;
-
тем, кто уже работает с ComfyUI.
WAN не лучший выбор, если нужно одно финальное видео без отбора дублей, длинная сложная сцена, стабильный персонаж на протяжении минуты, точный текст в кадре или гарантированный результат с первого промпта.

Какой способ использования выбрать
Если нужно просто попробовать WAN, подойдет готовый веб-интерфейс. Если нужен быстрый результат без настройки окружения — агрегатор или сайт. Если нужен контроль над пайплайном — ComfyUI. Если нужен исследовательский или технический сценарий — Hugging Face и GitHub. Если нужна серийная генерация и воспроизводимость — локальный запуск с фиксацией параметров.
Для большинства пользователей оптимальный старт — image-to-video. Сначала создается сильный кадр, потом WAN добавляет движение. Так проще получить управляемый результат и меньше случайных деталей.
Вывод
WAN — один из самых интересных инструментов для AI-видео, потому что это не только генератор роликов, а целая модельная экосистема. Через него можно делать text-to-video, image-to-video, video-to-video, анимацию, S2V-сценарии и локальные пайплайны.
Для пользователя из России варианты доступа стандартные — VPN, веб-интерфейсы, Hugging Face, GitHub, ComfyUI или агрегаторы. Главное — понимать, какой режим выбрать и как контролировать результат.
Для рабочих задач лучше начинать с image-to-video, коротких сцен, понятного движения камеры, сильного исходного кадра и жестких ограничений в промпте. WAN хорошо подходит для концептов, motion-креативов, превизов, b-roll и коротких визуальных сцен. Но он не заменяет полноценный продакшн, не гарантирует стабильность деталей и почти всегда требует отбора дублей.
Если не хочется разбираться с локальным запуском, ComfyUI, весами моделей и настройкой окружения, WAN и другие видео-нейросети можно использовать через SpeShu.AI. Там собраны более 300 мировых моделей, с котороыми можно работать без VPN. Для читателей действует промокод HABRTSNIS15 — он дает +15% на счет агрегатора.
ссылка на оригинал статьи https://habr.com/ru/articles/1054704/