Создание видео с помощью ИИ долгое время выглядело примерно так: ввёл текст – получил короткий клип. Красиво, но одноразово. Управлять деталями, выстраивать сцены, следить за тем, чтобы персонаж в третьем кадре выглядел так же, как в первом, – всё это оставалось за бортом. Alibaba решила изменить именно это.
Компания представила Wan2.7-Video – модель, которая, судя по заявленным возможностям, переводит ИИ-видеогенерацию из разряда «сгенерировать картинку в движении» в полноценный инструмент производства: не набросок, а готовый ролик; не одна сцена, а связная история.
Что внутри и зачем это нужно
Wan2.7-Video – это не одна модель, а набор из четырёх инструментов: генерация видео по тексту, по изображению, по референсу и отдельный инструмент для редактирования уже существующего видео. Все четыре работают в рамках единой системы, которая принимает на вход текст, изображения, видео и аудио.
Проще говоря: можно начать с текстового описания сцены, добавить референсное фото персонажа, приложить аудиофрагмент для передачи настроения – и система сложит всё это в готовый ролик. Длина – от 2 до 15 секунд, разрешение – 720p или 1080p.
Это важно, потому что большинство существующих инструментов либо умеют хорошо генерировать, либо редактировать – но не то и другое одновременно, и уж точно не в рамках единого рабочего процесса.
Режиссёрский контроль без монтажной студии
Один из самых интересных аспектов Wan2.7-Video – это то, насколько детально можно управлять результатом, не прибегая к специализированному ПО.
Хотите изменить движение камеры? Описываете его текстом. Нужно переписать диалог персонажа – система автоматически подстраивает движение губ и сохраняет тембр голоса. Поддерживается несколько десятков базовых и сложных операторских приёмов: панорамы, облёт по орбите, вид от первого лица.
Отдельно стоит отметить работу с несколькими персонажами. Система удерживает визуальную и голосовую идентичность до пяти разных героев на протяжении всего ролика – то есть один и тот же персонаж в разных сценах будет выглядеть и звучать одинаково. Это то, с чем ИИ-инструменты исторически справлялись плохо.
Помимо этого, модель поддерживает более 50 эмоциональных состояний для персонажей и тысячи комбинаций визуальных стилей – от реализма до анимационной стилизации.
От одной фразы – к раскадровке
Особенность, которую Alibaba выделяет особо: достаточно одного промпта, чтобы система сформировала полноценную раскадровку с переходами между сценами, выстроенным освещением и операторскими решениями. Это не просто красивый клип – это структурированное повествование с логикой монтажа.
Механизм продолжения видео позволяет задавать конечный кадр заранее, что устраняет типичную проблему резкого «обрыва» в конце генерации. Переходы становятся плавными, история – цельной.
Wan2.7-Image: чуть раньше, но из той же серии
За несколько дней до выхода видеомодели Alibaba представила Wan2.7-Image – инструмент для генерации изображений, решающий несколько хронических проблем ИИ-графики.
Первая – это визуальная обезличенность. Большинство ИИ-генераторов выдают картинки в усреднённой эстетике, которую сложно настроить под конкретный образ. Wan2.7-Image предлагает детальную настройку черт персонажа – вплоть до формы черепа и разреза глаз.
Вторая – точность цвета. Для брендинга это критично: корпоративный синий должен быть именно тем синим, который прописан в гайдлайне. Модель поддерживает ввод точных цветовых кодов.
Третья – работа с текстом на изображениях. Это давняя слабость генеративных моделей: надписи получались кривыми, буквы – несуществующими. Wan2.7-Image заявляет о поддержке 12 языков и возможности генерировать читаемый текст, таблицы и формулы прямо внутри изображения.
Модель обрабатывает до девяти референсных изображений за раз и выдаёт 12 вариантов в одном пакете. Одновременно вышла версия Wan2.7-Image-Pro с поддержкой 4K и улучшенной интерпретацией запросов.
Что это значит для тех, кто создаёт контент
Обе модели – часть одной логики: дать отдельному человеку или небольшой команде инструменты, которые раньше требовали либо дорогостоящего производства, либо технических знаний в работе с ИИ.
Если это работает так, как заявлено, порог входа в профессиональное видео- и фотопроизводство заметно снижается. Человек, который умеет формулировать идеи и выстраивать нарратив, получает возможность воплощать их без посредников.
Пока, впрочем, это описание возможностей на основе заявленных характеристик. Насколько система ведёт себя стабильно в реальных сценариях – с нестандартными запросами, сложными референсами, длинными нарративами – покажет практика.
Модели доступны через облачную платформу Alibaba и официальный сайт серии Wan, а также интегрированы в приложение Qwen.