Генерировать видео из текста – задача, которую сейчас решают многие модели. Но одно дело – показать демонстрацию, и совсем другое – запустить это в продакшене, обрабатывая сотни запросов в день без чрезмерных затрат на серверы. Именно эту проблему решает SGLang-Diffusion – новая система от команды SGLang, которая делает генерацию видео быстрее и дешевле.
Что это и зачем
SGLang-Diffusion – это движок для запуска диффузионных моделей, создающих видео. Он работает с популярными архитектурами вроде CogVideoX, Mochi и Hunyuan и заточен под реальные условия: когда у вас не один пользователь, а поток запросов; когда видео должно быть не 2 секунды, а хотя бы 10–20; и когда каждая лишняя секунда вычислений стоит денег.
Проще говоря, это инструмент для тех, кто хочет встроить видеогенерацию в свой сервис, а не просто поиграться с моделью локально.
В чём фокус: три ключевые оптимизации
Команда сосредоточилась на трёх направлениях, которые дают заметный прирост в скорости и эффективности.
Разделение вычислений по слоям
Диффузионные модели работают посредством повторяющихся блоков – слоёв трансформера. Обычно все они обрабатываются последовательно, один за другим. SGLang-Diffusion разбивает эти слои на группы и распределяет их по разным GPU. Это позволяет распараллелить вычисления и снизить нагрузку на каждую карту.
Особенно это полезно при генерации длинных видео, когда объём данных растёт, а памяти на одной видеокарте может не хватить.
Обработка сразу нескольких запросов
Когда одновременно поступает несколько запросов, система может обрабатывать их вместе – это называется батчингом. Но в случае с видео это не так просто: запросы могут требовать разное разрешение, разную длину ролика, разное количество шагов генерации.
SGLang-Diffusion умеет группировать такие разнородные запросы и обрабатывать их за один проход. Это значительно увеличивает пропускную способность системы – то есть количество видео, которое можно сгенерировать за единицу времени.
Кэширование промежуточных результатов
Когда модель генерирует видео, она делает это шаг за шагом, постепенно уточняя изображение. На каждом шаге вычисляются так называемые ключи и значения – промежуточные данные, необходимые для работы алгоритма.
SGLang-Diffusion сохраняет эти данные между шагами, чтобы не пересчитывать их заново. Это особенно эффективно для длинных видео, где объём таких промежуточных данных велик, а повторные вычисления отнимают время.
Насколько это быстрее
Команда провела тесты на нескольких популярных моделях и сравнила результаты с существующими решениями.
Для модели Mochi, которая генерирует видео длиной до 21 секунды, SGLang-Diffusion оказался в 6,4 раза быстрее, чем популярная библиотека Diffusers. Для CogVideoX, где длина видео может доходить до 42 секунд, ускорение составило до 8 раз.
При этом речь идёт не только о скорости генерации одного ролика, но и о пропускной способности всей системы – то есть о том, сколько видео можно сгенерировать за час при одинаковых ресурсах.
Что это меняет на практике
Пока большинство демонстраций видеогенерации показывают короткие ролики – несколько секунд, с низким разрешением, без возможности масштабирования на поток пользователей. SGLang-Diffusion делает шаг в сторону реальных сценариев: когда нужно генерировать видео на несколько десятков секунд, с приемлемым качеством, и делать это не для одного запроса, а для множества.
Для разработчиков это означает, что появляется рабочий инструмент, который можно интегрировать в продукт без необходимости собирать свою инфраструктуру с нуля. Для индустрии – что видеогенерация постепенно переходит из категории «интересных экспериментов» в категорию «доступных технологий».
Открытость и доступность
SGLang-Diffusion распространяется с открытым исходным кодом. Это важно, потому что позволяет не только использовать систему, но и адаптировать её под свои задачи, добавлять поддержку новых моделей, экспериментировать с оптимизациями.
Команда также предоставила документацию и примеры использования, что снижает порог входа для тех, кто хочет попробовать систему на практике.
Что остаётся за кадром
Несмотря на впечатляющие цифры, важно понимать, что речь идёт об оптимизации инфраструктуры, а не о прорыве в качестве самих моделей. SGLang-Diffusion делает генерацию быстрее и эффективнее, но итоговое качество видео всё равно зависит от используемой модели.
Кроме того, даже с оптимизациями генерация длинных видео остаётся ресурсоёмкой задачей. Для реального использования всё равно потребуется доступ к производительным GPU, что ограничивает круг тех, кто может позволить себе такие системы.
Наконец, пока не совсем ясно, насколько широко эти оптимизации будут применяться за пределами сообщества SGLang. Многое зависит от того, насколько активно разработчики начнут интегрировать эту систему в свои проекты.
Итого
SGLang-Diffusion – это попытка сделать видеогенерацию не просто возможной, а практичной. Команда сосредоточилась на том, что действительно важно для работы под нагрузкой: параллелизации, эффективной обработке запросов, экономии вычислений.
Для индустрии это ещё один шаг к тому, чтобы генерация видео перестала быть экзотикой и стала рабочим инструментом. Для разработчиков – возможность попробовать технологию, не собирая всё с нуля. Для пользователей – потенциально более быстрые и доступные сервисы.
Остаётся посмотреть, как эта система приживётся на практике и какие новые возможности откроются благодаря таким оптимизациям.