Опубликовано 16 февраля 2026

SGLang-Diffusion: как ускорить генерацию видео в 8 раз

Как SGLang-Diffusion ускоряет генерацию видео в 8 раз

Команда SGLang выпустила новую систему для ускорения видеогенерации: с поддержкой длинных видеороликов и реальными оптимизациями для работы под нагрузкой.

Инфраструктура / Технический контекст 4 – 6 минут чтения

Источник события: LMSYS ORG 4 – 6 минут чтения

Генерировать видео из текста – задача, которую сейчас решают многие модели. Но одно дело – показать демонстрацию, и совсем другое – запустить это в продакшене, обрабатывая сотни запросов в день без чрезмерных затрат на серверы. Именно эту проблему решает SGLang-Diffusion – новая система от команды SGLang, которая делает генерацию видео быстрее и дешевле.

Что такое SGLang-Diffusion и для чего она нужна

Что это и зачем

SGLang-Diffusion – это движок для запуска диффузионных моделей, создающих видео. Он работает с популярными архитектурами вроде CogVideoX, Mochi и Hunyuan и заточен под реальные условия: когда у вас не один пользователь, а поток запросов; когда видео должно быть не 2 секунды, а хотя бы 10–20; и когда каждая лишняя секунда вычислений стоит денег.

Проще говоря, это инструмент для тех, кто хочет встроить видеогенерацию в свой сервис, а не просто поиграться с моделью локально.

Основные оптимизации SGLang-Diffusion

В чём фокус: три ключевые оптимизации

Команда сосредоточилась на трёх направлениях, которые дают заметный прирост в скорости и эффективности.

Разделение вычислений по слоям

Диффузионные модели работают посредством повторяющихся блоков – слоёв трансформера. Обычно все они обрабатываются последовательно, один за другим. SGLang-Diffusion разбивает эти слои на группы и распределяет их по разным GPU. Это позволяет распараллелить вычисления и снизить нагрузку на каждую карту.

Особенно это полезно при генерации длинных видео, когда объём данных растёт, а памяти на одной видеокарте может не хватить.

Обработка сразу нескольких запросов

Когда одновременно поступает несколько запросов, система может обрабатывать их вместе – это называется батчингом. Но в случае с видео это не так просто: запросы могут требовать разное разрешение, разную длину ролика, разное количество шагов генерации.

SGLang-Diffusion умеет группировать такие разнородные запросы и обрабатывать их за один проход. Это значительно увеличивает пропускную способность системы – то есть количество видео, которое можно сгенерировать за единицу времени.

Кэширование промежуточных результатов

Когда модель генерирует видео, она делает это шаг за шагом, постепенно уточняя изображение. На каждом шаге вычисляются так называемые ключи и значения – промежуточные данные, необходимые для работы алгоритма.

SGLang-Diffusion сохраняет эти данные между шагами, чтобы не пересчитывать их заново. Это особенно эффективно для длинных видео, где объём таких промежуточных данных велик, а повторные вычисления отнимают время.

Оценка скорости SGLang-Diffusion в сравнении

Насколько это быстрее

Команда провела тесты на нескольких популярных моделях и сравнила результаты с существующими решениями.

Для модели Mochi, которая генерирует видео длиной до 21 секунды, SGLang-Diffusion оказался в 6,4 раза быстрее, чем популярная библиотека Diffusers. Для CogVideoX, где длина видео может доходить до 42 секунд, ускорение составило до 8 раз.

При этом речь идёт не только о скорости генерации одного ролика, но и о пропускной способности всей системы – то есть о том, сколько видео можно сгенерировать за час при одинаковых ресурсах.

Практическое применение SGLang-Diffusion

Что это меняет на практике

Пока большинство демонстраций видеогенерации показывают короткие ролики – несколько секунд, с низким разрешением, без возможности масштабирования на поток пользователей. SGLang-Diffusion делает шаг в сторону реальных сценариев: когда нужно генерировать видео на несколько десятков секунд, с приемлемым качеством, и делать это не для одного запроса, а для множества.

Для разработчиков это означает, что появляется рабочий инструмент, который можно интегрировать в продукт без необходимости собирать свою инфраструктуру с нуля. Для индустрии – что видеогенерация постепенно переходит из категории «интересных экспериментов» в категорию «доступных технологий».

Открытость SGLang-Diffusion

Открытость и доступность

SGLang-Diffusion распространяется с открытым исходным кодом. Это важно, потому что позволяет не только использовать систему, но и адаптировать её под свои задачи, добавлять поддержку новых моделей, экспериментировать с оптимизациями.

Команда также предоставила документацию и примеры использования, что снижает порог входа для тех, кто хочет попробовать систему на практике.

Какие ограничения имеет SGLang-Diffusion

Что остаётся за кадром

Несмотря на впечатляющие цифры, важно понимать, что речь идёт об оптимизации инфраструктуры, а не о прорыве в качестве самих моделей. SGLang-Diffusion делает генерацию быстрее и эффективнее, но итоговое качество видео всё равно зависит от используемой модели.

Кроме того, даже с оптимизациями генерация длинных видео остаётся ресурсоёмкой задачей. Для реального использования всё равно потребуется доступ к производительным GPU, что ограничивает круг тех, кто может позволить себе такие системы.

Наконец, пока не совсем ясно, насколько широко эти оптимизации будут применяться за пределами сообщества SGLang. Многое зависит от того, насколько активно разработчики начнут интегрировать эту систему в свои проекты.

Итоги о SGLang-Diffusion

Итого

SGLang-Diffusion – это попытка сделать видеогенерацию не просто возможной, а практичной. Команда сосредоточилась на том, что действительно важно для работы под нагрузкой: параллелизации, эффективной обработке запросов, экономии вычислений.

Для индустрии это ещё один шаг к тому, чтобы генерация видео перестала быть экзотикой и стала рабочим инструментом. Для разработчиков – возможность попробовать технологию, не собирая всё с нуля. Для пользователей – потенциально более быстрые и доступные сервисы.

Остаётся посмотреть, как эта система приживётся на практике и какие новые возможности откроются благодаря таким оптимизациям.

#аналитика #нейросети #развитие ии #инженерия #видеогенерация #оптимизация моделей

Ссылка на публикацию: https://lmsys.org/blog/2026-02-16-sglang-diffusion-advanced-optimizations

Оригинальное название: SGLang-Diffusion: Advanced Optimizations for Production-Ready Video Generation

Дата публикации: 16 фев 2026

LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.

Предыдущая статья ByteDance выпустила Dola-Seed-2.0-Preview – модель с длинным контекстом и продвинутым мышлением Следующая статья SWE-fficiency: как оценить не только способность ИИ найти баг, но и эффективность его исправления

SGLang-Diffusion: как ускорить генерацию видео в 8 раз

Что такое SGLang-Diffusion и для чего она нужна

Основные оптимизации SGLang-Diffusion

Разделение вычислений по слоям

Обработка сразу нескольких запросов

Кэширование промежуточных результатов

Оценка скорости SGLang-Diffusion в сравнении

Практическое применение SGLang-Diffusion

Открытость SGLang-Diffusion

Какие ограничения имеет SGLang-Diffusion

Итоги о SGLang-Diffusion

Связанные публикации

Zyphra нашла способ сделать механизм внимания в нейросетях быстрее и экономичнее

Lucy 2.0: видеоредактор, который работает в реальном времени

GLM-OCR: маленькая модель, которая читает документы лучше больших

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации