Опубликовано 26 марта 2026

SGLang: Как кластер из видеокарт переживает частичные сбои и работает непрерывно

Когда один GPU выходит из строя, а система продолжает работать: как SGLang научился переживать частичные сбои

Разработчики SGLang представили механизм, позволяющий сохранять работоспособность системы при частичных сбоях в крупных GPU-кластерах.

Инфраструктура / Технический контекст 3 – 5 минут чтения

Источник события: LMSYS ORG 3 – 5 минут чтения

Представьте: у вас работает большой кластер из десятков видеокарт, которые вместе обслуживают мощную языковую модель. И вдруг одна из карт выходит из строя. Что происходит дальше? В большинстве случаев всё выходит из строя. Система либо полностью останавливается, либо требует перезапуска и перераспределения нагрузки. Для производственной среды, где важна непрерывность, это серьёзная проблема.

Именно с этой проблемой столкнулись разработчики, развёртывающие крупные модели типа DeepSeek на большом числе ускорителей. И именно для её решения в SGLang появился новый механизм – Elastic EP, то есть эластичный экспертный параллелизм.

Что такое экспертный параллелизм и почему он ломается

Чтобы понять суть проблемы, нужно немного разобраться в том, как устроены современные большие модели типа MoE (Mixture of Experts – «смесь экспертов»). Если совсем просто: такая модель не обрабатывает каждый запрос целиком на одном устройстве. Вместо этого она разбита на множество «экспертов» – отдельных блоков, каждый из которых специализируется на определённых задачах. Разные запросы направляются к разным экспертам, а сами эксперты распределены по разным GPU.

Это позволяет запускать модели с сотнями миллиардов параметров на реальном оборудовании. Но у такой схемы есть уязвимость: если один GPU выходит из строя, эксперты на нём становятся недоступны. Система не знает, как продолжать работу без них, и либо зависает, либо аварийно завершается.

Раньше единственным выходом был полный перезапуск кластера с перераспределением нагрузки – это дорого по времени и ресурсам.

Эластичность как ответ на хрупкость

Elastic EP меняет логику поведения системы при сбое. Проще говоря: если какой-то узел кластера перестал отвечать, система не падает вместе с ним, а перестраивается на ходу.

Механизм работает следующим образом. Все GPU в кластере заранее знают о конфигурации соседей. Когда один из узлов отказывает, оставшиеся узлы автоматически перераспределяют между собой нагрузку экспертов, которые были на неисправном узле. Запросы продолжают обрабатываться – медленнее или с чуть меньшей пропускной способностью, но без полной остановки.

Это похоже на то, как работает хороший сервис доставки: если один курьер заболел, заказы не зависают намертво – их передают коллегам, пусть и с небольшой задержкой.

Применение Elastic EP на практике

Что это даёт на практике

Для команд, которые развёртывают большие модели в производственной среде, это принципиальный сдвиг. До появления Elastic EP даже единичный сбой GPU мог вывести из строя весь инференс-кластер на время, достаточное, чтобы нарушить SLA и создать инциденты для пользователей.

Теперь частичный отказ перестаёт быть катастрофой. Система продолжает обслуживать запросы. Неисправный узел можно заменить или перезапустить в фоновом режиме, не останавливая работу.

Особенно это важно для MoE-моделей вроде DeepSeek, которые требуют десятков GPU даже для базового развёртывания. Чем больше кластер – тем выше вероятность того, что какой-то узел в какой-то момент даст сбой. Это просто статистика.

Внедрение эластичности в SGLang и его значение

Маленькая деталь с большими последствиями

Интересно, что сама по себе идея эластичности в распределённых системах не нова. Подобные механизмы давно применяются в базах данных, сетевых сервисах и облачных платформах. Но в контексте вывода больших языковых моделей – особенно с архитектурой MoE и экспертным параллелизмом – это относительно новая территория.

Сложность здесь не в самой идее, а в реализации: нужно обеспечить корректное перераспределение экспертов без потери контекста запроса, без рассинхронизации между узлами и без ощутимого провала в производительности в момент перестройки.

Разработчики SGLang решили эту задачу в рамках одного из фреймворков для вывода с открытым исходным кодом – что автоматически означает, что решение доступно сообществу, а не только крупным корпорациям с собственными инженерными командами.

Какие вопросы остаются по Elastic EP

Что остаётся за кадром

Несколько вопросов пока остаются открытыми. Насколько велик объём накладных расходов при перераспределении нагрузки в момент сбоя? Как ведёт себя система при одновременном отказе нескольких узлов? Каков предел масштабируемости механизма?

Это нормальные вопросы для любой новой технологии. Elastic EP – не волшебная защита от всех проблем, а конкретный инструмент для конкретного сценария: частичный отказ в кластере при выводе MoE-модели. И в этом сценарии он закрывает реальную и болезненную проблему.

Для индустрии, которая активно движется в сторону агентных систем и непрерывного вывода – где простои особенно дорого стоят – это шаг в нужном направлении.

#прикладной разбор #технический контекст #нейросети #безопасность ии #компьютерные системы #инфраструктура #масштабирование моделей #оптимизация инференса

Ссылка на публикацию: https://lmsys.org/blog/2026-03-25-eep-partial-failure-tolerance

Оригинальное название: Elastic EP in SGLang: Achieving Partial Failure Tolerance for DeepSeek MoE Deployments

Дата публикации: 25 мар 2026

LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.

Предыдущая статья Как ИИ-агенты помогают крупнейшей системе здравоохранения США освободить тысячи рабочих часов Следующая статья Как ИИ может манипулировать людьми и что с этим делают в Google DeepMind

SGLang: Как кластер из видеокарт переживает частичные сбои и работает непрерывно

Что такое экспертный параллелизм и почему он ломается

Эластичность как ответ на хрупкость

Применение Elastic EP на практике

Внедрение эластичности в SGLang и его значение

Какие вопросы остаются по Elastic EP

Связанные публикации

Устойчивость к сбоям в больших языковых моделях: как DeepSeek учится работать с отказами

Mixture of Experts: как большие языковые модели учатся не тратить лишнего

Как безопасно обновлять ИИ-сервисы: «канареечные» релизы на нескольких кластерах

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации