Опубликовано 26 марта 2026

SGLang: Как кластер из видеокарт переживает частичные сбои и работает непрерывно

Когда один GPU выходит из строя, а система продолжает работать: как SGLang научился переживать частичные сбои

Разработчики SGLang представили механизм, позволяющий сохранять работоспособность системы при частичных сбоях в крупных GPU-кластерах.

Инфраструктура / Технический контекст 3 – 5 минут чтения
Источник события: LMSYS ORG 3 – 5 минут чтения

Представьте: у вас работает большой кластер из десятков видеокарт, которые вместе обслуживают мощную языковую модель. И вдруг одна из карт выходит из строя. Что происходит дальше? В большинстве случаев всё выходит из строя. Система либо полностью останавливается, либо требует перезапуска и перераспределения нагрузки. Для производственной среды, где важна непрерывность, это серьёзная проблема.

Именно с этой проблемой столкнулись разработчики, развёртывающие крупные модели типа DeepSeek на большом числе ускорителей. И именно для её решения в SGLang появился новый механизм – Elastic EP, то есть эластичный экспертный параллелизм.

Что такое экспертный параллелизм и почему он ломается

Чтобы понять суть проблемы, нужно немного разобраться в том, как устроены современные большие модели типа MoE (Mixture of Experts – «смесь экспертов»). Если совсем просто: такая модель не обрабатывает каждый запрос целиком на одном устройстве. Вместо этого она разбита на множество «экспертов» – отдельных блоков, каждый из которых специализируется на определённых задачах. Разные запросы направляются к разным экспертам, а сами эксперты распределены по разным GPU.

Это позволяет запускать модели с сотнями миллиардов параметров на реальном оборудовании. Но у такой схемы есть уязвимость: если один GPU выходит из строя, эксперты на нём становятся недоступны. Система не знает, как продолжать работу без них, и либо зависает, либо аварийно завершается.

Раньше единственным выходом был полный перезапуск кластера с перераспределением нагрузки – это дорого по времени и ресурсам.

Эластичность как ответ на хрупкость

Elastic EP меняет логику поведения системы при сбое. Проще говоря: если какой-то узел кластера перестал отвечать, система не падает вместе с ним, а перестраивается на ходу.

Механизм работает следующим образом. Все GPU в кластере заранее знают о конфигурации соседей. Когда один из узлов отказывает, оставшиеся узлы автоматически перераспределяют между собой нагрузку экспертов, которые были на неисправном узле. Запросы продолжают обрабатываться – медленнее или с чуть меньшей пропускной способностью, но без полной остановки.

Это похоже на то, как работает хороший сервис доставки: если один курьер заболел, заказы не зависают намертво – их передают коллегам, пусть и с небольшой задержкой.

Применение Elastic EP на практике

Что это даёт на практике

Для команд, которые развёртывают большие модели в производственной среде, это принципиальный сдвиг. До появления Elastic EP даже единичный сбой GPU мог вывести из строя весь инференс-кластер на время, достаточное, чтобы нарушить SLA и создать инциденты для пользователей.

Теперь частичный отказ перестаёт быть катастрофой. Система продолжает обслуживать запросы. Неисправный узел можно заменить или перезапустить в фоновом режиме, не останавливая работу.

Особенно это важно для MoE-моделей вроде DeepSeek, которые требуют десятков GPU даже для базового развёртывания. Чем больше кластер – тем выше вероятность того, что какой-то узел в какой-то момент даст сбой. Это просто статистика.

Внедрение эластичности в SGLang и его значение

Маленькая деталь с большими последствиями

Интересно, что сама по себе идея эластичности в распределённых системах не нова. Подобные механизмы давно применяются в базах данных, сетевых сервисах и облачных платформах. Но в контексте вывода больших языковых моделей – особенно с архитектурой MoE и экспертным параллелизмом – это относительно новая территория.

Сложность здесь не в самой идее, а в реализации: нужно обеспечить корректное перераспределение экспертов без потери контекста запроса, без рассинхронизации между узлами и без ощутимого провала в производительности в момент перестройки.

Разработчики SGLang решили эту задачу в рамках одного из фреймворков для вывода с открытым исходным кодом – что автоматически означает, что решение доступно сообществу, а не только крупным корпорациям с собственными инженерными командами.

Какие вопросы остаются по Elastic EP

Что остаётся за кадром

Несколько вопросов пока остаются открытыми. Насколько велик объём накладных расходов при перераспределении нагрузки в момент сбоя? Как ведёт себя система при одновременном отказе нескольких узлов? Каков предел масштабируемости механизма?

Это нормальные вопросы для любой новой технологии. Elastic EP – не волшебная защита от всех проблем, а конкретный инструмент для конкретного сценария: частичный отказ в кластере при выводе MoE-модели. И в этом сценарии он закрывает реальную и болезненную проблему.

Для индустрии, которая активно движется в сторону агентных систем и непрерывного вывода – где простои особенно дорого стоят – это шаг в нужном направлении.

Ссылка на публикацию: https://lmsys.org/blog/2026-03-25-eep-partial-failure-tolerance
Оригинальное название: Elastic EP in SGLang: Achieving Partial Failure Tolerance for DeepSeek MoE Deployments
Дата публикации: 25 мар 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья Как ИИ-агенты помогают крупнейшей системе здравоохранения США освободить тысячи рабочих часов Следующая статья Как ИИ может манипулировать людьми и что с этим делают в Google DeepMind

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Разработчики SGLang представили механизм частичной отказоустойчивости для моделей типа MoE – теперь сбой одного узла не останавливает всю систему.

LMSYS ORGlmsys.org 26 мар 2026

ИИ: События

Mixture of Experts: как большие языковые модели учатся не тратить лишнего

Технический контекст Инфраструктура

Подход Mixture of Experts позволяет языковым моделям работать эффективнее, активируя только часть своих возможностей под каждую конкретную задачу.

Red Hatwww.redhat.com 18 мар 2026

Разбираемся, как компании обновляют ИИ-сервисы без риска массовых сбоев, и почему подход с «канареечными релизами» становится стандартом индустрии.

Alibaba Cloudwww.alibabacloud.com 25 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться