Опубликовано 2 апреля 2026

Отказоустойчивость больших языковых моделей на архитектуре MoE

Когда падает один GPU, система не должна падать целиком

Команды Mooncake и Volcano Engine встроили в фреймворк SGLang механизм эластичного параллелизма экспертов, позволяющий выдержать частичные сбои без перезапуска.

Инфраструктура / Технический контекст 4 – 5 минут чтения
Источник события: LMSYS ORG 4 – 5 минут чтения

Большие языковые модели на архитектуре MoE – «смесь экспертов» – устроены сложно: вместо одной большой нейросети внутри работает множество специализированных подсетей, и для каждого запроса активируется лишь часть из них. Это экономит вычисления, но требует особой организации работы оборудования.

Чтобы обслуживать такие модели в промышленных масштабах, принято использовать подход под названием широкий параллелизм экспертов – когда одна копия модели распределена сразу по 32 и более GPU. Это позволяет обрабатывать большие потоки запросов быстрее и дешевле. Проблема в том, что чем больше GPU задействовано, тем выше вероятность выхода из строя хотя бы одного из них. А при классической схеме развёртывания один сбойный процесс влечёт за собой падение всего инференс-инстанса.

Почему проблема сбоев GPU критична для MoE

Почему это серьёзная проблема

Представьте, что у вас запущен сервис на 32 GPU, и один из них дал сбой. В традиционной схеме это означает полный перезапуск – со всеми вытекающими последствиями: несколько минут простоя, потеря очереди запросов, нагрузка на инфраструктуру. При высоких объёмах трафика даже пара минут простоя – это ощутимые потери.

Именно эту уязвимость и взялась устранить команда Mooncake совместно с Volcano Engine, встроив в фреймворк SGLang механизм под названием Elastic EP – эластичный параллелизм экспертов.

Elastic EP: эластичный параллелизм экспертов для MoE

Идея: разорвать жёсткую привязку

В обычной схеме каждый «эксперт» (подсеть) жёстко закреплён за конкретным GPU. Если этот GPU падает – эксперт недоступен, и система не может продолжать работу.

Elastic EP меняет эту логику: эксперты хранятся с избыточностью, то есть часть из них продублирована на нескольких GPU сразу. Если одно из устройств отказывает, система обнаруживает это, перераспределяет нагрузку на оставшиеся GPU и продолжает обработку запросов – без полной остановки.

Проще говоря: модель немного «теряет в мощности», но не останавливается.

Результаты тестирования Elastic EP и время восстановления

Что показали тесты

Чтобы проверить решение в условиях, приближённых к боевым, команда запустила модель DeepSeek V3.2 на четырёх узлах – 32 GPU суммарно – с 256 резервными экспертами. Конфигурация позволяла системе пережить одновременный отказ до 16 процессов.

В ходе эксперимента часть процессов принудительно завершалась, после чего измерялось время восстановления. Результат: перерыв в обслуживании составил менее 10 секунд – против 2–3 минут при полном перезапуске. Это примерно на 90% быстрее.

При этом в штатном режиме – когда сбоев нет – производительность системы с Elastic EP совпадает с показателями стандартного подхода. То есть надёжность добавляется без потерь в скорости при нормальной работе.

Два уровня защиты от сбоев в MoE моделях

Два уровня защиты

Под капотом решение работает на двух уровнях одновременно.

Первый – уровень планировщика. Это «привратник» системы: он постоянно следит за состоянием всех GPU и, если один из них перестаёт отвечать, сразу исключает его из очереди распределения задач. Новые запросы уходят только на работоспособные ресурсы – без каких-либо прерываний.

Второй – уровень самого параллелизма экспертов. Здесь происходит более тонкая работа: система в реальном времени перераспределяет экспертов с упавших GPU на выжившие, чтобы вычисления продолжались математически корректно. Это позволяет избежать тяжёлых прерываний на уровне исполнения.

Вместе эти два механизма превращают хрупкую MoE-систему в куда более устойчивую конструкцию.

Роль Mooncake в реализации отказоустойчивости Elastic EP

Mooncake как коммуникационная основа

Ключевую роль в реализации играет библиотека Mooncake EP – она выступает в роли отказоустойчивого слоя связи между GPU. Именно она обеспечивает быструю передачу данных между узлами, отслеживает сбои и перестраивает маршруты обмена информацией при частичном отказе оборудования.

Важная деталь: библиотека спроектирована так, чтобы встраиваться в уже существующую инфраструктуру SGLang без масштабных переработок. Это снижает барьер для тех, кто хочет добавить отказоустойчивость в уже работающие системы.

Также в рамках того же фреймворка Elastic EP команда NVIDIA Dynamo предложила реализацию на основе собственного коммуникационного бэкенда – NIXL EP. Это свидетельствует о том, что архитектура задумана как расширяемая: разные команды могут подключать собственные реализации поверх общей схемы.

Значение Elastic EP для надёжности MoE-моделей в продакшене

Почему это важно за пределами конкретного проекта

MoE-модели – это не экзотика. DeepSeek и ряд других крупных моделей используют именно эту архитектуру. По мере того как такие модели всё активнее внедряются в продакшн-системы, вопрос надёжности инфраструктуры становится не менее важным, чем качество самой модели.

До сих пор широкий параллелизм экспертов был несколько похож на канат, натянутый над пропастью без страховки: работает хорошо, пока всё в порядке, но один срыв – и всё падает. Elastic EP предлагает ту самую страховку.

Открытым остаётся вопрос полного динамического восстановления процессов – то есть возможности автоматически «вернуть» упавший GPU обратно в работу без перезапуска всего инстанса. По информации команды, эта функциональность находится в активной разработке.

Тем не менее уже реализованное решение – сокращение времени простоя с нескольких минут до считанных секунд – само по себе меняет уравнение надёжности для систем, где непрерывность работы критически важна.

Оригинальное название: Elastic EP in SGLang: Achieving Partial Failure Tolerance for DeepSeek MoE Deployments
Дата публикации: 25 мар 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья Trinity-Large-Thinking: Открытая модель для серьёзных задач Следующая статья Holo3: новый рекорд в управлении компьютером с помощью ИИ

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Разработчики SGLang представили механизм, позволяющий сохранять работоспособность системы при частичных сбоях в крупных GPU-кластерах.

LMSYS ORGlmsys.org 26 мар 2026

Разработчики SGLang представили механизм частичной отказоустойчивости для моделей типа MoE – теперь сбой одного узла не останавливает всю систему.

LMSYS ORGlmsys.org 26 мар 2026

Инженеры AI21 несколько недель охотились за мистическими сбоями при обучении модели и нашли причину в двух символах кода на уровне GPU.

AI21 Labswww.ai21.com 25 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться