Опубликовано 2 апреля 2026

Отказоустойчивость больших языковых моделей на архитектуре MoE

Когда падает один GPU, система не должна падать целиком

Команды Mooncake и Volcano Engine встроили в фреймворк SGLang механизм эластичного параллелизма экспертов, позволяющий выдержать частичные сбои без перезапуска.

Инфраструктура / Технический контекст 4 – 5 минут чтения
Источник события: LMSYS ORG 4 – 5 минут чтения

Большие языковые модели на архитектуре MoE – «смесь экспертов» – устроены сложно: вместо одной большой нейросети внутри работает множество специализированных подсетей, и для каждого запроса активируется лишь часть из них. Это экономит вычисления, но требует особой организации работы оборудования.

Чтобы обслуживать такие модели в промышленных масштабах, принято использовать подход под названием широкий параллелизм экспертов – когда одна копия модели распределена сразу по 32 и более GPU. Это позволяет обрабатывать большие потоки запросов быстрее и дешевле. Проблема в том, что чем больше GPU задействовано, тем выше вероятность выхода из строя хотя бы одного из них. А при классической схеме развёртывания один сбойный процесс влечёт за собой падение всего инференс-инстанса.

Почему проблема сбоев GPU критична для MoE

Почему это серьёзная проблема

Представьте, что у вас запущен сервис на 32 GPU, и один из них дал сбой. В традиционной схеме это означает полный перезапуск – со всеми вытекающими последствиями: несколько минут простоя, потеря очереди запросов, нагрузка на инфраструктуру. При высоких объёмах трафика даже пара минут простоя – это ощутимые потери.

Именно эту уязвимость и взялась устранить команда Mooncake совместно с Volcano Engine, встроив в фреймворк SGLang механизм под названием Elastic EP – эластичный параллелизм экспертов.

Elastic EP: эластичный параллелизм экспертов для MoE

Идея: разорвать жёсткую привязку

В обычной схеме каждый «эксперт» (подсеть) жёстко закреплён за конкретным GPU. Если этот GPU падает – эксперт недоступен, и система не может продолжать работу.

Elastic EP меняет эту логику: эксперты хранятся с избыточностью, то есть часть из них продублирована на нескольких GPU сразу. Если одно из устройств отказывает, система обнаруживает это, перераспределяет нагрузку на оставшиеся GPU и продолжает обработку запросов – без полной остановки.

Проще говоря: модель немного «теряет в мощности», но не останавливается.

Результаты тестирования Elastic EP и время восстановления

Что показали тесты

Чтобы проверить решение в условиях, приближённых к боевым, команда запустила модель DeepSeek V3.2 на четырёх узлах – 32 GPU суммарно – с 256 резервными экспертами. Конфигурация позволяла системе пережить одновременный отказ до 16 процессов.

В ходе эксперимента часть процессов принудительно завершалась, после чего измерялось время восстановления. Результат: перерыв в обслуживании составил менее 10 секунд – против 2–3 минут при полном перезапуске. Это примерно на 90% быстрее.

При этом в штатном режиме – когда сбоев нет – производительность системы с Elastic EP совпадает с показателями стандартного подхода. То есть надёжность добавляется без потерь в скорости при нормальной работе.

Два уровня защиты от сбоев в MoE моделях

Два уровня защиты

Под капотом решение работает на двух уровнях одновременно.

Первый – уровень планировщика. Это «привратник» системы: он постоянно следит за состоянием всех GPU и, если один из них перестаёт отвечать, сразу исключает его из очереди распределения задач. Новые запросы уходят только на работоспособные ресурсы – без каких-либо прерываний.

Второй – уровень самого параллелизма экспертов. Здесь происходит более тонкая работа: система в реальном времени перераспределяет экспертов с упавших GPU на выжившие, чтобы вычисления продолжались математически корректно. Это позволяет избежать тяжёлых прерываний на уровне исполнения.

Вместе эти два механизма превращают хрупкую MoE-систему в куда более устойчивую конструкцию.

Роль Mooncake в реализации отказоустойчивости Elastic EP

Mooncake как коммуникационная основа

Ключевую роль в реализации играет библиотека Mooncake EP – она выступает в роли отказоустойчивого слоя связи между GPU. Именно она обеспечивает быструю передачу данных между узлами, отслеживает сбои и перестраивает маршруты обмена информацией при частичном отказе оборудования.

Важная деталь: библиотека спроектирована так, чтобы встраиваться в уже существующую инфраструктуру SGLang без масштабных переработок. Это снижает барьер для тех, кто хочет добавить отказоустойчивость в уже работающие системы.

Также в рамках того же фреймворка Elastic EP команда NVIDIA Dynamo предложила реализацию на основе собственного коммуникационного бэкенда – NIXL EP. Это свидетельствует о том, что архитектура задумана как расширяемая: разные команды могут подключать собственные реализации поверх общей схемы.

Значение Elastic EP для надёжности MoE-моделей в продакшене

Почему это важно за пределами конкретного проекта

MoE-модели – это не экзотика. DeepSeek и ряд других крупных моделей используют именно эту архитектуру. По мере того как такие модели всё активнее внедряются в продакшн-системы, вопрос надёжности инфраструктуры становится не менее важным, чем качество самой модели.

До сих пор широкий параллелизм экспертов был несколько похож на канат, натянутый над пропастью без страховки: работает хорошо, пока всё в порядке, но один срыв – и всё падает. Elastic EP предлагает ту самую страховку.

Открытым остаётся вопрос полного динамического восстановления процессов – то есть возможности автоматически «вернуть» упавший GPU обратно в работу без перезапуска всего инстанса. По информации команды, эта функциональность находится в активной разработке.

Тем не менее уже реализованное решение – сокращение времени простоя с нескольких минут до считанных секунд – само по себе меняет уравнение надёжности для систем, где непрерывность работы критически важна.

Оригинальное название: Elastic EP in SGLang: Achieving Partial Failure Tolerance for DeepSeek MoE Deployments
Дата публикации: 25 мар 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья Trinity-Large-Thinking: Открытая модель для серьёзных задач Следующая статья Holo3: новый рекорд в управлении компьютером с помощью ИИ

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Разработчики SGLang представили механизм, позволяющий сохранять работоспособность системы при частичных сбоях в крупных GPU-кластерах.

LMSYS ORGlmsys.org 26 мар 2026

Разработчики SGLang представили механизм частичной отказоустойчивости для моделей типа MoE – теперь сбой одного узла не останавливает всю систему.

LMSYS ORGlmsys.org 26 мар 2026

Инженеры AI21 несколько недель охотились за мистическими сбоями при обучении модели и нашли причину в двух символах кода на уровне GPU.

AI21 Labswww.ai21.com 25 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться