Опубликовано 10 марта 2026

Причины числовых расхождений в результатах работы MoE-моделей

Когда «одинаково» и «одинаковый результат» – не одно и то же: числовые расхождения в MoE-моделях

Одни и те же веса, один и тот же запрос – но результаты чуть отличаются. Почему это происходит и почему это важно для обучения нейросетей.

Разработка 4 – 6 минут чтения
Источник события: Fireworks AI 4 – 6 минут чтения

Представьте, что вы дважды решаете один и тот же пример на калькуляторе – и получаете разные ответы. Звучит как поломка. Но именно это происходит с современными языковыми моделями, когда одни и те же вычисления выполняются чуть по-разному внутри разных систем. Не из-за ошибки в весах и не из-за различий в данных – просто потому, что числа складываются в другом порядке.

Команда Fireworks AI опубликовала подробный разбор того, где именно возникают такие расхождения – и почему они важны. Речь идёт о так называемых MoE-моделях (Mixture of Experts, «смесь экспертов»), к которым относятся, например, Kimi K2.5, Qwen3.5-MoE и DeepSeek V3.

Принцип работы архитектуры Mixture of Experts и ее особенности

Что такое MoE и почему с ними сложнее

Проще говоря, обычная языковая модель обрабатывает каждый токен (условно – каждое слово) через одни и те же блоки вычислений. MoE-модели устроены иначе: у них есть несколько «экспертов» – отдельных подсетей, – и для каждого токена динамически выбирается, какие из них задействовать. Это позволяет масштабировать модель без пропорционального роста вычислительной нагрузки.

Но такая архитектура делает поведение модели более чувствительным к числовым погрешностям. Если из-за незначительного отклонения в вычислениях изменится выбор «экспертов», дальнейшая цепочка вычислений пойдёт по другому пути. Маленькая ошибка в начале усиливается на каждом из десятков слоёв.

Причины накопления погрешностей в вычислениях с плавающей точкой

Откуда берётся расхождение

Корень проблемы – в свойстве числовых вычислений, которое обычно остаётся за кадром: сложение чисел с плавающей точкой не является коммутативным в строгом математическом смысле. То есть (a + b) + c и a + (b + c) могут дать разные результаты – не из-за ошибки, а из-за того, как числа округляются на каждом промежуточном шаге.

В обычной жизни это несущественно. Но в модели, которая прогоняет вычисления через 61 слой, такие погрешности накапливаются. И если в процессе обучения модель «видела» числа, сложенные в одном порядке, а при запуске в эксплуатацию (production) они складываются в другом – результаты начинают расходиться.

Основные источники расхождений при инференсе нейросетей

Три места, где порядок меняется

Инженеры Fireworks выделили три основных источника таких расхождений.

Первый – это то, как разные системы синхронизируют вычисления между несколькими GPU. Когда модель работает на нескольких видеокартах одновременно, результаты с разных карт нужно суммировать. Стандартный инструмент для этого (NCCL) делает это в одном порядке, а оптимизированные ядра для ускорения инференса (inference) – в другом. Математически оба варианта верны. Числово – нет.

Второй источник – объединение нескольких операций в одну (так называемые «фьюжн-ядра»). Ради экономии памяти и ускорения вычислений разработчики движков инференса часто объединяют несколько последовательных операций в одну. При этом внутренний порядок суммирования меняется, и нормализация, которая следует за сложением, получает на вход чуть другое число.

Третий – специфика MoE-слоёв, где в одно ядро объединяются сразу несколько операций: взвешенное суммирование выходов экспертов, синхронизация между GPU и нормализация для следующего блока. Этот тип слоёв присутствует в 58 из 61 слоя модели, и ошибки здесь накапливаются особенно интенсивно.

Влияние вычислительных ошибок на процесс дообучения моделей

Почему это незаметно – и почему это всё равно проблема ⚠️

Самое неприятное в этих расхождениях – они не ломают модель очевидным образом. Текст генерируется нормально, ответы выглядят разумно. Расхождение обнаруживается только при точном сравнении вероятностей, которые модель приписывает каждому следующему токену.

Для обычного пользователя это, скорее всего, вообще незаметно. Но для систем, которые дообучают модели на основе обратной связи (так называемый RLHF), это принципиально важно. В таких системах используется «опорная» версия модели, с которой сравниваются новые варианты поведения. Если версия для инференса даёт немного другие вероятности, чем тренировочная версия, система дообучения получает искажённый сигнал и может начать оптимизировать «не то».

Если коротко: модель не сломана, но её точная копия для целей обучения – уже не совсем копия.

Анализ влияния точности округления на примере модели Qwen3.5-MoE

Случай с Qwen3.5-MoE: где расхождение стало видимым

Особенно наглядным оказался случай с моделью Qwen3.5-MoE при работе с изображениями. Для текстовых токенов расхождение оставалось небольшим. Но для токенов, представляющих изображения, метрика расхождения (авторы используют вариант KL-дивергенции – меры различия между двумя распределениями вероятностей) вырастала примерно в 60 раз.

Причина оказалась в том, где именно происходит округление при суммировании выходов экспертов. В референсной реализации каждый вклад эксперта округлялся до менее точного формата до сложения. В оптимизированной версии Fireworks всё складывалось сначала в более точном формате, и округление происходило только в конце. Математически оба подхода корректны. Но поскольку эталонным был именно первый вариант, второй вариант давал другие числа.

Когда в оптимизированной версии MoE-блоки заменили на референсные, расхождение упало до нуля. Это позволило точно локализовать источник проблемы.

Рекомендации по оптимизации и развертыванию MoE-моделей для разработчиков

Что из этого следует

Для разработчиков и исследователей, которые работают с дообучением или развёртыванием MoE-моделей, выводы из этого разбора довольно практичные.

«Одна и та же математика» не означает «одни и те же числа» – и это нужно проверять явно, а не принимать на веру. Простой проверки «генерирует ли модель разумный текст» недостаточно, если вы используете движок инференса как часть пайплайна обучения.

Авторы также подчёркивают, что единая кнопка «выключить все оптимизации» – не лучшее решение, потому что разным задачам нужны разные компромиссы. Для RLHF важна точность. Для инференса в продакшене – скорость. Идеальный вариант – гранулярные настройки, позволяющие выбирать нужный баланс.

Наконец, это ещё одно напоминание о том, что MoE-модели – несмотря на свою эффективность – вносят дополнительный слой хрупкости, связанный с дискретным выбором экспертов. Небольшое числовое отклонение на входе может изменить то, какие эксперты активируются, – и этот выбор затем распространяется через все последующие слои.

Проблема не уникальна и не катастрофична. Но она хорошо иллюстрирует, как инженерные компромиссы, сделанные ради производительности, могут аукнуться там, где их меньше всего ждут.

Оригинальное название: Training-Inference Parity in MoE Models: Where Numerics Drift
Дата публикации: 10 мар 2026
Fireworks AI fireworks.ai Американская технологическая компания, разрабатывающая облачную инфраструктуру и платформу инференса для запуска, оптимизации и масштабирования генеративных ИИ-моделей.
Предыдущая статья LeRobot v0.5.0: когда робототехника становится ближе к каждому Следующая статья Как обучать ИИ на текстах длиной в миллион токенов: идея, которая меняет правила игры

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

Технический контекст Разработка

Новые ядра и математические оптимизации Unsloth сокращают требования к памяти на 35%, увеличивают скорость обучения в 12 раз и позволяют работать с контекстом, который в 6 раз длиннее исходного.

Unslothunsloth.ai 11 фев 2026

Новый алгоритм PMATIC решает проблему, из-за которой малейшая неточность в вычислениях превращает сжатый файл в цифровой мусор, при этом без потери качества.

Профессор Ларс Нильсен 25 янв 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 3 Pro Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Pro Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться