Опубликовано 10 марта 2026

Причины числовых расхождений в результатах работы MoE-моделей

Когда «одинаково» и «одинаковый результат» – не одно и то же: числовые расхождения в MoE-моделях

Одни и те же веса, один и тот же запрос – но результаты чуть отличаются. Почему это происходит и почему это важно для обучения нейросетей.

Разработка 4 – 6 минут чтения

Источник события: Fireworks AI 4 – 6 минут чтения

Представьте, что вы дважды решаете один и тот же пример на калькуляторе – и получаете разные ответы. Звучит как поломка. Но именно это происходит с современными языковыми моделями, когда одни и те же вычисления выполняются чуть по-разному внутри разных систем. Не из-за ошибки в весах и не из-за различий в данных – просто потому, что числа складываются в другом порядке.

Команда Fireworks AI опубликовала подробный разбор того, где именно возникают такие расхождения – и почему они важны. Речь идёт о так называемых MoE-моделях (Mixture of Experts, «смесь экспертов»), к которым относятся, например, Kimi K2.5, Qwen3.5-MoE и DeepSeek V3.

Принцип работы архитектуры Mixture of Experts и ее особенности

Что такое MoE и почему с ними сложнее

Проще говоря, обычная языковая модель обрабатывает каждый токен (условно – каждое слово) через одни и те же блоки вычислений. MoE-модели устроены иначе: у них есть несколько «экспертов» – отдельных подсетей, – и для каждого токена динамически выбирается, какие из них задействовать. Это позволяет масштабировать модель без пропорционального роста вычислительной нагрузки.

Но такая архитектура делает поведение модели более чувствительным к числовым погрешностям. Если из-за незначительного отклонения в вычислениях изменится выбор «экспертов», дальнейшая цепочка вычислений пойдёт по другому пути. Маленькая ошибка в начале усиливается на каждом из десятков слоёв.

Причины накопления погрешностей в вычислениях с плавающей точкой

Откуда берётся расхождение

Корень проблемы – в свойстве числовых вычислений, которое обычно остаётся за кадром: сложение чисел с плавающей точкой не является коммутативным в строгом математическом смысле. То есть (a + b) + c и a + (b + c) могут дать разные результаты – не из-за ошибки, а из-за того, как числа округляются на каждом промежуточном шаге.

В обычной жизни это несущественно. Но в модели, которая прогоняет вычисления через 61 слой, такие погрешности накапливаются. И если в процессе обучения модель «видела» числа, сложенные в одном порядке, а при запуске в эксплуатацию (production) они складываются в другом – результаты начинают расходиться.

Основные источники расхождений при инференсе нейросетей

Три места, где порядок меняется

Инженеры Fireworks выделили три основных источника таких расхождений.

Первый – это то, как разные системы синхронизируют вычисления между несколькими GPU. Когда модель работает на нескольких видеокартах одновременно, результаты с разных карт нужно суммировать. Стандартный инструмент для этого (NCCL) делает это в одном порядке, а оптимизированные ядра для ускорения инференса (inference) – в другом. Математически оба варианта верны. Числово – нет.

Второй источник – объединение нескольких операций в одну (так называемые «фьюжн-ядра»). Ради экономии памяти и ускорения вычислений разработчики движков инференса часто объединяют несколько последовательных операций в одну. При этом внутренний порядок суммирования меняется, и нормализация, которая следует за сложением, получает на вход чуть другое число.

Третий – специфика MoE-слоёв, где в одно ядро объединяются сразу несколько операций: взвешенное суммирование выходов экспертов, синхронизация между GPU и нормализация для следующего блока. Этот тип слоёв присутствует в 58 из 61 слоя модели, и ошибки здесь накапливаются особенно интенсивно.

Влияние вычислительных ошибок на процесс дообучения моделей

Почему это незаметно – и почему это всё равно проблема ⚠️

Самое неприятное в этих расхождениях – они не ломают модель очевидным образом. Текст генерируется нормально, ответы выглядят разумно. Расхождение обнаруживается только при точном сравнении вероятностей, которые модель приписывает каждому следующему токену.

Для обычного пользователя это, скорее всего, вообще незаметно. Но для систем, которые дообучают модели на основе обратной связи (так называемый RLHF), это принципиально важно. В таких системах используется «опорная» версия модели, с которой сравниваются новые варианты поведения. Если версия для инференса даёт немного другие вероятности, чем тренировочная версия, система дообучения получает искажённый сигнал и может начать оптимизировать «не то».

Если коротко: модель не сломана, но её точная копия для целей обучения – уже не совсем копия.

Анализ влияния точности округления на примере модели Qwen3.5-MoE

Случай с Qwen3.5-MoE: где расхождение стало видимым

Особенно наглядным оказался случай с моделью Qwen3.5-MoE при работе с изображениями. Для текстовых токенов расхождение оставалось небольшим. Но для токенов, представляющих изображения, метрика расхождения (авторы используют вариант KL-дивергенции – меры различия между двумя распределениями вероятностей) вырастала примерно в 60 раз.

Причина оказалась в том, где именно происходит округление при суммировании выходов экспертов. В референсной реализации каждый вклад эксперта округлялся до менее точного формата до сложения. В оптимизированной версии Fireworks всё складывалось сначала в более точном формате, и округление происходило только в конце. Математически оба подхода корректны. Но поскольку эталонным был именно первый вариант, второй вариант давал другие числа.

Когда в оптимизированной версии MoE-блоки заменили на референсные, расхождение упало до нуля. Это позволило точно локализовать источник проблемы.

Причины числовых расхождений в результатах работы MoE-моделей

Принцип работы архитектуры Mixture of Experts и ее особенности

Причины накопления погрешностей в вычислениях с плавающей точкой

Основные источники расхождений при инференсе нейросетей

Влияние вычислительных ошибок на процесс дообучения моделей

Анализ влияния точности округления на примере модели Qwen3.5-MoE

Рекомендации по оптимизации и развертыванию MoE-моделей для разработчиков

Связанные публикации

Что такое Mixture of Experts и почему о нём говорят всё чаще

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

Как научить компрессор прощать ошибки: почему ваши файлы не распаковываются из-за одной пылинки в расчётах

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации