Опубликовано 19 марта 2026

Обучение Llama 4 Scout ускорено на 30% благодаря новому формату данных

Обучение Llama 4 Scout ускорилось на 30% за счёт нового формата данных

Исследователи ускорили обучение модели Llama 4 Scout на 30,2%, сохранив при этом качество результатов, благодаря смене формата числовых данных.

Разработка / Технический контекст 4 – 5 минут чтения

Источник события: PyTorch 4 – 5 минут чтения

Когда речь заходит об обучении больших языковых моделей, одна из главных проблем – это время и ресурсы. Современные модели требуют огромного количества вычислений, а значит, любое ускорение этого процесса – пусть даже на несколько процентов – оборачивается реальной экономией: времени, электроэнергии, денег.

Команда разработчиков из PyTorch недавно сообщила о результате, который сложно назвать рядовым: обучение модели Llama 4 Scout удалось ускорить на 30,2% по сравнению со стандартным подходом, причём без потери качества. Модель сходилась к тем же результатам, что и при обычном режиме.

Формат чисел MXFP8 для ускорения обучения

Дело в формате чисел

Звучит несколько неожиданно, но ключевым изменением стал не алгоритм обучения и не архитектура модели. Разница в том, как числа хранятся и обрабатываются внутри вычислений.

Нейросети во время обучения оперируют огромным количеством числовых значений. То, в каком формате эти числа представлены, напрямую влияет на скорость и точность вычислений. Стандартный формат, который сейчас используется повсеместно – BF16 (сокращение от «bfloat16»). Он обеспечивает достаточную точность и давно стал фактическим стандартом в обучении больших моделей.

Новый подход использует формат MXFP8 – это более компактное представление чисел, которое занимает меньше памяти и обрабатывается быстрее. Проще говоря: если BF16 – это как работать с числами из двух знаков после запятой, то MXFP8 – это один знак, но с умной системой масштабирования, которая позволяет не терять важную информацию.

Главная сложность с такими «укороченными» форматами – риск потери точности в ходе обучения. Модель может начать обучаться хуже, если числа округляются слишком грубо. Именно поэтому переход на MXFP8 до сих пор был нетривиальной задачей, особенно для сложных архитектур.

Llama 4 Scout и MoE-модели: особенности архитектуры

Llama 4 Scout – это не просто большая модель

Важный нюанс: Llama 4 Scout относится к классу так называемых MoE-моделей (Mixture of Experts, или «смесь экспертов»). Это архитектура, при которой модель не активирует все свои параметры сразу – вместо этого для каждого запроса подключается только часть «экспертов», специализированных блоков внутри модели.

Такой подход позволяет создавать очень большие модели, не платя за это пропорциональным ростом вычислительных затрат. Но он же создаёт дополнительные сложности при работе с нестандартными форматами чисел: нагрузка распределяется неравномерно, и поддерживать стабильность вычислений сложнее.

Именно поэтому применить MXFP8 к MoE-архитектуре – задача нетривиальная. Команде пришлось разработать специализированные инструменты, чтобы это сработало корректно.

Результаты тестирования MXFP8 на NVIDIA GB200

Что получилось на практике

Эксперименты проводились на кластере видеокарт GB200 от NVIDIA – это одно из самых мощных решений для обучения ИИ на сегодняшний день. Результат – ускорение на 30,2% – составляет около 81% от теоретического максимума, которого можно достичь при переходе на MXFP8. То есть практика оказалась очень близкой к теории, что само по себе хороший знак.

При этом качество обучения не пострадало: кривые сходимости модели при MXFP8 совпали с результатами BF16. Проще говоря, модель научилась тому же самому – просто быстрее.

Реализация была выполнена с использованием библиотек TorchAO и TorchTitan – инструментов экосистемы PyTorch, предназначенных для оптимизации и масштабирования обучения моделей. Подробности реализации доступны в открытом доступе.

Значение ускорения обучения LLM на 30%

Почему это важно за пределами одного эксперимента

30% ускорения – это не просто красивая цифра в отчёте. В контексте обучения больших моделей это означает, что тот же результат можно получить примерно за три четверти обычного времени. Или – при том же бюджете – обучить модель, которая была бы недостижима раньше.

Для крупных лабораторий, обучающих модели на тысячах ускорителей неделями, подобная оптимизация меняет масштаб возможного. Но потенциально это касается и более широкого круга: по мере того как MoE-архитектуры становятся стандартом, а инструменты для их оптимизации – доступнее, такие техники могут перейти из разряда «экспериментальных» в разряд «обычных».

Отдельно стоит отметить, что речь идёт именно об обучении, а не об инференсе (то есть не о запуске уже обученной модели). Оптимизация инференса – тема отдельная и давно активно развивающаяся. Оптимизация самого процесса обучения – задача более сложная, и прогресс здесь идёт медленнее.

Возможные ограничения и перспективы нового подхода

Открытые вопросы

Пока не вполне ясно, насколько легко этот подход переносится на другие модели и архитектуры. Llama 4 Scout – конкретная модель с конкретными характеристиками, и то, что сработало здесь, не обязательно без изменений применимо где-то ещё.

Также остаётся вопрос о доступности: NVIDIA GB200 – это оборудование уровня крупных дата-центров, не то, что стоит в среднестатистической исследовательской лаборатории. Насколько результаты воспроизводятся на менее экзотическом железе – пока открытый вопрос.

Тем не менее сам факт того, что переход на более компактный числовой формат даёт 30% ускорения при эквивалентном качестве – и это подтверждено на реальной современной архитектуре – выглядит как значимый шаг в сторону более эффективного обучения больших моделей.

#событие #технический контекст #нейросети #обучение ии #инженерия #компьютерные системы #масштабирование #масштабирование моделей #оптимизация обучения моделей

Ссылка на публикацию: https://pytorch.org/blog/mxfp8-training-for-moes-1-3x-training-speedup-vs-bf16-for-llama4-scout-on-gb200-cluster-using-torchao-and-torchtitan/

Оригинальное название: MXFP8 Training for MoEs: 1.3x training speedup vs BF16 for Llama4 Scout on GB200 cluster using TorchAO and TorchTitan

Дата публикации: 12 мар 2026

PyTorch pytorch.org Международный проект и открытая платформа глубокого обучения, активно поддерживаемая исследовательским и разработческим сообществом для создания и внедрения ИИ-моделей.

Предыдущая статья NVIDIA Nemotron 3 Super теперь доступна через Together AI: что это значит для разработчиков Следующая статья Голосовые ИИ-агенты на устройстве: как PyTorch создаёт единую платформу для голосовых задач

Обучение Llama 4 Scout ускорено на 30% благодаря новому формату данных

Формат чисел MXFP8 для ускорения обучения

Llama 4 Scout и MoE-модели: особенности архитектуры

Результаты тестирования MXFP8 на NVIDIA GB200

Значение ускорения обучения LLM на 30%

Возможные ограничения и перспективы нового подхода

Связанные публикации

DeepSpeed научился эффективнее обучать сложные ИИ-модели: что изменилось и зачем это нужно

FlashOptim: как сжать нейросеть без потери качества

Что такое Mixture of Experts и почему о нём говорят всё чаще

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации