Опубликовано 19 марта 2026

Обучение Llama 4 Scout ускорено на 30% благодаря новому формату данных

Обучение Llama 4 Scout ускорилось на 30% за счёт нового формата данных

Исследователи ускорили обучение модели Llama 4 Scout на 30,2%, сохранив при этом качество результатов, благодаря смене формата числовых данных.

Разработка / Технический контекст 4 – 5 минут чтения
Источник события: PyTorch 4 – 5 минут чтения

Когда речь заходит об обучении больших языковых моделей, одна из главных проблем – это время и ресурсы. Современные модели требуют огромного количества вычислений, а значит, любое ускорение этого процесса – пусть даже на несколько процентов – оборачивается реальной экономией: времени, электроэнергии, денег.

Команда разработчиков из PyTorch недавно сообщила о результате, который сложно назвать рядовым: обучение модели Llama 4 Scout удалось ускорить на 30,2% по сравнению со стандартным подходом, причём без потери качества. Модель сходилась к тем же результатам, что и при обычном режиме.

Формат чисел MXFP8 для ускорения обучения

Дело в формате чисел

Звучит несколько неожиданно, но ключевым изменением стал не алгоритм обучения и не архитектура модели. Разница в том, как числа хранятся и обрабатываются внутри вычислений.

Нейросети во время обучения оперируют огромным количеством числовых значений. То, в каком формате эти числа представлены, напрямую влияет на скорость и точность вычислений. Стандартный формат, который сейчас используется повсеместно – BF16 (сокращение от «bfloat16»). Он обеспечивает достаточную точность и давно стал фактическим стандартом в обучении больших моделей.

Новый подход использует формат MXFP8 – это более компактное представление чисел, которое занимает меньше памяти и обрабатывается быстрее. Проще говоря: если BF16 – это как работать с числами из двух знаков после запятой, то MXFP8 – это один знак, но с умной системой масштабирования, которая позволяет не терять важную информацию.

Главная сложность с такими «укороченными» форматами – риск потери точности в ходе обучения. Модель может начать обучаться хуже, если числа округляются слишком грубо. Именно поэтому переход на MXFP8 до сих пор был нетривиальной задачей, особенно для сложных архитектур.

Llama 4 Scout и MoE-модели: особенности архитектуры

Llama 4 Scout – это не просто большая модель

Важный нюанс: Llama 4 Scout относится к классу так называемых MoE-моделей (Mixture of Experts, или «смесь экспертов»). Это архитектура, при которой модель не активирует все свои параметры сразу – вместо этого для каждого запроса подключается только часть «экспертов», специализированных блоков внутри модели.

Такой подход позволяет создавать очень большие модели, не платя за это пропорциональным ростом вычислительных затрат. Но он же создаёт дополнительные сложности при работе с нестандартными форматами чисел: нагрузка распределяется неравномерно, и поддерживать стабильность вычислений сложнее.

Именно поэтому применить MXFP8 к MoE-архитектуре – задача нетривиальная. Команде пришлось разработать специализированные инструменты, чтобы это сработало корректно.

Результаты тестирования MXFP8 на NVIDIA GB200

Что получилось на практике

Эксперименты проводились на кластере видеокарт GB200 от NVIDIA – это одно из самых мощных решений для обучения ИИ на сегодняшний день. Результат – ускорение на 30,2% – составляет около 81% от теоретического максимума, которого можно достичь при переходе на MXFP8. То есть практика оказалась очень близкой к теории, что само по себе хороший знак.

При этом качество обучения не пострадало: кривые сходимости модели при MXFP8 совпали с результатами BF16. Проще говоря, модель научилась тому же самому – просто быстрее.

Реализация была выполнена с использованием библиотек TorchAO и TorchTitan – инструментов экосистемы PyTorch, предназначенных для оптимизации и масштабирования обучения моделей. Подробности реализации доступны в открытом доступе.

Значение ускорения обучения LLM на 30%

Почему это важно за пределами одного эксперимента

30% ускорения – это не просто красивая цифра в отчёте. В контексте обучения больших моделей это означает, что тот же результат можно получить примерно за три четверти обычного времени. Или – при том же бюджете – обучить модель, которая была бы недостижима раньше.

Для крупных лабораторий, обучающих модели на тысячах ускорителей неделями, подобная оптимизация меняет масштаб возможного. Но потенциально это касается и более широкого круга: по мере того как MoE-архитектуры становятся стандартом, а инструменты для их оптимизации – доступнее, такие техники могут перейти из разряда «экспериментальных» в разряд «обычных».

Отдельно стоит отметить, что речь идёт именно об обучении, а не об инференсе (то есть не о запуске уже обученной модели). Оптимизация инференса – тема отдельная и давно активно развивающаяся. Оптимизация самого процесса обучения – задача более сложная, и прогресс здесь идёт медленнее.

Возможные ограничения и перспективы нового подхода

Открытые вопросы

Пока не вполне ясно, насколько легко этот подход переносится на другие модели и архитектуры. Llama 4 Scout – конкретная модель с конкретными характеристиками, и то, что сработало здесь, не обязательно без изменений применимо где-то ещё.

Также остаётся вопрос о доступности: NVIDIA GB200 – это оборудование уровня крупных дата-центров, не то, что стоит в среднестатистической исследовательской лаборатории. Насколько результаты воспроизводятся на менее экзотическом железе – пока открытый вопрос.

Тем не менее сам факт того, что переход на более компактный числовой формат даёт 30% ускорения при эквивалентном качестве – и это подтверждено на реальной современной архитектуре – выглядит как значимый шаг в сторону более эффективного обучения больших моделей.

Оригинальное название: MXFP8 Training for MoEs: 1.3x training speedup vs BF16 for Llama4 Scout on GB200 cluster using TorchAO and TorchTitan
Дата публикации: 12 мар 2026
PyTorch pytorch.org Международный проект и открытая платформа глубокого обучения, активно поддерживаемая исследовательским и разработческим сообществом для создания и внедрения ИИ-моделей.
Предыдущая статья NVIDIA Nemotron 3 Super теперь доступна через Together AI: что это значит для разработчиков Следующая статья Голосовые ИИ-агенты на устройстве: как PyTorch создаёт единую платформу для голосовых задач

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

DeepSpeed получил два важных обновления: поддержку обучения мультимодальных моделей и режим экономии памяти за счёт вычислений с пониженной точностью.

PyTorchpytorch.org 5 мар 2026

Лаборатория

FlashOptim: как сжать нейросеть без потери качества

Компьютерная наука

Что если обучение огромной нейросети можно сделать вдвое дешевле по памяти – и при этом ничего не сломать? Именно это исследуют авторы FlashOptim.

Доктор Ким Ли 6 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться